适用于现代现代数据湖的 Minio

现代数据湖和数据湖屋建立在现代对象存储之上。 这意味着它们是基于 MinIO 构建的。

MinIO 为现代数据湖/湖屋提供统一的存储解决方案,可以在任何地方运行:私有云、公共云、 托管云、裸机 - 甚至在边缘。 它速度快、可扩展、云原生且随时可用 - 包括所有电池。

适用于现代 Datalakis 的 Minio

打开表格格式就绪

现代数据湖是多引擎的,这些引擎(Spark、Flink、Trino、Arrow、Dask 等)都需要以某种方式绑定到一个内聚的架构中。 现代数据湖必须提供中央表存储、便携式通勤、访问控制和持久结构。这就是 IcebergHudiDelta Lake 等格式发挥作用的地方。 它们是为现代数据湖设计的,并且都受到 MinIO 的支持。 我们可能对哪一个获胜有自己的看法(您可以随时问我们……),但我们致力于支持他们,直到它变得毫无意义为止(请参阅 Docker Swarm 和 Mesosphere)。

打开表格格式就绪

云原生

MinIO 诞生于云中,并遵循云运营模型的原则 - 容器化、编排、微服务、API、基础设施即代码和自动化。 正因为如此,云原生生态系统与 MinIO“完美配合”——从 Spark 到 Presto/Trino,从 Snowflake 到 Dremio,从 Nifi 到 Kafka,从 Prometheus 到 OpenObserve,Istio 到 Linkerd,从 Hashicorp Vault 到 Keycloak。

不相信我们的话 - 输入您最喜欢的云原生技术,让 Google 为您提供证据。

多引擎

MinIO 支持所有与 S3 兼容的查询引擎,也就是说支持所有引擎。 没有看到您使用的 - 请给我们留言,我们会进行调查。

Multi Engine Multi Engine
Multi Engine Multi Engine

高效的

现代数据湖需要一定的性能水平,更重要的是,大规模的性能,这是 Hadoop 只能梦想的,也是老式对象存储只能幻想的。 MinIO 已在多个基准测试中证明它比 Hadoop 快得多,并且迁移路径有 清晰的记录。这意味着您的查询引擎(Spark、Presto、Trino、Snowflake、Microsoft SQL Server、Teradata 等)具有更好的性能。这还包括您的 AI/ML 平台 - 从 MLflowKubeflow

我们发布基准供全世界查看并使其可重复。 在这篇文章中了解我们如何仅使用 32 个现成 NVMe SSD 节点在 GET 上获得 325 GiB/s (349 GB/s), 在 PUT 上获得 165 GiB/s (177 GB/s)。

Performant

轻量的

MinIO 的服务器二进制文件全部小于 100MB。 尽管它的体积很大,但它的功能强大到足以在数据中心运行,但仍然足够小,可以舒适地生活在边缘。 Hadoop 世界中没有这样的替代方案。 对于企业来说,这意味着您的 S3 应用程序可以随时随地使用相同的 API 访问数据。 通过实施 MinIO 边缘位置和复制功能,我们可以捕获和过滤边缘的数据,并将其发送到母集群进行聚合和进一步分析实施。

Lightweight

分类

现代数据湖扩展了 Hadoop 分解中的分解。 现代数据湖具有高速查询处理引擎,并且具有高吞吐量存储。 现代数据湖太大,无法放入数据库,因此数据驻留在对象存储上。 这样数据库就可以专注于查询优化功能,而将存储功能外包给高速对象存储。 通过将数据子集保留在内存中并利用谓词下推 (S3 Select) 和外部表等功能,查询引擎具有更大的灵活性。

分类

开源

采用Hadoop的企业是出于对开源技术的偏好。 作为逻辑上的继承者 - 企业也希望他们的数据湖是开源的。 这就是 Iceberg 蓬勃发展的原因,也是 Databricks 开源 Deltalake 的原因。

检查的能力、免于锁定的自由以及来自数以万计的用户的舒适感具有真正的价值。 MinIO 也是 100% 开源的,确保组织在投资现代数据湖的同时能够忠于自己的目标。

开源

饥饿的

数据不断生成——这意味着它必须不断被吸收——而不会导致消化不良。 MinIO 是专为这个世界而构建的,可以与 Kafka、Flink、RabbitMQ 和许多其他解决方案一起开箱即用。 结果是数据湖/数据湖屋成为单一事实来源,并且可以无缝扩展到 EB 及其他领域。

MinIO 拥有多个客户端,每天的数据摄入量超过 250PB。

Hungry

简单的

简单是很难的。 这需要工作、纪律,最重要的是,需要承诺。 MinIO 的简单性是传奇的,这是我们致力于使我们的软件易于部署、使用、升级和扩展的哲学承诺的结果。 现代数据湖不必很复杂。 有几个部分,我们致力于确保 MinIO 是最容易采用和部署的。

简单的

ELT 或 ETL - 有效

MinIO 不仅适用于每个数据流协议和每个数据管道,而且每个数据流协议和每个数据管道都适用于 MinIO。 每个供应商都进行广泛且频繁的测试,以确保数据管道具有弹性和高性能。

ELT 或 ETL - 有效

有弹性的

MinIO 通过每个对象的内联擦除编码来保护数据,这比复制后从未获得采用的 HDFS 替代方案要高效得多。 此外,MinIO 的 bitrot 检测可确保它永远不会读取损坏的数据 - 即时捕获和修复损坏的对象。 MinIO还支持跨区域、双活复制。 最后,MinIO 支持完整的对象锁定框架,提供合法保留和保留(具有治理和合规模式)。

有弹性的

软件定义

Hadoop HDFS 的后继者不是硬件设备,而是在商用硬件上运行的软件。 这就是 MinIO——软件。 与 Hadoop HDFS 一样,MinIO 旨在充分利用商用服务器。 凭借利用 NVMe 驱动器和 100 GbE 网络的能力,MinIO 可以缩小数据中心,从而提高运营效率和可管理性。 事实上,构建替代数据湖的公司将其硬件占用空间减少了 60% 或更多,同时提高了性能并减少了管理它所需的 FTE。

软件定义

安全的

MinIO 支持多种复杂的服务器端加密方案来保护数据(无论数据位于何处)无论是动态数据还是静态数据。 MinIO 的方法可确保机密性、完整性和真实性,而性能开销可以忽略不计。 使用 AES-256-GCM、ChaCha20-Poly1305 和 AES-CBC 支持服务器端和客户端加密,确保应用程序兼容性。 此外,MinIO 支持业界领先的密钥管理系统 (KMS)。

安全的

了解有关现代数据湖的 MinIO 的更多信息

询问专家

立即与 MinIO 工程师讨论您的 Datalake 问题

立即开始聊天

填写下面的表格给我们发送电子邮件

我们将在1小时内与您联系。

该网站受 reCAPTCHA 和 Google 的保护 隐私政策服务条款 申请。

您使用的是 Internet Explorer 版本 11 或更低版本。由于安全问题和缺乏对 Web 标准的支持,强烈建议您升级到现代浏览器。