现代数据湖和数据湖屋建立在现代对象存储之上。
这意味着它们是基于 MinIO 构建的。
MinIO 为现代数据湖/湖屋提供统一的存储解决方案,可以在任何地方运行:私有云、公共云、
托管云、裸机 - 甚至在边缘。 它速度快、可扩展、云原生且随时可用 - 包括所有电池。
现代数据湖是多引擎的,这些引擎(Spark、Flink、Trino、Arrow、Dask 等)都需要以某种方式绑定到一个内聚的架构中。 现代数据湖必须提供中央表存储、便携式通勤、访问控制和持久结构。这就是 Iceberg、 Hudi 和 Delta Lake 等格式发挥作用的地方。 它们是为现代数据湖设计的,并且都受到 MinIO 的支持。 我们可能对哪一个获胜有自己的看法(您可以随时问我们……),但我们致力于支持他们,直到它变得毫无意义为止(请参阅 Docker Swarm 和 Mesosphere)。
MinIO 诞生于云中,并遵循云运营模型的原则 - 容器化、编排、微服务、API、基础设施即代码和自动化。 正因为如此,云原生生态系统与 MinIO“完美配合”——从 Spark 到 Presto/Trino,从 Snowflake 到 Dremio,从 Nifi 到 Kafka,从 Prometheus 到 OpenObserve,Istio 到 Linkerd,从 Hashicorp Vault 到 Keycloak。
不相信我们的话 - 输入您最喜欢的云原生技术,让 Google 为您提供证据。
MinIO 支持所有与 S3 兼容的查询引擎,也就是说支持所有引擎。 没有看到您使用的 - 请给我们留言,我们会进行调查。
现代数据湖需要一定的性能水平,更重要的是,大规模的性能,这是 Hadoop 只能梦想的,也是老式对象存储只能幻想的。 MinIO 已在多个基准测试中证明它比 Hadoop 快得多,并且迁移路径有 清晰的记录。这意味着您的查询引擎(Spark、Presto、Trino、Snowflake、Microsoft SQL Server、Teradata 等)具有更好的性能。这还包括您的 AI/ML 平台 - 从 MLflow 到 Kubeflow。
我们发布基准供全世界查看并使其可重复。 在这篇文章中了解我们如何仅使用 32 个现成 NVMe SSD 节点在 GET 上获得 325 GiB/s (349 GB/s), 在 PUT 上获得 165 GiB/s (177 GB/s)。
MinIO 的服务器二进制文件全部小于 100MB。 尽管它的体积很大,但它的功能强大到足以在数据中心运行,但仍然足够小,可以舒适地生活在边缘。 Hadoop 世界中没有这样的替代方案。 对于企业来说,这意味着您的 S3 应用程序可以随时随地使用相同的 API 访问数据。 通过实施 MinIO 边缘位置和复制功能,我们可以捕获和过滤边缘的数据,并将其发送到母集群进行聚合和进一步分析实施。
现代数据湖扩展了 Hadoop 分解中的分解。 现代数据湖具有高速查询处理引擎,并且具有高吞吐量存储。 现代数据湖太大,无法放入数据库,因此数据驻留在对象存储上。 这样数据库就可以专注于查询优化功能,而将存储功能外包给高速对象存储。 通过将数据子集保留在内存中并利用谓词下推 (S3 Select) 和外部表等功能,查询引擎具有更大的灵活性。
采用Hadoop的企业是出于对开源技术的偏好。 作为逻辑上的继承者 - 企业也希望他们的数据湖是开源的。 这就是 Iceberg 蓬勃发展的原因,也是 Databricks 开源 Deltalake 的原因。
检查的能力、免于锁定的自由以及来自数以万计的用户的舒适感具有真正的价值。 MinIO 也是 100% 开源的,确保组织在投资现代数据湖的同时能够忠于自己的目标。
数据不断生成——这意味着它必须不断被吸收——而不会导致消化不良。 MinIO 是专为这个世界而构建的,可以与 Kafka、Flink、RabbitMQ 和许多其他解决方案一起开箱即用。 结果是数据湖/数据湖屋成为单一事实来源,并且可以无缝扩展到 EB 及其他领域。
MinIO 拥有多个客户端,每天的数据摄入量超过 250PB。
简单是很难的。 这需要工作、纪律,最重要的是,需要承诺。 MinIO 的简单性是传奇的,这是我们致力于使我们的软件易于部署、使用、升级和扩展的哲学承诺的结果。 现代数据湖不必很复杂。 有几个部分,我们致力于确保 MinIO 是最容易采用和部署的。
MinIO 不仅适用于每个数据流协议和每个数据管道,而且每个数据流协议和每个数据管道都适用于 MinIO。 每个供应商都进行广泛且频繁的测试,以确保数据管道具有弹性和高性能。
MinIO 通过每个对象的内联擦除编码来保护数据,这比复制后从未获得采用的 HDFS 替代方案要高效得多。 此外,MinIO 的 bitrot 检测可确保它永远不会读取损坏的数据 - 即时捕获和修复损坏的对象。 MinIO还支持跨区域、双活复制。 最后,MinIO 支持完整的对象锁定框架,提供合法保留和保留(具有治理和合规模式)。
Hadoop HDFS 的后继者不是硬件设备,而是在商用硬件上运行的软件。 这就是 MinIO——软件。 与 Hadoop HDFS 一样,MinIO 旨在充分利用商用服务器。 凭借利用 NVMe 驱动器和 100 GbE 网络的能力,MinIO 可以缩小数据中心,从而提高运营效率和可管理性。 事实上,构建替代数据湖的公司将其硬件占用空间减少了 60% 或更多,同时提高了性能并减少了管理它所需的 FTE。
MinIO 支持多种复杂的服务器端加密方案来保护数据(无论数据位于何处)无论是动态数据还是静态数据。 MinIO 的方法可确保机密性、完整性和真实性,而性能开销可以忽略不计。 使用 AES-256-GCM、ChaCha20-Poly1305 和 AES-CBC 支持服务器端和客户端加密,确保应用程序兼容性。 此外,MinIO 支持业界领先的密钥管理系统 (KMS)。
我们将在1小时内与您联系。