深入了解Cloudera新一代混合数据湖仓一体架构
人工智能(AI)正逐步成为重塑企业运营方式的深入强大力量。IDC预测,解C据湖架构由于数据平台在数据存储、代混标准化和访问方面的合数采用率的增加,超过 50% 的仓体中国企业将准备好使用GenAI来处理数据 。根据Cloudera的深入一项研究预测,美国有超过三分之一(36%)的解C据湖架构企业正处于探索AI应用潜力的早期阶段。然而,代混尽管AI的合数普及程度日益提升,一些企业仍在其应用中面临挑战。仓体问题的深入症结在于AI和各类分析技术都基于数据,而这些数据往往零散且相互孤立,解C据湖架构导致很多企业难以访问并从各个环境中收集数据,代混进而投喂给AI使用。合数所以,仓体企业想要从AI中获取业务洞察和价值会变得更加困难。面对分布式数据基础设施、治理、不断变化的安全环境等方面的特殊挑战,企业想要实现AI的全面、快速应用,亟需获得专业的支持。
为了满足客户在数据、AI和分析方面的需求,我们发布了新一代开放式数据湖仓一体架构,加入了多项增强功能,专为快速扩展企业AI应用和创造更多业务价值而构建。目前,Cloudera为云和本地提供带有Apache Iceberg的开放式数据湖仓一体架构。这标志着平台发展的一座重要里程碑:IDC的数据显示,目前全球企业管理的生产数据中约有一半部署在本地。新一代Cloudera平台凭借强大的功能,为数据中心带来与云端完全相同的开放式数据湖仓一体架构功能。对于高度敏感但又至关重要的公司数据,该平台可解决其在管理上的复杂性,同时还能从这些数据中提炼出更大价值。
以下是本次更新中最具影响力的三个功能:
Apache Iceberg
在增加了对Apache Iceberg的功能支持之后,Cloudera能够支持企业将关键任务数据投喂给AI,以优化一些容易出错的流程,从而生成新的用例、提高整体性能和降低成本。借助Iceberg提供的开放表格式,企业可以在本地环境中使用AI处理数据。该方法使企业能够使用新的计算引擎,并且增加了Spark、Flink、Impala和NiFi,实现了在Iceberg中对数据集的并发访问和处理。
凭借时间旅行、模式演进、数据发现简化等内置功能,Iceberg使数据团队能够在保持数据完整性的同时加强对数据湖的管理。由于企业需要实现合规并遵守《中华人民共和国数据安全法》等政策,因此数据湖仓一体架构上的就地模式演进和ACID事务等功能对他们至关重要。无论是在数据中心还是在云端,功能强大的平台数据安全和治理层Shared Data Experience(SDX) 都是开放式数据湖仓一体架构的基本组成部分。
Apache Ozone
随着AI和其他先进分析技术的规模日益扩大,性能和可扩展的数据存储也需要随之提升。Apache Ozone专门用于数据中心,更低的成本提供了更加强大的扩展能力,帮助企业创造更大的业务价值。通过此次更新,Cloudera为客户提供了增强安全性和加强企业就绪性所需的新功能。我们的新一代平台加入了复制改进、卷配额改进、促进云原生架构的存储桶(Bucket)、快照等Ozone功能,而且现在还支持存储桶(Bucket)和卷级别的数据存储。
免停机升级(Zero Downtime Upgrades)
除了Iceberg和Ozone的各项改进之外,该平台现已推出免停机升级(ZDU)功能,为企业提供了一种更加便捷的升级方式。现在,HDFS、Hive、HBase、Kudu、Kafka、Ranger、YARN和Ranger KMS均支持滚动升级。ZDU尽可能减少了对客户工作流程的影响,以减少甚至避免漫长且昂贵的停机。
通过添加ZDU,客户将获得单段升级和大型集群自动升级等功能,从而更大程度提高生产力。对于预计仍会出现停机的平台组件,此次更新将通过Cloudera Manager优化,并快速重启这些组件。在以前的升级换代中,Queue Manager等一些服务往往最先停机并最后重启。现在,这些服务在ZDU启动后几分钟内就能恢复运行。
对于想要从数据中提炼出更大业务价值的企业,AI已逐渐成为必不可少的工具。企业需要在适合数据和分析的环境中运行,这不仅是实现混合数据策略的关键,也是Cloudera的独特之处。Cloudera平台提供了可移植云原生分析功能,能够部署在一切基础设施,同时保持数据治理和安全的一致性,并且适用于云和数据中心。
本文地址:http://microstockbutton.com/news/06a7199922.html
版权声明
本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。