Kudu是一个开源项目 可以帮助更有效地管理存储

09-26 手机 投稿:迟艾

很多人对Kudu是一个开源项目 可以帮助更有效地管理存储不是很了解那具体是什么情况呢,现在让我们一起来瞧瞧吧!

什么是Kudu?

Kudu是一种特殊的存储系统,以表格的形式存储结构化数据。每个表都包含预定义的列数。它们中的每一个都有一个主键,实际上是该表的一列或多列的一组。此主键用于添加限制并保护列,并且还可用作索引,从而可以轻松更新和删除。这些表是一系列称为平板电脑的数据子集。

什么是Kudu的现状?

Kudu非常发达,已经有很多功能。然而,它仍然需要一些抛光,如果用户建议并做出一些改变,这可以更容易地完成。

Kudu是完全开源的,拥有Apache Software License 2.0。它也打算提交给Apache,因此它可以作为Apache Incubator项目开发。这将使其发展进步更快,并进一步增加其受众。经过一段时间后,Kudu的发展将公开透明地进行。许多公司,如AtScale,小米,英特尔和Splice Machine,共同为Kudu的发展做出了贡献。Kudu还有一个庞大的社区,大量的观众已经在提供他们的建议和贡献。因此,正是推动Kudu发展的人才。

Kudu如何补充HDFS / HBase?

Kudu并不是HDFS / HBase的替代品。它实际上是为了支持HBase和HFDS,并与它们一起运行以增加它们的功能。这是因为HBase和HDFS仍然具有许多功能,使得它们在某些机器上比Kudu更强大。总的来说,这些机器将从这些系统中获得更多好处。

Kudu框架的特点

Kudu框架的主要特征如下:

对表格列进行极快速扫描 - 像Parquet和ORCFile这样的最佳数据格式需要最佳扫描程序,这是Kudu完美解决的。这种格式需要快速扫描,这种扫描只有在柱状数据被正确编码时才会发生。

性能可靠性 - Kudu框架通过弥补Hadoop中存在的许多漏洞和差距来提高Hadoop的整体可靠性。

与Hadoop轻松集成 - Kudu可以轻松与Hadoop及其不同组件集成,以提高效率。

完全开源 - Kudu是一个拥有Apache 2.0许可证的开源系统。它拥有来自不同公司和背景的大型开发人员社区,他们定期更新并提供变更建议。

Kudu如何改变Hadoop生态系统?

Kudu的构建适合Hadoop的生态系统并增强其功能。它还可以与一些Hadoop的关键组件集成,如MapReduce,HBase和HDFS。MapReduce作业可以提供数据或从Kudu表中获取数据。这些功能也可以在Spark中使用。一个特殊的层使一些Spark组件,如Spark SQL和DataFrame可供Kudu访问。虽然Kudu的开发还不足以取代这些功能,但据估计,经过几年的发展,它的开发能力足以满足这些需求。在此之前,Hadoop和Kudu之间的集成非常有用,可以填补Hadoop生态系统的主要空白。(要了解有关Apache Spark的更多信息,请参阅Apache Spark如何帮助快速开发应用程序。)

Kudu可以在各种地方实施。下面给出了这些地方的一些例子:

近实时流媒体输入 - 在需要尽快接收输入的地方,Kudu可以做得非常出色。这种地方的一个例子是企业,其中大量动态数据从不同来源涌入,并且需要实时快速提供。

具有不同访问模式的时序应用程序 - Kudu非常适合基于时间序列的应用程序,因为设置表并使用它来扫描它们更简单。这种用法的一个例子是百货商店,其中必须快速找到旧数据并进行处理以预测产品的未来普及。

遗留系统 - 许多从各种来源获取数据并将它们存储在不同工作站的公司会感到宾至如归。Kudu非常快,可以有效地与Impala集成,以处理所有机器上的数据。

预测建模 - 想要一个良好的建模平台的数据科学家可以使用Kudu。Kudu可以从每一组数据中学习。科学家可以反复运行并重新运行模型,看看会发生什么。

结论

本文【Kudu是一个开源项目 可以帮助更有效地管理存储】到此讲解完毕了,希望对大家有帮助。

声明:生活头条网所有作品(图文、音视频)均由用户自行上传分享,仅供网友学习交流。若您的权利被侵害,请联系admin@gdcyjd.com