Cloudera、Hortonworks 和 MapR —— Hadoop商业发行版的对比分析

对于企业而言,不管过去是否曾使用过Hadoop,正确选择Hadoop商业发行版都很重要。当企业准备投入巨大的财力在Hadoop平台的硬件和解决方案上时,选择某个商业版的Hadoop系统就变得特别重要了。根据业务需要选择正确的Hadoop商业发行版可以带来更多的数据解决方案并且可以获得业界专业人士的认可。这篇文章将从成本、技术细节、部署和维护等几个方面比较Cloudera、Hortonworks和MapR发布的Hadoop版本。

Hadoop 是一个开源项目,先后有许多公司在其框架基础上进行了增强并且发布了商业版本。Hadoop项目的最大诱惑在于使用者可以根据自身的业务需要定制差异化的功能。在Apache开源社区,Hadoop把所有的相关项目组成一个完整的生态系统,用户几乎不费吹灰之力就可以通过搭配一些组件来实现一个完整功能。


哪些人需要Hadoop分布式系统?

l 需要学习和临时使用Hadoop的各行业专业人士

l 需要在大数据的背景下推进业务解决方案演进的各类机构

l 需要在Hadoop生态系统中开发新工具的人员

 

商业版本的Hadoop有哪些改进?

Hadoop商业发行版的提供者们通过优化核心代码、增强易用性、提供技术支持和持续版本升级为Hadoop平台实现了许多新功能。市场上受认可的Hadoop商业发行版的提供者主要有Cloudera,MapR和Hortonworks。 他们发行的Hadoop商业版本都能与Apache社区开源版本兼容,但它们之间有哪些区别呢?

框架核心:Cloudera,MapR和Hortonworks这三家公司都把Hadoop核心框架打包到了他们的商业版本中;在这基础上,他们都提供了技术支持服务和定制化开发服务。

系统集成:MapR 的商业版Hadoop可靠地支持一系列功能,包括:实时流数据处理,与已有系统集成的内嵌的连接器,数据安全保护,企业级工程品质。

系统管控:Cloudera和MapR 商业发行版中都包含了为系统管理员提供了配置、监控和优化的管控平台。

 

Cloudera,Hortonworks和MapR异同之处分析

版本

优点

缺点

CDH

CDH有一个友好的用户界面及一些实用的工具,比如:Impala

CDH相对MapR Hadoop来说,运行效率显著降低

MapR Hadoop

运行效率高;节点之间可以通过NFS直接访问

MapR Hadoop没有像CDH那样的用户界面

HDP

唯一一个能运行在Windows上的Haoop系统

Ambari管控界面功能比较简单,不够丰富

 

相似性:

l Cloudera, Hortonworks 和MapR三家公司都专注于Hadoop平台开发,商业版本的Hadoop系统是他们的全部收入来源。

l 这三家公司都是中等规模的公司,都拥有一些优质客户和来自其他行业的投资伙伴。

l 这三家公司都提供了免费版本的下载,不同的是,MapR和Cloudera 还为付费客户提供功能增强版本。

l 这三家公司都建立了技术支持社区帮助用户解决遇到的问题以及在用户需要时提供系统演示。

l 这三家公司都通过测试保证发行版本满足用户业务对稳定性和安全性需求。

 

下面我们会在对比每一个商业版本功能的基础上分析其差异性:

Cloudera — CDH

Cloudera 是Hadoop领域知名的公司和市场领导者,提供了市场上第一个Hadoop商业发行版本。它拥有350多个客户并且活跃于Hadoop生态系统开源社区。在多个创新工具的贡献着排行榜中,它都名列榜首。它的系统管控平台——Cloudera Manager,易于使用、界面清晰,拥有丰富的信息内容。Cloudera 专属的集群管控套件能自动化安装部署集群并且提供了许多有用的功能,比如:实时显示节点个数,缩短部署时间等。同时,Cloudera 也提供咨询服务来解决各类机构关于在数据管理方案中如何使用Hadoop技术以及开源社区有哪些新内容等疑虑。美国电商“高朋”公司是CDH的用户。

CDH的主要特性:

l 在线不停机添加新组件

l 多集群统一管理

l 提供差异化配置的节点模板。用户不必使用单一配置的Hadoop集群,可以依此创建差异化配置的集群。

l Hortonworks 和Cloudera都依赖于HDFS的DataNode 和NameNode架构来做数据切分。 

 

MapR — Hadoop

MapR的Hadoop商业发行版紧盯市场需求,能更快反应市场需要。一些行业巨头如思科、埃森哲、波音、谷歌、亚马逊都是MapR的Hadoop的用户。与Cloudera和Hortonworks不同的是, MapR Hadoop不依赖于Linux文件系统,也不依赖于HDFS,而是在MapRFS文件系统上把元数据保存在计算节点,快速进行数据的存储和处理。

MapR Hadoop的主要特性:

l 由于它基于MapRFS,它是唯一一个能不依赖于Java而提供Pig,Hive和Sqoop的Hadoop。

l MapR Hadoop是最适合应用于生产环境的Hadoop版本,它包含了许多易用性、高效和可信赖的增强功能。

l MapR Hadoop集群节点可以通过NFS直接访问,因此用户可以像使用Linux文件系统一样在NFS上直接挂载MapR文件。

l MapR Hadoop提供了完整的数据保护,方便使用并且没有单点故障。

l MapR Hadoop被认为是运行最快的Hadoop版本。

尽管从集群规模来说,MapR Hadoop还不如Hortonworks 和Cloudera,只能暂列第三,但相对其它版本的Hadoop来说,它易用性最强,运行最快。因此,如果用户想选择带有足够创意和学习资料的Hadoop,那么MapR Hadoop将是不二之选。

 

Hortonworks — HDP

Hortonworks是由一些雅虎的工程师创立的公司,提供针对Hadoop的技术服务。与其它公司不同的是,它提供完全开源的Hadoop数据平台并且用户可以免费使用。用户可以很方便得下载Hortonworks 的Hadoop发行版HDP并把它集成到各种应用中。Ebay、三星、彭博、Spotify 都是HDP的用户。Hortonworks 也是第一个基于Hadoop 2.0提供满足生产环境需要的Hadoop版本。尽管CDH在其早期的版本中包含了Hadoop 2.0的部分功能,但这些功能无法满足生产环境需要。HDP 也是目前唯一能支持Windows的Hadoop版本。用户可以在Azure 上通过HDInsight 服务部署Windows上的 Hadoop。

HDP的主要特性:

l HDP 通过Stinger项目提升了Hive的性能

l HDP 通过新的Hadoop分支来避免用户被厂商绑定

l 聚焦于提升Hadoop平台的实用性

 

通过对Hadoop市场上的这三家公司的产品战略和功能分析后,我们很难简单说谁更胜一筹。各类机构需要根据自身业务程度需要来选择Hadoop商业版本。回答下面这些问题可以帮助用户做出选择:

1.        是否会使系统管理员工作更加高效?

2.        是否便于Hadoop开发人员和业务分析人员访问数据?

3.        是否满足机构内部关于数据安全的规章制度要求?

4.        是否适合机构内部的系统运行环境?

5.        是否需要Hadoop提供的所有组件和能力?

6.        是否需要大数据的整体解决方案来支撑业务盈利?以及是否需要紧跟开源以减少被厂商绑定?

7.        系统可靠性、技术支持、扩展功能等是否非常重要?

 

用户如果期望得到一个像样的产品,那选择MapR Hadoop比较适合;如果需要紧跟开源,那么就应该选择Hortonworks;如果用户的业务需求需要介于二者之间,那么Cloudera 就是个不错的选择了。

如何选择Hadoop发行版完全取决于用户在实施Hadoop平台中遇到了什么样的困难。Hadoop商业发行版可以帮助用户把Hadoop平台和其他异构数据分析平台灵活、可靠、可视化地连接起来。每个Hadoop发行版都有其各自的优点和缺点。在选择时,不仅要平衡风险和成本,也要考虑各种发行版的附加功能是否符合实际业务场景需要。

相关文章
相关标签/搜索