069 Hadoop及其发行商的未来

以及它的生态圈，从开始到现在也已经有差不多十年历史了。Hadoop从雅虎支持的一个开源项目，到由很多项目组成的Hadoop生态圈，以及依靠Hadoop发行版开展商业活动的三大公司Cloudera、Hortonworks以及MapR，其发展不可谓不迅猛。

我在前面重点介绍了Hadoop的三大发行商，希望通过对其历史、技术和商业模式等各方面的介绍，让你对Hadoop当前的商业化状况有了一定的了解。

那么十年之后，整个生态圈又发生了哪些变化，Hadoop发行商们的未来又会是怎样呢？本文就来探讨这方面的问题。

Hadoop诞生的原因有很多，但是最重要的一条是除去谷歌，硅谷的其他互联网公司们每一个单拎出来，其研发能力都有限，不太可能构建出谷歌那样的大数据架构。而互联网业务的发展决定了这一套大数据架构是不可或缺的，所以这些“兄弟们”以雅虎和Facebook为首，开始抱团取暖，在Hadoop这个开源产品下，逐渐构建出了整个生态体系。

因此，这个生态体系最初的服务对象也是这些互联网公司。互联网公司的研发能力都很强，可以自己定制系统，所以Hadoop生态圈的发展，在很长一段时间里都不够稳定。而传统的非IT企业，则不愿意使用Hadoop。

这种情况随着Cloudera、MapR和Hortonworks的加入，有了很大的改善。这些Hadoop发行商提供的版本，不但是Hadoop的稳定版本，而且加入了很多帮助传统企业使用Hadoop的工具。这些厂商成了Hadoop生态圈里的另外一批受益者。

但是它们都算不上Hadoop生态圈里最大的受益者，从实际情况来看，亚马逊这个全球最大的云计算厂商才是。这里面有两方面原因。

首先，亚马逊自己的研发能力也不足以开发出一套大数据分析生态系统，但是它同样需要类似Hadoop的大数据分析平台，所以亚马逊内部就需要使用Hadoop。这样一来，亚马逊就需要研究怎么在自己内部部署Hadoop系统。

其次，亚马逊又是全球最大的云计算厂商，其所有云计算服务对内对外的接口完全一样，因此通过在亚马逊实现Hadoop的自动运行，除了服务亚马逊，更可以提供服务给外部使用，这就是Elastic MapReduce服务。这不仅让各大企业省去了购买机器集群和管理机器集群的负担，而且让亚马逊卖出了更多的云服务。这种“一鱼两吃”的做法，让亚马逊迅速做大了自己的圈子。

与之相反，其他两个云厂商——微软和谷歌，一开始都不是Hadoop生态圈的，它们都研发了自己的大数据处理平台，供内部使用，因此对于让Hadoop在云端运行起来没有那么大兴趣。等到它们发现，原来亚马逊已经靠云卖Hadoop赚了很多钱，多少有些为时已晚。

亚马逊的Hadoop云端服务，同时摊薄了谷歌和微软这样的云厂商，以及Cloudera、MapR和Hortonworks这些Hadoop发行商的盈利空间。

Cloudera意识到了亚马逊模式的威胁，在2016年曾经试图和英特尔沟通，让其投资Cloudera做云上的Hadoop服务，以便和亚马逊竞争。

然而，可能英特尔同时也是亚马逊的大主顾，亚马逊数据中心需要大量采购英特尔的硬件，又或者是英特尔自己并不想全面进入云计算这个领域，总之Cloudera没有获得足够的资金，这个计划就搁浅了。之后因为盈利不佳，融资不易，它只能自砍估值一半，流血上市。

在这次战争里，亚马逊笑到了最后，还有另外一个原因。亚马逊推出来的存储服务S3历史悠久，非常稳定，而Hadoop本身的文件系统HDFS则比较糟糕、效率很低。在亚马逊实现Elastic MapReduce的时候，对文件系统的处理，并非是基于HDFS的，而是把自己的S3作为存储系统，在上面实现了HDFS的接口而已。

面对一个非常稳定的文件系统，有无数的大小企业又都把自己的数据存在这个文件系统上，Elastic MapReduce相比原生Hadoop系统表现出了更高的效率、更好的性能，自然更受欢迎。加上亚马逊出了名的控制成本、定价便宜，其他Hadoop厂商要想在亚马逊的进攻下赚到钱，就比较艰难了。

微软的转型相对快一些。HDInsight就是微软的Hadoop云产品。它的文件系统也不再是简单的复用HDFS，而是在Windows Azure的存储上实现了HDFS的接口而已。

经过十年的发展，Hadoop所有在云上的版本，基本上都只是实现了HDFS的接口，却不用HDFS的完整实现，这是目前很多人觉得HDFS已死的原因。

另外，Hadoop早年实现的数据处理框架MapReduce，如今在整个生态圈里也被DataBricks主导的Spark打败，Spark已经成为通行的标准了。从这个角度来看，当年雅虎推出的那个Hadoop，经过这么多年的演变，很多东西都已经空心化，被新的技术取代了，留下来的只是接口。

数据处理框架的影响，从目前来看，比文件系统演变的影响要小。有一点很重要，就是亚马逊的Elastic MapReduce虽然取了这个名字，但其服务其实是提供了一个虚拟的Hadoop集群。既然是Hadoop集群，那么不跑MapReduce，而是跑Spark本身也不是问题。所以说名字可以欺骗人，但是数据处理框架的改变，一点都不影响亚马逊赚钱。

Hadoop三大发行商的空间，这些年里越来越被云厂商提供的Hadoop服务给占领了，所以它们的日子都不太好过。现在云厂商占领不了的那些，更多是不想上云，或者还没上云的传统企业。这些企业基于各种考虑，或者是数据安全的问题，或者是自身的IT能力比较弱，所以会选择三大发型商之一的版本。

在这三个版本里，HDFS被重写的MapR版本其文件系统相对稳定，性能更好；而其他两家的版本则基于老的HDFS。整体上看，MapR的版本在存储层可以提供更多的企业级特性，但是要确保和Hadoop生态圈的其他产品兼容却不太容易；Cloudera家大业大，目前可能拥有了最优质的线下客户资源；而Hortonworks暂时看不到任何优势。

在我看来，企业上云是必然趋势。但Cloudera和MapR需要新的盈利增长点，才能抵消企业上云带来的损失，否则长久来看，还是会逐渐走下坡路。而Hortonworks从技术和非技术的各方面表现来看，与竞争对手的差距很遥远，恐怕不出时日，日子就会不好过了。