A-A+

初识Hadoop从零学习

2016年03月21日 Hadoop 评论 1 条阅读 1,067 views 次

《Hadoop权威指南》第一章中，有一段对Hadoop非常形象的介绍，介绍如下：

在古时候，人们用牛来来拉重物。当一头牛拉不动一根圆木时，人们从来没有考虑过要培育更强壮的牛。同理，我们也不该想方设法打造超级计算机，而应该千方百计综合利用更多计算机来解决问题。

-格雷斯·霍珀（Grace Hopper）

简单的说就是我们现在处于数据时代，数据量变得越来越大，普通计算机已经无法处理，所以通过多台计算机构成集群来共同处理数据，而其中Hadoop就是由分布式计算MapReduce和分布式存储系统HDFS组成而诞生的。现在随着互联网的高速发展，公司日志数据量成数量级增长，如何炼数成金，成了公司日程比较重要的任务，而Hadoop就是炼数成金的工具。

Hadoop从何而来

Hadoop框架最重要的设计HDFS和MapReduce，其理论基础是google的三篇论文GFS、HDFS和BigTable。当然HBase借鉴学习BigTable，关于HBase将会在后面给予介绍。现在回头读这三篇论文感觉比直接上来就学Hadoop好处大大的，如果直接学习Hadoop，感觉就是“一如侯门深似海”、“只缘身在此山中”，先熟读这三篇论文对GFS和MapReduce有个全景了解，再学习Hadoop，我想会是事半功倍。