A-A+

初识Hadoop从零学习

2016年03月21日 Hadoop 评论 1 条 阅读 146 views 次

《Hadoop权威指南》第一章中,有一段对Hadoop非常形象的介绍,介绍如下:

在古时候,人们用牛来来拉重物。当一头牛拉不动一根圆木时,人们从来没有考虑过要培育更强壮的牛。同理,我们也不该想方设法打造超级计算机,而应该千方百计综合利用更多计算机来解决问题。

                                                                                                             -格雷斯·霍珀(Grace Hopper)

简单的说就是我们现在处于数据时代,数据量变得越来越大,普通计算机已经无法处理,所以通过多台计算机构成集群来共同处理数据,而其中Hadoop就是由分布式计算MapReduce和分布式存储系统HDFS组成而诞生的。现在随着互联网的高速发展,公司日志数据量成数量级增长,如何炼数成金,成了公司日程比较重要的任务,而Hadoop就是炼数成金的工具。

Hadoop从何而来

Hadoop框架最重要的设计HDFS和MapReduce,其理论基础是google的三篇论文GFS、HDFS和BigTable。当然HBase借鉴学习BigTable,关于HBase将会在后面给予介绍。现在回头读这三篇论文感觉比直接上来就学Hadoop好处大大的,如果直接学习Hadoop,感觉就是“一如侯门深似海”、“只缘身在此山中”,先熟读这三篇论文对GFS和MapReduce有个全景了解,再学习Hadoop,我想会是事半功倍。

Google模块介绍

  • GFS:
  1. 组件失效被认为是常态事件,而不是意外事件(冗余);
  2. 以通常的标准衡量,存储文件非常巨大(存储形式);
  3. 绝大部分的文件是采用在文件尾部追加数据,而不是覆盖原有的数据方式(存储方式);
  4. 应用程序和文件系统API的系统设计提高了整个系统的灵活性(设计形式)。
  • MapReduce:
  1. MapReduce是一个编程模型,也是一个处理和生成超大数据集的算法模型的相关实现。
  2. 原理是利用一个输入key/value对集合来产生一个输出的key/value对集合。一般用户只需要处理map和reduce方法即可。
  • BigTable:是一盒分布式的结构化数据存储系统,它被设计用来处理海量数据。

Hadoop发展简史

  • 创始人:Doug Cutting
  • 起源:开源的网络搜索引擎Apache Nutch(Lucene的一部分)
  • 理论基础:google三篇论文
  • Yahoo发展
  • Apache顶级项目

Hadoop现在已经成为企业主流的部署系统,在工业界已经是公认的大数据存储和分析平台,这一事实主要体现在大量直接使用或者间接辅助Hadoop的产品,如hive、HBase、sqoop等等。除Apache发行版,另外一些大公司有自己的Hadoop发行版,如CDH、HDP等。

现在先简单对Hadoop做一介绍。

1 条留言  访客:0 条  博主:1 条

  1. dwzone

    test

给我留言

*

Copyright © If Coding 保留所有权利.   Theme  Ality   

用户登录