Hadoop | If Coding

Hadoop源码解析之Configuration类

说在前面的话 JDK提供了jara.util.Properties类，用于处理配置文件，它继承自Hashtable表示了一个持久的属性集，该集可保存在流中或从流中加载。属性列表中每个键及其对应值都是字符串类型。 jara.util.Properties支持使用反射来get或set值。 Hadoop没有使用java.util.Properties管理配置文件，也没有使用Apache Jakarta Commons Configuration管理配置文件，而是使用了一套独有的配置文件管理系统，并提...

2016年05月25日 Hadoop 暂无评论喜欢 0 阅读 1,781 views 次阅读全文

Hadoop性能调优之部分参数设置技巧

这里主要针对Hadoop1中Mapreduce的性能调优，Hadoop2的MapReduce的性能调优大同小异。这里主要涉及的参数包括： HDFS： dfs.block.size Mapredure： io.sort.mb io.sort.spill.percent mapred.local.dir mapred.map.tasks & mapred.tasktracker.map.tasks.maximum mapred.reduce.tasks & mapred.tasktracker.reduce.tasks.maximum mapred.reduce.max.attempts mapred.reduce.parallel.copies map...

2016年04月29日 Hadoop 暂无评论喜欢 0 阅读 1,396 views 次阅读全文

HDFS block自动进入安全模式（safe mode）原因及解决方案

实验中碰到了如下问题：问题描述： The number of live datanodes 3 has reached the minimum number 0. Safe mode will be turned off automatically once the thresholds have been reached。可能原因：因磁盘空间不足，内存不足，系统掉电等其他原因导致dataNode datablock丢失。一般来说，这是由于系统断电，内存不足等原因导致dataNode丢失超过设置的丢失百分比，系统自动进入安全模式。下面我将...

2016年04月25日 Hadoop 暂无评论喜欢 11 阅读 2,390 views 次阅读全文

从零学习Hadoop之HDFS的Federation机制

从零学习Hadoop之HDFS的Federation机制

上一篇介绍了Hadoop2中的新特性HA机制，是由于单节点故障而开发的，并且提到随着集群规模的变大，NameNode成为性能的瓶颈，而这次介绍一下HDFS的Federation机制就是为了解决这两个问题而开发的。在Hadoop1的HDFS架构中，HDFS集群只有一个名字空间，并且只有单独的一个NameNode，这个NameNode负责对这单独的一个名字空间进行管理。这也正是单点失效（Single Point Failure）的隐患所在。可得：HDFS Federa...

2016年04月15日 Hadoop 暂无评论喜欢 0 阅读 1,152 views 次阅读全文

从零学习Hadoop之HDFS的HA机制

从零学习Hadoop之HDFS的HA机制

Hadoop2.0.0版本之前，NameNode是HDFS集群的单点故障点，每一个集群只有一个NameNode，如果这个机器或者进程不可用，整个集群则无法使用，直到重启NameNode或者新启动一个NameNode节点。那么，导致HDFS集群不可用的两种主要情况：类似机器宕机，Hadoop1解决方式：重启NameNode。计划内的软件或者硬件升级（NameNode节点），将导致集群在段时间范围内不可用。 HDFS的高可用性（High Availablity）就可...

2016年04月15日 Hadoop 评论 1 条喜欢 0 阅读 1,858 views 次阅读全文

从零学习Hadoop之文件在HDFS中的读取和写入

从零学习Hadoop之文件在HDFS中的读取和写入

在《从零学习Hadoop之Hadoop的RPC机制》中介绍了Hadoop的RPC机制，本文接着讲述文件是如何在HDFS中进行读取和写入的，注意其中使用到RPC的地方。文件的读取客户端以及与之交互的HDFS、NameNode、DataNode的读取数据流如下图所示：文件读取的过程如下：使用HDFS提供的客户端开发库Client，向远程的NameNode发起RPC请求。 NameNode会视情况返回文件的部分或者全部Block列表，对于每个Blo...

2016年04月09日 Hadoop 暂无评论喜欢 0 阅读 1,251 views 次阅读全文

从零学习Hadoop之Hadoop的RPC机制

从零学习Hadoop之Hadoop的RPC机制

说在前面的话一般我们说了解的RPC（Remote Procedure Call，远程过程调用）机制都要面对两个问题：对象调用方式；序列/反序列化机制。 RPC架构如图所示： Hadoop自己实现了简单的RPC组件，依赖于Hadoop Writable类型的支持。 Hadoop Writable接口要求每个实现类都要确保将本类的对象正确序列化（writeObject）与反序列化（readObject）。因此，Hadoop RPC使用Java动态代理与反射实现对象的调用方式（...

2016年04月05日 Hadoop 评论 1 条喜欢 0 阅读 1,582 views 次阅读全文

从零学习Hadoop之HDFS架构

从零学习Hadoop之HDFS架构

上一篇《从零学习Hadoop之认识HDFS》简单介绍了一下HDFS。已经了解到HDFS为Hadoop这个分布式计算框架提供高性能、高可靠、高可扩展的存储服务。HDFS架构是一个典型的主从架构，包括一个NameNode节点（主节点）和多个DataNode（从节点）并提供应用程序访问接口。 NameNode是整个文件系统的管理节点，它负责文件系统名字空间（NameSpace）的管理与维护，同时负责客户端文件操作的控制以及具体存储任务的管理...

2016年04月04日 Hadoop 评论 1 条喜欢 2 阅读 1,649 views 次阅读全文

从零学习Hadoop之认识HDFS

从零学习Hadoop之认识HDFS

Hadoop分布式文件系统（Hadoop Distributed File System，HDFS）是一个用在普通硬件设备上的分布式文件系统。它与现有的分布式文件系统有很多近似的地方，但是又和这些文件系统有许多不同的地方。 HDFS HDFS开始是为开源的Apache Nutch项目的基础结构而创建，HDFS是Hadoop项目的一部分，而Hadoop又是Lucene的一部分。 HDFS的特点高容错性，可以用来部署在低廉的硬件上。高吞吐量，用来访问应用程序的数...

2016年04月03日 Hadoop 暂无评论喜欢 0 阅读 966 views 次阅读全文

从零开始搭建Hadoop-0.20.2平台的详细过程

从零开始搭建Hadoop-0.20.2平台的详细过程

说在前面的话本来是之前写在我的另外一篇博客cndwzone.com的文章，时间是2014年6月份的，现在借用一下，由于当时对搭建Hadoop-0.20.2版本记录的比较详细，当然回过头看看，还是存在一些问题，比如SSH是为什么了什么，里面的密钥起到什么作用，当时没有深究，可能会对原理性的东西进行学习记录。由于硬件限制，我在这里说的是hadoop伪分布式模式（Pseudo-Distributed Mode），其实网上已经有很多教程，不...

2016年03月25日 Hadoop 暂无评论喜欢 0 阅读 1,139 views 次阅读全文