Hadoop源码解析之Configuration类

Hadoop源码解析之Configuration类
说在前面的话 JDK提供了jara.util.Properties类,用于处理配置文件,它继承自Hashtable表示了一个持久的属性集,该集可保存在流中或从流中加载。属性列表中每个键及其对应值都是字符串类型。 jara.util.Properties支持使用反射来get或set值。 Hadoop没有使用java.util.Properties管理配置文件,也没有使用Apache Jakarta Commons Configuration管理配置文件,而是使用了一套独有的配置文件管理系统,并提...

Hadoop性能调优之部分参数设置技巧

Hadoop性能调优之部分参数设置技巧
这里主要针对Hadoop1中Mapreduce的性能调优,Hadoop2的MapReduce的性能调优大同小异。 这里主要涉及的参数包括: HDFS: dfs.block.size Mapredure: io.sort.mb io.sort.spill.percent mapred.local.dir mapred.map.tasks & mapred.tasktracker.map.tasks.maximum mapred.reduce.tasks & mapred.tasktracker.reduce.tasks.maximum mapred.reduce.max.attempts mapred.reduce.parallel.copies map...

HDFS block自动进入安全模式(safe mode)原因及解决方案

HDFS block自动进入安全模式(safe mode)原因及解决方案
实验中碰到了如下问题: 问题描述: The number of live datanodes 3 has reached the minimum number 0. Safe mode will be turned off automatically once the thresholds have been reached。 可能原因: 因磁盘空间不足,内存不足,系统掉电等其他原因导致dataNode datablock丢失。 一般来说,这是由于系统断电,内存不足等原因导致dataNode丢失超过设置的丢失百分比,系统自动进入安全模式。 下面我将...

从零学习Hadoop之HDFS的Federation机制

从零学习Hadoop之HDFS的Federation机制
上一篇介绍了Hadoop2中的新特性HA机制,是由于单节点故障而开发的,并且提到随着集群规模的变大,NameNode成为性能的瓶颈,而这次介绍一下HDFS的Federation机制就是为了解决这两个问题而开发的。 在Hadoop1的HDFS架构中,HDFS集群只有一个名字空间,并且只有单独的一个NameNode,这个NameNode负责对这单独的一个名字空间进行管理。这也正是单点失效(Single Point Failure)的隐患所在。 可得:HDFS Federa...

从零学习Hadoop之HDFS的HA机制

从零学习Hadoop之HDFS的HA机制
Hadoop2.0.0版本之前,NameNode是HDFS集群的单点故障点,每一个集群只有一个NameNode,如果这个机器或者进程不可用,整个集群则无法使用,直到重启NameNode或者新启动一个NameNode节点。 那么,导致HDFS集群不可用的两种主要情况: 类似机器宕机,Hadoop1解决方式:重启NameNode。 计划内的软件或者硬件升级(NameNode节点),将导致集群在段时间范围内不可用。 HDFS的高可用性(High Availablity)就可...

从零学习Hadoop之文件在HDFS中的读取和写入

从零学习Hadoop之文件在HDFS中的读取和写入
在《从零学习Hadoop之Hadoop的RPC机制》中介绍了Hadoop的RPC机制,本文接着讲述文件是如何在HDFS中进行读取和写入的,注意其中使用到RPC的地方。 文件的读取 客户端以及与之交互的HDFS、NameNode、DataNode的读取数据流如下图所示:     文件读取的过程如下: 使用HDFS提供的客户端开发库Client,向远程的NameNode发起RPC请求。 NameNode会视情况返回文件的部分或者全部Block列表,对于每个Blo...

从零学习Hadoop之Hadoop的RPC机制

从零学习Hadoop之Hadoop的RPC机制
说在前面的话 一般我们说了解的RPC(Remote Procedure Call,远程过程调用)机制都要面对两个问题: 对象调用方式; 序列/反序列化机制。 RPC架构如图所示: Hadoop自己实现了简单的RPC组件,依赖于Hadoop Writable类型的支持。 Hadoop Writable接口要求每个实现类都要确保将本类的对象正确序列化(writeObject)与反序列化(readObject)。因此,Hadoop RPC使用Java动态代理与反射实现对象的调用方式(...

从零学习Hadoop之HDFS架构

从零学习Hadoop之HDFS架构
上一篇《从零学习Hadoop之认识HDFS》简单介绍了一下HDFS。已经了解到HDFS为Hadoop这个分布式计算框架提供高性能、高可靠、高可扩展的存储服务。HDFS架构是一个典型的主从架构,包括一个NameNode节点(主节点)和多个DataNode(从节点)并提供应用程序访问接口。 NameNode是整个文件系统的管理节点,它负责文件系统名字空间(NameSpace)的管理与维护,同时负责客户端文件操作的控制以及具体存储任务的管理...

从零学习Hadoop之认识HDFS

从零学习Hadoop之认识HDFS
Hadoop分布式文件系统(Hadoop Distributed File System,HDFS)是一个用在普通硬件设备上的分布式文件系统。它与现有的分布式文件系统有很多近似的地方,但是又和这些文件系统有许多不同的地方。 HDFS HDFS开始是为开源的Apache Nutch项目的基础结构而创建,HDFS是Hadoop项目的一部分,而Hadoop又是Lucene的一部分。 HDFS的特点 高容错性,可以用来部署在低廉的硬件上。 高吞吐量,用来访问应用程序的数...

从零开始搭建Hadoop-0.20.2平台的详细过程

从零开始搭建Hadoop-0.20.2平台的详细过程
说在前面的话 本来是之前写在我的另外一篇博客cndwzone.com的文章,时间是2014年6月份的,现在借用一下,由于当时对搭建Hadoop-0.20.2版本记录的比较详细,当然回过头看看,还是存在一些问题,比如SSH是为什么了什么,里面的密钥起到什么作用,当时没有深究,可能会对原理性的东西进行学习记录。 由于硬件限制,我在这里说的是hadoop伪分布式模式(Pseudo-Distributed Mode),其实网上已经有很多教程,不...
Copyright © If Coding 保留所有权利.   Theme  Ality   

用户登录