Hadoop
文章平均质量分 85
Wang_AI
这个作者很懒,什么都没留下…
展开
-
Hadoop--Hadoop的伪分布式环境搭建
1.2 Hadoop环境搭建1.2.1 JDK的安装和配置 1.创建JDK的安装目录 mkdir /usr/java/ 2.解压 jdk-7u67-linux-x64.tar.gz tar -zxvf jdk-7u67-linux-x64.tar.gz -C /usr/java/ 3.配置java环境变量 vim /etc/pr原创 2015-10-23 09:09:55 · 578 阅读 · 0 评论 -
MapReduce实现二阶矩阵相乘
阿发原创 2016-03-28 20:39:30 · 3459 阅读 · 0 评论 -
MapReduce计数器详解
计数器:计数器是用来记录job的执行进度和状态的。它的作用可以理解为日志。我们通常可以在程序的某个位置插入计数器,用来记录数据或者进度的变化情况,它比日志更便利进行分析。1. 内置计数器Hadoop其实内置了很多计数器,那么这些计数器在哪看呢?我们先来看下最简单的wordcount程序。HDFS上的源文件:[hadoop@master logfile]$ had原创 2016-03-22 15:44:47 · 4861 阅读 · 1 评论 -
Hadoop—MapReduce练习(数据去重、数据排序、平均成绩、倒排索引)
1. wordcount程序先以简单的wordcount为例。Mapper:package cn.nuc.hadoop.mapreduce.wordcount;import java.io.IOException;import org.apache.commons.lang.StringUtils;import org.apache.hadoop.io.IntWri...原创 2016-03-03 14:02:07 · 12232 阅读 · 2 评论 -
Hadoop—FS Shell
文件系统 (FS) shell 包括各种类似的命令直接与 Hadoop Distributed File System (HDFS)交互。hadoop也支持其它文件系统,比如 Local FS, HFTP FS, S3 FS等。 FS shell命令应使用bin/hadoop fs 的形式。所有的的FS shell命令使用URI路径作为参数。URI格式是scheme://authority/p原创 2016-02-01 10:29:39 · 1248 阅读 · 0 评论 -
Hadoop—distcp
DistCp(分布式拷贝)是用于大规模集群内部和集群之间拷贝的工具。 它使用Map/Reduce实现文件分发,错误处理和恢复,以及报告生成。 它把文件和目录的列表作为map任务的输入,每个任务会完成源列表中部分文件的拷贝。 由于使用了Map/Reduce方法,这个工具在语义和执行上都会有特殊的地方。1. DistCp的用法 因为distcp可用于群集内部,也可用于群集之间,这儿原创 2016-01-31 11:00:55 · 895 阅读 · 0 评论 -
Hadoop—archive
HDFS并不擅长存储小文件,因为每个文件最少一个block,每个block的元数据都会在namenode节点占用内存,如果存在这样大量的小文件,它们会吃掉namenode节点的大量内存。Hadoop Archive是一个高效地将小文件放入HDFS块中的文件存档文件格式,它能够将多个小文件打包成一个后缀为.har文件,这样减少namenode内存使用的同时,仍然允许对文件进行透明的访问。原创 2016-01-30 20:46:11 · 1778 阅读 · 0 评论 -
Hadoop WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using b
自己在用Cent OS6.5环境上搭建hadoop2.7的伪分布式时,启动hdfs时报出“WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable”这样的警告。 刚开始按照这个原创 2016-01-29 09:04:14 · 4000 阅读 · 0 评论 -
Hadoop--Hadoop核心之MapReduce
3 MapReduce Hadoop的另一个核心是MapReduce。MapReduce是一种分布式计算模型,由Google提出,主要用于搜索领域,解决海量数据的计算问题。 MapReduce由两个阶段组成:Map和Reduce,用户只需要实现map()和reduce()两个函数,即可实现分布式计算,非常简单。这两个函数的形参是key、value对,表示函数的输入信息。3.原创 2015-10-23 09:21:50 · 10940 阅读 · 0 评论 -
Hadoop—HDFS的Java客户端编程
可以使用HDFS Shell命令来完成对HDFS的操作,当然也可以使用Java编程语言来对HDFS实现操作。以下是一些Unit测试代码原创 2016-02-05 12:17:05 · 1349 阅读 · 0 评论 -
Hadoop--Hadoop核心之HDFS
2 HDFS2.1 HDFS的Shell操作2.1.1 启动HDFS 进入hadoop/sbin目录,./start-dfs.sh 使用jps命令检查是否启动成功2.1.2 HDFS的常用命令 1. ls 如果是文件,则按照以下格式输出: 权限 副本数 用户ID 用户组ID 文件大小 修改时间原创 2015-10-23 09:18:21 · 817 阅读 · 0 评论 -
Hadoop--Linux环境搭建
Hadoop学习1环境搭建1.1 Linux环境的搭建 使用VMware Workstation 12作为硬件生产环境,选择Cent OS 6.7 64位作为系统生产环境。 使用VMware Workstation装Cent OS的过程可以百度,在这儿就不叙述了,我先装了一个H01的机器,这儿主要写下装完Linux后的环境配置。1.1.1 配置虚拟机网络原创 2015-10-23 09:07:21 · 831 阅读 · 0 评论 -
Spark与Pandas中DataFrame对比(详细)
PandasSpark工作方式单机single machine tool,没有并行机制parallelism不支持Hadoop,处理大量数据有瓶颈分布式并行计算框架,内建并行机制parallelism,所有的数据和操作自动并行分布在各个集群结点上。以处理in-memory数据的方式处理distributed数据。支持Hadoop,能处理大量数据转载 2016-08-12 19:55:57 · 3741 阅读 · 0 评论