2015年07月_yinhaonefu

10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

原创 MapReduce的自定义排序

package com.bigdata.hadoop.mapred; import java.io.DataInput; import java.io.DataOutput; import java.io.IOException; import java.net.URI; import org.apache.hadoop.conf.Configuration; import org.apach

2015-07-27 21:21:08 491

原创 MapReduce的DBInputFormat

使用MapReduce直接从关系型数据库中取数据 package com.bigdata.hadoop.mapred; import java.io.DataInput; import java.io.DataOutput; import java.io.IOException; import java.net.URI; import java.sql.PreparedStatement; i

2015-07-26 15:28:35 1141 1

原创 MapReduce的KeyValueTextInputFormat

如果行中有分隔符，那么分隔符前面的作为key，后面的作为value；如果没有分隔符，那么整行作为key，value为空当输入数据的每一行是两列，并用tab分离的形式的时候，KeyValueTextInputformat处理这种格式的文件非常适合。代码示例： package com.bigdata.hadoop.mapred; import java.io.IOException; im

2015-07-26 15:24:03 1250

原创 MapReduce的NlineInputFormat

默认情况下在对输入文件进行拆分时，会按block块的大小分成多个InputSplit，InputSplit的数量取决于block的大小。每个map进程处理一个InputSplit，InputSplit中有多少行记录就会调用多少次map函数。如果使用NlineInputFormat，代表每个map进程处理的InputSplit不再按block块去划分，而是按NlineInputForma

2015-07-26 14:54:44 1602

原创使用httpFS访问hdfs

1.编辑hadoop配置文件httpfs-env.sh 2.将export HTTPFS_HTTP_PORT=14000前的注释#删除，并确保14000未被占用 3.执行httpfs.sh run启动web服务可以使用curl 在命令行执行 curl -i "http://hadoop4:14000/webhdfs/v1/?user.name=root&op=GETHOMEDIRE

2015-07-21 22:36:52 2540

原创 hadoop2.6.0学习

hadoop2有三个核心模块 hdfs: 负责数据的分布式存储主从结构主节点，可以有2个: namenode 从节点，有很多个: datanode namenode负责：接收用户操作请求，是用户操作的入口维护文件系统的目录结构，称作命名空间 datanode负责：存储文件 mapreduce: 依赖磁盘io的批处理计算模型主从结构主

2015-07-19 22:19:42 1254

原创常用shell命令

文本查找与替换创建hello文件，内容为hello you hello me echo hello you hello me > hello 将hello文件中第一个hello替换为welcome，但是并没改变hello文件原内容 sed 's/hello/welcome' hello 将替换后的文本输出到hello2文件中 sed 's/hello/welcome' hel

2015-07-17 09:19:23 333

原创 ElasticSearch学习

什么是ES： Elasticsearch是一个基于Lucene的实时的分布式搜索和分析引擎。 ES的用户： GitHub使用Elasticsearch来检索超过1300亿行代码。维基百科使用Elasticsearch来进行全文搜做并高亮显示关键词，以及提供search-as-you-type、did-you-mean等搜索建议功能。 ES VS SOLR 比较： REST风

2015-07-01 23:01:30 3407