- 博客(8)
- 资源 (20)
- 收藏
- 关注
原创 MapReduce的自定义排序
package com.bigdata.hadoop.mapred; import java.io.DataInput; import java.io.DataOutput; import java.io.IOException; import java.net.URI; import org.apache.hadoop.conf.Configuration; import org.apach
2015-07-27 21:21:08 491
原创 MapReduce的DBInputFormat
使用MapReduce直接从关系型数据库中取数据 package com.bigdata.hadoop.mapred; import java.io.DataInput; import java.io.DataOutput; import java.io.IOException; import java.net.URI; import java.sql.PreparedStatement; i
2015-07-26 15:28:35 1141 1
原创 MapReduce的KeyValueTextInputFormat
如果行中有分隔符,那么分隔符前面的作为key,后面的作为value;如果没有分隔符,那么整行作为key,value为空 当输入数据的每一行是两列,并用tab分离的形式的时候,KeyValueTextInputformat处理这种格式的文件非常适合。 代码示例: package com.bigdata.hadoop.mapred; import java.io.IOException; im
2015-07-26 15:24:03 1250
原创 MapReduce的NlineInputFormat
默认情况下在对输入文件进行拆分时,会按block块的大小分成多个InputSplit,InputSplit的数量取决于block的大小。每 个map进程处理一个InputSplit,InputSplit中有多少行记录就会调用多少次map函数。 如果使用NlineInputFormat,代表每个map进程处理的InputSplit不再按block块去划分,而是按NlineInputForma
2015-07-26 14:54:44 1602
原创 使用httpFS访问hdfs
1.编辑hadoop配置文件httpfs-env.sh 2.将export HTTPFS_HTTP_PORT=14000前的注释#删除,并确保14000未被占用 3.执行httpfs.sh run启动web服务 可以使用curl 在命令行执行 curl -i "http://hadoop4:14000/webhdfs/v1/?user.name=root&op=GETHOMEDIRE
2015-07-21 22:36:52 2540
原创 hadoop2.6.0学习
hadoop2有三个核心模块 hdfs: 负责数据的分布式存储 主从结构 主节点,可以有2个: namenode 从节点,有很多个: datanode namenode负责: 接收用户操作请求,是用户操作的入口 维护文件系统的目录结构,称作命名空间 datanode负责: 存储文件 mapreduce: 依赖磁盘io的批处理计算模型 主从结构 主
2015-07-19 22:19:42 1254
原创 常用shell命令
文本查找与替换 创建hello文件,内容为hello you hello me echo hello you hello me > hello 将hello文件中第一个hello替换为welcome,但是并没改变hello文件原内容 sed 's/hello/welcome' hello 将替换后的文本输出到hello2文件中 sed 's/hello/welcome' hel
2015-07-17 09:19:23 333
原创 ElasticSearch学习
什么是ES: Elasticsearch是一个基于Lucene的实时的分布式搜索和分析引擎。 ES的用户: GitHub使用Elasticsearch来检索超过1300亿行代码。 维基百科使用Elasticsearch来进行全文搜做并高亮显示关键词,以及提供search-as-you-type、did-you-mean等搜索建 议功能。 ES VS SOLR 比较: REST风
2015-07-01 23:01:30 3407
教务管理系统测试报告
2016-05-31
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人