![](https://img-blog.csdnimg.cn/20190918140158853.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
Hadoop
hadoop
_a_0_
Who am, Where am.
展开
-
HDFS练习1-----统计出 HDFS 文件系统中文件大小小于 HDFS 集群中的默认块大小的文件占比
问题还原:编写程序统计出 HDFS 文件系统中文件大小小于 HDFS 集群中的默认块大小的文件占比比如:大于等于 128M 的文件个数为 98,小于 128M 的文件总数为 2,所以答案是 2%import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache....原创 2018-03-22 18:17:40 · 2357 阅读 · 2 评论 -
电影评分次数Top10问题
问题还原:求被评分次数最多的10部电影,并给出评分次数(电影名,评分次数)ratings.dat用户ID,电影ID,评分,评分时间戳1::1193::5::978300760movies.dat电影ID,电影名字,电影类型2::Jumanji (1995)::Adventure|Children's|Fantasy数据地址:链接:https://pan.baidu.com/s/1qj7R...原创 2018-03-21 21:46:55 · 3068 阅读 · 0 评论 -
MapReduce杂记
学习摘要:学习阶段,又不对的地方请指出,不胜感激。/**MapReduce 程序编写规范:1、用户编写的程序分成三个部分:Mapper,Reducer,Driver(提交运行 MR 程序的客户端)2、Mapper 的输入数据是 KV 对的形式(KV 的类型可自定义)3、Mapper 的输出数据是 KV 对的形式(KV 的类型可自定义)4、Mapper 中的业务逻辑写在 map()方法中...原创 2018-03-22 07:57:42 · 301 阅读 · 0 评论 -
HDFS杂记
学习摘要:学习阶段,有不对的地方请指出,不胜感激。/**HDFS:分布式文件系统,主要是用来解决海量数据的存储问题;思想:分而治之。应用:为其他分布式计算框架提供数据存储服务;重点概念:数据块/副本、负载均衡、心跳机制、副本存放策略、元数据/元数据管理、安全模式、机架感知等等。HDFS的设计思路:1、大文件被切割成小文件,使用分而治之的思想让很多服务器对同一个文件进行联合管理。2、...原创 2018-03-22 08:13:14 · 349 阅读 · 0 评论 -
MapReduce练习-----学生成绩相关题目
统计需求:1、统计每门课程的参考人数和课程平均分2、统计每门课程参考学生的平均分,并且按课程存入不同的结果文件,要求一门课程一个结果文件,并且按平均分从高到低排序,分数保留一位小数。3、求出每门课程参考学生成绩最高的学生的信息:课程,姓名和平均分。数据及字段说明:computer,huangxiaoming,85,86,41,75,93,42,85computer,xuzheng,54,52,8...原创 2018-04-14 12:43:14 · 10811 阅读 · 3 评论 -
MapReduce练习-----版本变动
题目要求:在所有有版本变动的记录后面追加一条字段信息:该信息就是上一个版本的版本号,只限同用户例如:20170308,黄渤,光环斗地主,10,360手机助手,0.2版本,北京20170308,黄渤,光环斗地主,13,360手机助手,0.3版本,北京,0.2版本20170308,徐峥,光环斗地主,14,360手机助手,0.3版本,北京20170308,徐峥,光环斗地主,15,360手机助手,0.4版...原创 2018-04-14 14:02:55 · 365 阅读 · 0 评论 -
MapReduce练习-----数字排序并加序号
数字排序并加序号:源数据: 最后结果:2 1 232 2 6654 3 1532 4 2215 5 26756 ...原创 2018-04-14 19:47:29 · 1964 阅读 · 0 评论 -
MapReduce基础回顾题目
week1,A0001,10,20week1,A0002,8.5,15week1,A0003,9.2,30week1,B0001,10.5,50week2,A0001,11,30week2,A0002,8,20week2,A0003,9.2,20week2,B0001,10,55week3,A0001,9.5,10week3,A0002,8.8,30week3,A0003,9....原创 2018-04-15 10:43:30 · 1449 阅读 · 2 评论 -
MapReduce练习-----倒排索引
数据1:huangbo love xuzhenghuangxiaoming love baby huangxiaoming love mimiliangchaowei love liujialing数据2:hello huangbohello xuzhenghello huangxiaoming题目一:编写 MapReduce 求出以下格式的结果数据:统计每个关键词在每个文档中当中...原创 2018-04-15 15:45:45 · 1198 阅读 · 0 评论 -
海量数据问题处理方案
第一部分、十道海量数据处理1、海量日志数据,提取出某日访问百度次数最多的那个IP。 此题,在我之前的一篇文章算法里头有所提到,当时给出的方案是:IP的数目还是有限的,最多2^32个,所以可以考虑使用hash将ip直接存入内存,然后进行统计。 再详细介绍下此方案:首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。注意到IP是32位的,最多有个2^32个IP。同样可以采用映...转载 2018-03-23 15:00:40 · 196 阅读 · 0 评论 -
Hadoop HA集群搭建
/**hadoop2.0已经发布了稳定版本了,增加了很多特性,比如HDFS HA、YARN等。最新的hadoop-2.6.5又增加了YARN HA注意:apache提供的hadoop-2.6.5的安装包是在32位操作系统编译的,因为hadoop依赖一些C++的本地库,所以如果在64位的操作上安装hadoop-2.6.5就需要重新在64操作系统上重新编译(建议第一次安装用32位的系统,我...原创 2018-03-23 11:02:22 · 293 阅读 · 0 评论 -
HDFS练习2-----统计出 HDFS 文件系统中的平均数据块数(数据块总数/文件总数)
问题还原:编写程序统计出 HDFS 文件系统中的平均数据块数(数据块总数/文件总数)比如:一个文件有 5 个块,一个文件有 3 个块,那么平均数据块数为 4如果还有一个文件,并且数据块就 1 个,那么整个 HDFS 的平均数据块数就是 3import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.BlockLoc...原创 2018-03-22 18:33:50 · 1708 阅读 · 0 评论 -
HDFS练习3-----统计出 HDFS 文件系统中的平均副本数(副本总数/总数据块数)
问题还原:编写程序统计出 HDFS 文件系统中的平均副本数(副本总数/总数据块数)比如:总共两个文件,一个文件 3个数据块,每个数据块 3 个副本,第二个文件 2 个数据块,每个文件 2 个副本,最终的平均副本数 = (3*3 + 2*2)/(3+2)= 2.8import org.apache.hadoop.conf.Configuration;import org.apache.hadoop...原创 2018-03-22 18:48:34 · 1104 阅读 · 0 评论 -
HDFS练习4-----统计 HDFS 整个文件系统中的不足指定数据块大小的数据块的比例
问题还原:统计 HDFS 整个文件系统中的不足指定数据块大小的数据块的比例比如指定的数据块大小是 128M,总数据块有 100 个,不是大小为完整的 128M 的数据块有5 个,那么不足指定数据块大小的数据块的比例就为 5%。注意:千万注意考虑不同文件的指定数据块大小可能不一致,所以千万不能用默认的 128M一概而论。import org.apache.hadoop.conf.Configurat...原创 2018-03-22 19:06:26 · 875 阅读 · 0 评论 -
HDFS练习5-----删除指定目录下的所有的空文件和空文件夹(包含子文件夹下的内容)
问题重现:删除指定目录下的所有的空文件和空文件夹(包含子文件夹下的内容)import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileStatus;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.LocatedFile...原创 2018-03-22 20:29:11 · 3445 阅读 · 0 评论 -
HDFS练习6-----删除某个路径下特定类型的文件,比如class类型文件,比如txt类型文件
问题重现:删除某个路径下特定类型的文件,比如class类型文件,比如txt类型文件import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileStatus;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;...原创 2018-03-22 20:33:27 · 584 阅读 · 0 评论 -
HDFS练习7-----读取某个指定文件的某个block块的信息
问题重现:读取某个指定文件的某个block块的信息import java.io.File;import java.io.FileOutputStream;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.BlockLocation;import org.apache.hadoop.fs.FSDa...原创 2018-03-23 08:03:52 · 1330 阅读 · 0 评论 -
MapReduce练习----求共同好友
求所有两两用户之间的共同好友A:B,C,D,F,E,OB:A,C,E,KC:F,A,D,ID:A,E,F,LE:B,C,D,M,LF:A,B,C,D,E,O,MG:A,C,D,E,FH:A,C,D,E,OI:A,OJ:B,OK:A,C,DL:D,E,FM:E,F,GO:A,H,I,J,K以上是数据:A:B,C,D,F,E,O表示:B,C,D,E,F,O是A用户的好友。首先求每一个人是哪些人的共同好...原创 2018-03-23 08:03:37 · 691 阅读 · 0 评论 -
MapReduce练习-----互粉好友对
数据:A:B,C,D,F,E,OB:A,C,E,KC:F,A,D,ID:A,E,F,LE:B,C,D,M,LF:A,B,C,D,E,O,MG:A,C,D,E,FH:A,C,D,E,OI:A,OJ:B,OK:A,C,DL:D,E,FM:E,F,GO:A,H,I,J,K求哪些人两两之间是互粉好友,形如:A的好友有B,B的好友有A 。 那么A和B就是互粉好友。思路:对每一行数据进行组合输出 (perso...原创 2018-03-23 08:03:26 · 728 阅读 · 0 评论 -
HDFS编程之 .zip 转 .gz
import java.io.File;import java.io.IOException;import java.util.zip.GZIPOutputStream;import java.util.zip.ZipEntry;import java.util.zip.ZipInputStream;import org.apache.hadoop.conf.Configuration...原创 2018-05-02 20:20:42 · 356 阅读 · 0 评论