![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据—Hadoop
文章平均质量分 59
蒸气awa
一只小菜鸡
展开
-
H(notebook).Hadoop参数调优笔记
b.默认值fs.trash.checkpoint.interval = 0,检查回收站的间隔时间。如果该值为0,则该值设置和fs.trash.interval的参数值相等。随着公司业务的增长,数据量越来越大,原有的数据节点的容量已经不能满足存储数据的需求,需要在原有集群基础上动态添加新的数据节点。c.要求fs.trash.checkpoint.interval ............原创 2022-08-13 23:33:31 · 844 阅读 · 0 评论 -
H(notebook&hadoop).yarn总结
1)向ResourceManager申请一个Application。(2)ResourceManager回应请求并返回Application资源提交路径以及application_id。(3)提交job运行所需资源,包括Job.xml(配置信息)、Job.split(控制开启多少个Map Task)、wc.jar(程序源码)。(4)资源提交完毕,申请运行mrAppMaster。(5)ResourceManager将用户的请求初始化成一个Task。............原创 2022-08-07 20:39:02 · 470 阅读 · 0 评论 -
H(notebook&hadoop&code).数据压缩
表-3优缺点压缩算法优点缺点gzip压缩率比较高不支持Split;压缩/解压速度一般bzip2压缩率高;支持Split压缩/解压速度慢LZO压缩/解压速度比较快;支持Split压缩率一般;想支持切片,需要额外创建索引Snappy压缩和解压缩速度快不支持Split;压缩率一般。.........原创 2022-08-07 18:10:16 · 386 阅读 · 0 评论 -
H(notebook&hadoop).Hadoop_MapReduce总结
1)当我们用自定义的对象作为key来输出时,就必须要实现WritableComparable接口,重写其中的compareTo()方法。(2)TextInputFormat的功能逻辑是:一次读一行文本,然后将该行的起始偏移量作为key,行内容作为value返回。(1)默认实现类是TextOutputFormat,功能逻辑是:将每一个KV对,向目标文本文件输出一行。用户根据业务需求实现其中三个方法:map()、setup() 、cleanup ();(2)部分排序:对最终输出的每一个文件进行内部排序。....原创 2022-08-06 23:55:11 · 63 阅读 · 0 评论 -
H(hadoop&code).Hadoop_MapReduce MapJoin并考虑数据倾斜问题
采用MapReduce方式实现,其中将表的合并阶段放到Map阶段,减少Reduce端的压力。将Reduce任务数量设置为0,将图二存储到磁盘;将图一 中数量(1、2、6等)取出,将图二编号和名称(如:小米、华为等)取出。融合成为图三格式:序号+名称+数量格式。其余操作与正常driver程序一样,多出如下代码。........................原创 2022-08-06 22:52:15 · 205 阅读 · 0 评论 -
H(hadoop&code).Hadoop_MapReduce wordCount_outputformat
Hadoop_MapReduce format格式化输出原创 2022-08-04 00:26:50 · 106 阅读 · 0 评论 -
H(hadoop&sourceCode).FileInputFormat源码解析
d.开始切,形成第1个切片ss.txt-0128M第2个切片ss.txt-128256M第3个切片ss.txt—256M300M(每次切片时,都要判断切完剩下的部分是否大于块的1.1倍,不大于1.1倍就划分一块切片)。(4)提交切片规划文件到YARN上,YARN上的MrAppMaster就可以根据切片规划文件计算共启MapTask个数。a.获取文件大小fs.sizeOf(word.txt)。e.将切片信息写到一个切片规划文件中。(2)开始遍历处理(规划切片)目录下的每一个文件。............原创 2022-08-01 21:57:57 · 115 阅读 · 0 评论 -
H(hadoop&code).Hadoop_MapReduce wordCount_FlowBean(partition和comparable)程序编写
a.如果ReduceTask的数量>getPartition的结果数,则会多产生几个空的输出文件part-1-000xx;b.如果1原创 2022-07-31 23:37:05 · 271 阅读 · 0 评论 -
H(hadoop&code).Hadoop_MapReduce WordCount(Combiner)程序编写
Reducer中run方法setup(context);和cleanup(context);mapper中run方法setup(context);和cleanup(context);hadoopjarjar包driver的copy_Reference输入路径输出路径。1.map方法Stringline=value.toString();2.reduce方法intsum=0;原创 2022-07-25 23:00:21 · 570 阅读 · 0 评论 -
H(notebook&hadoop).Hadoop-hdfs常用命令
hadoopfs-put文件名/user/root将本地文件上传到指定目录下。hadoopfs-get文件名/user/root/文件名从HDFS获取文件。hadoopfs-put文件名.将本地文件上传到HDFS(默认工作目录下)hadoopfs-cat文件名/head只查看文件的前1000个字节。hadoopfs-rm文件名删除从本地文件上传到HDFS的文件名。hadoopfs-cat文件名检索文件即查阅HDFS中的文件内容。..................原创 2022-07-24 20:59:48 · 427 阅读 · 0 评论 -
W(hadoop).Permission denied: user=dr.who, access=WRITE, inode=“/output“:root:supergroup:drwxr-xr-x
在查看hadoop中hdfs前端页面时,对文件夹或者文档进行删除操作时报错误,Permissiondenieduser=dr.who,access=WRITE,inode="/output"rootsupergroupdrwxr-xr-x.保存后退出,重新启动集群,即可在前端页面中进行删除操作。是因为当前用户缺少相关权限。......原创 2022-07-19 23:44:25 · 2823 阅读 · 4 评论 -
W(hadoop).第一次启动常见问题 ERROR: Attempting to operate on hdfs datanode as rootERROR
1.在第一次启动时容易出现以下错误: 2.原因: Hadoop为不同的用户安装,为不同的用户启动yarn服务。或在hadoop config的hadoop-env.sh中指定的HDFS_NAMENODE_USERHDFS_DATANODE_USER用户是其他用户。原创 2022-06-28 21:40:24 · 705 阅读 · 2 评论