2020年12月_woailyoo0000

12月 11月 10月 06月 05月 04月 03月 01月

原创 JAVA（maven + IDEA）操作HDFS

一. maven在Windows中的安装配置① 把apache-maven-3.6.3解压到D盘② 修改conf目录下的settings.xml<settings xmlns="http://maven.apache.org/SETTINGS/1.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.or...

2020-12-26 14:01:39 574 1

原创 HDFS常用操作

一. -ls 查看目录信息[root@bigdata01 hadoop-3.2.0]# hdfs dfs -ls hdfs://bigdata01:9000/[root@bigdata01 hadoop-3.2.0]#hdfs中url这一串内容在使用时默认是可以省略的，因为hdfs在执行的时候会根据HADOOP_HOME自动识别配置文件中的fs.defaultFS属性所以这样简写也是可以的：[root@bigdata01 hadoop-3.2.0]# hdfs dfs -ls /[ro..

2020-12-26 13:47:03 284 1

转载解决You have new mail in /var/spool/mail/root提示

问题：终端远程登陆后经常提示You have new mail in /var/spool/mail/root这个提示是LINUX会定时查看LINUX各种状态做汇总，每经过一段时间会把汇总的信息发送的root的邮箱里，以供有需之时查看。一般这种情况mail的内容就只是一些正常的系统信息或者是比较重要的错误报告。如果你安装了mutt的话直接用这个命令就可以查看mail的内容（用root登陆先），没有装的话用cat /var/spool/mail/root查看（用root登陆先）。如何关闭提示呢？解决

2020-12-24 22:44:24 494

原创 MapReduce性能优化

一.小文件问题Hadoop 的HDFS和MapReduce都是针对大数据文件来设计的，在小文件的处理上不但效率低下，而且十分消耗内存资源。针对HDFS而言，每一个小文件在namenode中都会占用150字节的内存空间，最终导致群集中虽然存储了很多文件，但文件总体的体积并不大，这样就没有意义了。针对MapReduce而言，每一个小文件都是一个Block，都会产生一个InputSplit，最终每一个小文件都会产生一个map任务，这样会导致同时启动太多的Map任务，Map任务的启动是非常消耗性能的，如

2020-12-24 20:46:39 434 1

转载 Python-socket发送文件并解决粘包问题

服务器端要先根据客户端要下载的文件进行判断是否存在，还要根据文件大小来进行传送，最后还要比对文件的md5值来判断传送的文件是否正确，通过判断剩余字节来解决粘包问题服务器端# -*- coding:utf-8 -*-__author__ = "Mr.Yang" import socketimport osimport hashlib server = socket.socket()server.bind(('192.168.247.15',16000))server.listen(

2020-12-02 22:04:11 191