hadoop
zreodown
这个作者很懒,什么都没留下…
展开
-
spark-sql 优化
1. merger小文件set spark.sql.hive.mergeFiles = true;2.缓冲小表set spark.sql.autoBroadcastJoinThreshold = 838861000;set spark.sql.shuffle.partitions = 1000;原创 2019-12-31 17:58:34 · 388 阅读 · 0 评论 -
hadoop 的一些错误
1:Shuffle Error: Exceeded MAX_FAILED_UNIQUE_FETCHES; bailing-outAnswer:程序里面需要打开多个文件,进行分析,系统一般默认数量是1024,(用ulimit -a可以看到)对于正常使用是够了,但是对于程序来讲,就太少了。修改办法:修改2个文件。/etc/security/limits.confvi /etc/原创 2013-05-12 21:06:03 · 706 阅读 · 0 评论 -
hadoop端口
获取默认配置配置hadoop,主要是配置core-site.xml,hdfs-site.xml,mapred-site.xml三个配置文件,默认下来,这些配置文件都是空的,所以很难知道这些配置文件有哪些配置可以生效,上网找的配置可能因为各个hadoop版本不同,导致无法生效。浏览更多的配置,有两个方法:1.选择相应版本的hadoop,下载解压后,搜索*.xml,找到core-default原创 2013-07-10 11:54:52 · 901 阅读 · 0 评论 -
hadoop Namenode因硬盘写满无法启动
当写元数据的分区写满,可能导致namenode挂掉从而导致及时清理出大块的空间也无法启动namenode,那此时系统namenode会报错org.apache.hadoop.hdfs.server.namenode.NameNode: java.lang.NumberFormatException: For input string:“”这是因为edit文件错误,此时执行 prin原创 2013-10-29 14:32:35 · 999 阅读 · 0 评论 -
HDFS bytes read与Map input bytes
在看Hadoop的执行日志时可以看到HDFS bytes read与Map input bytes这2个参数。这2个参数都属于JOB读入的信息。其中HDFS bytes read是一个文件系统接口层面的统计,它更底层,它直接处理的是文件系统的读。而Map input bytes是对文件系统读入的数据做了进一步的处理,是真正JOB读入的数据流。理论上讲,对于未压缩的text File原创 2013-11-12 18:34:10 · 1586 阅读 · 0 评论 -
Hadoop中map数的计算
Hadoop中在计算一个JOB需要的map数之前首先要计算分片的大小。计算分片大小的公式是:goalSize = totalSize / mapred.map.tasksminSize = max {mapred.min.split.size, minSplitSize}splitSize = max (minSize, min(goalSize, dfs.block.si原创 2013-11-12 18:33:29 · 842 阅读 · 0 评论