大数据
文章平均质量分 53
maniYkk
这个作者很懒,什么都没留下…
展开
-
HDFS知识点
HDFS的设计,优缺点 HDFS命令行操作 HDFS JVAA Api HDFS Web Console HDFS 回收站 HDFS 快照 HDFS 用户权限管理 HDFS 配额管理 HDFS 安全模式 HDFS 底层原理 HDFS的设计 HDFS即Hadoop分布式文件系统(Hadoop Distributed Filesystem),以流式数据访问模式来存储超大文件,运行于商用硬件...原创 2018-07-31 10:34:24 · 866 阅读 · 0 评论 -
Spark wordcount程序处理过程
数据 I love Beijing I love China Beijing is the capital of China 执行 在spark shell 中 sc.textFile("hdfs://192.168.198.111:9000/input.txt"). flatMap(_.split(" ")) .map((_,1)).reduceByKey(_+_).saveAsTe...原创 2018-08-08 17:12:41 · 350 阅读 · 0 评论 -
MapReduce 切片(split)
分片大小 对于HDFS中存储的一个文件,要进行Map处理前,需要将它切分成多个块,才能分配给不同的MapTask去执行。 分片的数量等于启动的MapTask的数量。默认情况下,分片的大小就是HDFS的blockSize。 Map阶段的对数据文件的切片,使用如下判断逻辑: protected long computeSplitSize(long blockSize, long minSize, ...原创 2018-10-22 15:46:24 · 688 阅读 · 0 评论