- 博客(5)
- 收藏
- 关注
原创 MapReduce 切片(split)
分片大小对于HDFS中存储的一个文件,要进行Map处理前,需要将它切分成多个块,才能分配给不同的MapTask去执行。 分片的数量等于启动的MapTask的数量。默认情况下,分片的大小就是HDFS的blockSize。Map阶段的对数据文件的切片,使用如下判断逻辑:protected long computeSplitSize(long blockSize, long minSize, ...
2018-10-22 15:46:24 688
原创 Spark wordcount程序处理过程
数据I love Beijing I love China Beijing is the capital of China执行在spark shell 中sc.textFile("hdfs://192.168.198.111:9000/input.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).saveAsTe...
2018-08-08 17:12:41 350
原创 Python3 urllib爬虫
目标爬世界最美的海景风光图片 网页地址:http://www.27270.com/word/fengjingsheying/2016/156946.html 利用的是Python3 中urllib这个库。抓取分析首页地址 http://www.27270.com/word/fengjingsheying/2016/156946.html点击下一页的时候地址变成 http:...
2018-08-02 16:32:03 484
原创 HDFS知识点
HDFS的设计,优缺点HDFS命令行操作HDFS JVAA ApiHDFS Web ConsoleHDFS 回收站HDFS 快照HDFS 用户权限管理HDFS 配额管理HDFS 安全模式HDFS 底层原理HDFS的设计HDFS即Hadoop分布式文件系统(Hadoop Distributed Filesystem),以流式数据访问模式来存储超大文件,运行于商用硬件...
2018-07-31 10:34:24 866
原创 搭建本地测试的Hadoop环境
搭建本地测试的Hadoop环境需要的环境笔记本VMware 12RedHat Linux 7.4JDK 1.8 64位Hadoop 2.7.3Putty 远程登录工具WinScpVMware 12 安装RedHat Linux 7.4 注意点设置网络类型,选择“使用仅主机模式网络” 配置安装选项 配置网络和主机名 对应的填写的IP...
2018-07-30 15:24:36 791
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人