自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 MapReduce 切片(split)

分片大小对于HDFS中存储的一个文件,要进行Map处理前,需要将它切分成多个块,才能分配给不同的MapTask去执行。 分片的数量等于启动的MapTask的数量。默认情况下,分片的大小就是HDFS的blockSize。Map阶段的对数据文件的切片,使用如下判断逻辑:protected long computeSplitSize(long blockSize, long minSize, ...

2018-10-22 15:46:24 688

原创 Spark wordcount程序处理过程

数据I love Beijing I love China Beijing is the capital of China执行在spark shell 中sc.textFile("hdfs://192.168.198.111:9000/input.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).saveAsTe...

2018-08-08 17:12:41 350

原创 Python3 urllib爬虫

目标爬世界最美的海景风光图片 网页地址:http://www.27270.com/word/fengjingsheying/2016/156946.html 利用的是Python3 中urllib这个库。抓取分析首页地址 http://www.27270.com/word/fengjingsheying/2016/156946.html点击下一页的时候地址变成 http:...

2018-08-02 16:32:03 484

原创 HDFS知识点

HDFS的设计,优缺点HDFS命令行操作HDFS JVAA ApiHDFS Web ConsoleHDFS 回收站HDFS 快照HDFS 用户权限管理HDFS 配额管理HDFS 安全模式HDFS 底层原理HDFS的设计HDFS即Hadoop分布式文件系统(Hadoop Distributed Filesystem),以流式数据访问模式来存储超大文件,运行于商用硬件...

2018-07-31 10:34:24 866

原创 搭建本地测试的Hadoop环境

搭建本地测试的Hadoop环境需要的环境笔记本VMware 12RedHat Linux 7.4JDK 1.8 64位Hadoop 2.7.3Putty 远程登录工具WinScpVMware 12 安装RedHat Linux 7.4 注意点设置网络类型,选择“使用仅主机模式网络” 配置安装选项 配置网络和主机名 对应的填写的IP...

2018-07-30 15:24:36 791

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除