自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 Zookeeper

zookeeper简介 zookeeper 动物管理员 apache zookeeper致力于开发和维护开源服务器,实现高度可靠的分布式协调 什么是zookeeper zookeeper是一种集中式服务,用于维护配置信息,命名,提供分布式同步和提供组服务。所有这些类型的服务都以分布式应用程序的某种形式使用,每次实施他们都需要做很多工作来修复不可避免的错误和竞争条件。由于难以实现这些类型的...

2018-11-11 23:02:59 96

原创 MapReduce随笔

MapReduce高级特性 一、序列化 核心接口:Writable 如果一个类实现了Writable该类的对象可以作为Key和Value 二、排序 规则:按照Key2排序(可以是基本数据类型,也可以是对象) 基本数据类型:数字(默认升序),字符串(默认字典顺序) 可以通过创建自己的比较规则改变排序(extends IntWritable.Comparator/extends Text.C...

2018-11-11 23:01:25 125

原创 HDFS

HDFS的体系架构 NameNode:名称节点 是HDFS的主节点、管理员 接收客户端(命令行、java程序)的请求:创建目录、上传数据、下载数据、删除数据等 管理和维护HDFS的日志和元信息 日志文件(edits文件):记录的是客户端的所有操作,是一个二进制文件(JSON) 位置:/root/training/hadoop/tmp/dfs/name/current edit_inprog...

2018-11-05 22:59:38 286

原创 Hadoop 2.X管理与开发(二、数据压缩与优化)

#Hadoop数据压缩 数据压缩 1)MR操作过程中进行大量数据传输,就需要对数据进行压缩 2)压缩技术能够有效减少底层存储(HDFS)读写字节数,提高的网络带宽和磁盘空间的效率 3)数据压缩能够有效节省资源 4)压缩事MR程序的优化策略 5)通过压缩编码对Mapper或者reduce数据传输进行的压缩,以减少磁盘IO 压缩的基本原则 1)运算密集型任务少用压缩 2)IO密集型的任务,多用压...

2018-11-05 20:10:36 240

原创 Hadoop 2.X管理与开发(一、安装与简介)

hadoop的起源与背景知识 一、什么是大数据 举例: 1.电商的推荐系统(可能会用到推荐算法:协同过滤,ALS,逻辑回归…) 2.天气预报 核心的问题:数据的存储,数据的计算(不是算法) 数据的存储:采用分布式的文件系统HDFS(hadoop Distributed file system) 数据的计算:采用分布式的计算MapReduce,Spark(RDD:弹性分布式数据集)...

2018-11-05 20:09:32 337 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除