大数据
文章平均质量分 96
Hadoop生态入门与运用
前置知识:JavaSE,Liunx,算法与数据结构
JolyouLu
非常努力ing
展开
-
Hadoop2.x-基础[环境搭建篇](Hadoop各组件介绍、安装与部署、本地模式、伪分布式、完全分布式)
经过前面的使用已经对scp与rsync命令有了一定的理解,但是可以在文件分发时还是比较麻烦,每台远程主机对应都要执行一条命令当远程主机很多的情况下还是需要执行很多命令,所有需要编写shell脚本实现一条命令可以分发多个服务器单节点启动使用如下命令登录到每个服务器上单节点启动指定服务器的hadoop服务。...原创 2022-08-07 21:44:08 · 1517 阅读 · 0 评论 -
Hadoop2.x-基础[HDFS篇](介绍、常用API、I/O操作、工作机制)
HDFS(Hadoop Distributed File System),是一个文件系统,用于存储文件,通过目录树来定位文件,并且它是分布式的在大数据环境下,随着数量越来越多在一个主机下已经不能存下所有数据了,所以就需要将数据分布在不同的主机磁盘上,但是这就会带来一个问题就是数据分布在各个主机上对于数据的读取与数据的写入维护非常不方便,这时就需要一种解决方案能够管理这些分布式的数据,HDFS就是这些分布式文件管理系统中的一种。原创 2022-11-13 13:17:07 · 716 阅读 · 0 评论 -
Hadoop2.x-基础(MapReduce)
在前面讲到的Hadoop提供的数据序列化类型,在一些复杂业务上是无法满足需求的,Hadoop提供了自定义的序列化类型,分为如下步骤实现Writable接口生成空参构造,反序列化时,需要反射调用空参构造函数重写序列化方法重写反序列化方法要想把结果显示在文件中,需要重写toString(),可用"\t"分开,方便后续用如果需要将自定义的bean对象放到key中传输,则需要实现Comparable接口,因为MapReduce中的Shuffle过程要对key进行排序。原创 2022-10-24 21:57:06 · 998 阅读 · 0 评论