大数据
文章平均质量分 93
大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。
_子栖_
这个作者很懒,什么都没留下…
展开
-
Spark环境搭建
spark环境搭建;本地搭建;集群搭建;高可用集群搭建;spark-yarn环境搭建原创 2023-02-11 17:07:08 · 1121 阅读 · 0 评论 -
Hadoop-序列化
7)如果需要将自定义的 bean 放在 key 中传输,则还需要实现 Comparable 接口,因为MapReduce 框中的 Shuffle 过程要求对 key 必须能排序。(6)要想把结果显示在文件中,需要重写 toString(),可用"\t"分开,方便后续用。序列化可以存储“活的”对象,可以将“活的”对象发送到远程计算机。(2)反序列化时,需要反射调用空参构造函数,所以必须有空参构造。(5)注意反序列化的顺序和序列化的顺序完全一致。(1)编写流量统计的 Bean 对象。...原创 2022-08-07 12:23:23 · 332 阅读 · 0 评论 -
Hadoop-MapReduce 概述
(1)MapReduce 易于编程(2)良好的扩展性(3)高容错性(4)适合 PB 级以上海量数据的离线处理(1)不擅长实时计算(2)不擅长流式计算(3)不擅长DAG(有向无环图)计算(1)分布式的运算程序往往需要分成至少 2 个阶段。(2)第一个阶段的 MapTask 并发实例,完全并行运行,互不相干。(3)第二个阶段的 ReduceTask 并发实例互不相干,但是他们的数据依赖于上一个阶段的所有 MapTask 并发实例的输出。(4)MapReduce 编程模型只能包含一个 Map 阶段和一个 Redu原创 2022-08-07 12:20:36 · 139 阅读 · 0 评论 -
kafka consumer
kafka consumer、消费方式、offset、consumer工作流程原创 2022-06-15 20:22:50 · 292 阅读 · 0 评论 -
Hadoop 集群搭建
Hadoop 集群搭建文章目录Hadoop 集群搭建一、搭建前准备1、修改主机名称与映射关系2、修改 windows host文件3、配置 ssh4、编写 xsync 同步脚本5、确保已经安装好了 JDK6、编写 jpsall 脚本,用于查看多态服务器的进程二、Hadoop 集群配置1、集群部署规划2、在 node1 上安装hadoop-3.2.23、配置文件说明4、配置集群5、将 node1 上的 hadoop 分发到其他两台服务器6、 启动集群7、集群基本测试 -------- 上传文件到原创 2021-09-17 21:48:52 · 154 阅读 · 0 评论 -
Hadoop-HDFS
HDFS、HDFS操作命令、DataNode工作机制、Secondary NameNode、Fsimage、Edits原创 2022-06-13 16:39:34 · 250 阅读 · 0 评论 -
hadoop 入门
Hadoop入门、hadoop集群搭建、HDFS概述、YRAN概述原创 2022-06-11 12:02:43 · 200 阅读 · 0 评论 -
Zookeeper
Zookeeper文章目录Zookeeper一、zookeeper 入门1.1 概述1.2 特点1.3 数据结构1.4 应用场景1.5 下载地址二、Zookeeper 安装2.1 本地模式安装部署2.2 配置参数解读三、Zookeeper 内部原理3.1 zookeeper 选举机制3.2 节点类型一、zookeeper 入门1.1 概述zookeeper 是一个开源的分布式的,为分布式应用提供协调服务的Apache 项目。主要是用来解决分布式应用中经常遇到的一些数据管理问题,如:统一命名服务、原创 2021-06-02 14:43:24 · 515 阅读 · 0 评论