hadoop
文章平均质量分 70
光数葱丁
代码才是葱丁
展开
-
Fume 1.9.0 用户指南
概述Apache Flume是一个分布式,可靠且可用的系统,用于有效地收集,聚合和将大量来自许多不同来源的日志数据移动到集中式数据存储。Apache Flume的使用不仅限于日志数据聚合。由于数据源是可定制的,因此Flume可用于传输大量事件数据,包括但不限于网络流量数据,社交媒体生成的数据,电子邮件以及几乎任何可能的数据源。Apache Flume是Apache软件基金会的顶级项目。数据流模型Flume 事件定义为具有字节负载和一组可选字符串属性的数据流单元。Flume 代理是一个 (JVM) 进程,它承原创 2022-09-21 00:23:49 · 312 阅读 · 0 评论 -
HDFS读写流程
客户端有了这个列表,与第一个DN建立连接,然后第二个DN与第三个DN建立连接(piepleline),连接成功后,客户端开始上传文件。Client(客户端)和NamaNode(NN)建立连接,NN创建元数据,然后检查是否已存在文件、检查权限判断元数据是否有效,如果有效NN触发副本存放策略,向客户端返回DataNode(DN)列表。第一个DN收到packet后,保存到本地,然后第一个DN向第二个DN发送给packet,同时客户端向第一个DN发送第二个packet。整个流程都是以此类推。...原创 2022-08-28 15:01:20 · 574 阅读 · 0 评论 -
Flume 1.9用户手册中文版https://hlog.cc/docs/flume1.9/
Flume 1.9用户手册中文版https://hlog.cc/docs/flume1.9/翻译 2022-08-19 22:48:08 · 545 阅读 · 0 评论 -
Hadoop自带的wordcount统计太香了
在Hadoop官方提供的示例包中,就是统计词频的模块,可以拿来直接使用,因此直接调用。如果说用Hadoop自带的词频统计,那是不是很惊喜,很意外?第4行:HDFS上的文件以目录和文件;map完了执行reduce任务。第2行:指的是主机中的环境变量;第5行:统计好后要输出的目录;第3行:程序包中的主类名称;第2行:官方提供的程序包;程序先执行map任务。...原创 2022-08-18 16:37:41 · 437 阅读 · 0 评论 -
大数据常见端口汇总
RPC允许本地程序像调用本地方法一样调用远程计算机上的应用程序,其使用常见的网络传输协议(如TCP或UDP)传递RPC请求以及相应信息,使得分布式程序的开发更加容易。7077 : spark 的master与worker进行通讯的端口 standalone集群提交Application的端口。60010:CDH的master的WEB UI端口 60030:CDH的regionServer的WEB UI 管理端口。16010:Apache的master的WEB UI端口。...原创 2022-08-15 11:15:40 · 1128 阅读 · 0 评论 -
大数据知识汇总
本文主要介绍大数据相关的技术和项目目录1.1文章介绍介绍1.2项目介绍1.3 项目指标1.3.1离线指标1.3.2实时指标1.3.3最难的两个指标1.4项目遇到问题1.4.1 Sqoop1.4.2Flume1.4.3Kafka1.4.4Hadoop1.5 项目相关流程问题1. 如何保证你写的 sql 正确性?2. 测试数据哪来的?3. 测试环境什么样?4. 测试之后如何上线?5. 你做的项目工作流程是什么?6. 项目实际工作流程?7.公司项目版本迭代多久一次多久一次 ,迭代到哪个版本?8.项目开发中每天做什原创 2022-07-17 13:10:25 · 7544 阅读 · 0 评论 -
启动kafka报错ERROR Fatal error during KafkaServer startup. Prepare to shutdown ,找到原因就要可以解决
报的错:ERROR Fatal error during KafkaServer startup. Prepare to shutdown (kafka.server.KafkaServer)kafka.common.InconsistentBrokerIdException: Configured broker.id 0 doesn’t match stored broker.id Some(1) in meta.properties. If you moved your data, make sur原创 2022-06-18 15:25:30 · 38007 阅读 · 2 评论 -
使用shell脚本查看HADOOP集群节点状态
都知道hadoop查看节点状态使用的是jps命令,但是在shell脚本中,直接使用会提示:’bash: jps: 未找到命令‘,原因很简单:因为jps命令是位于jdk的bin目录下(hadoop基于java),执行shell脚本的时候,并不会读取/etc/profile文件,因此才会找不到。解决的办法有两种。在脚本里直接添加: /opt/jdk1.8.0_291/bin/jps第二种:执行shell脚本的时候,并不会读取/etc/profile文件,但是会读取/home/.bashrc这个文件,需原创 2022-06-14 10:37:39 · 2356 阅读 · 0 评论 -
大数据Hadoop集群配置详情
hadoop集群配置设置免密登录 4.1.设置每个节点映射4.2删除残留文件4.3复制密钥4.4分发密钥5.分发JDK6.设置profile分别在profile中加入以下代码:7.分发配置文件8.刷新profile文件 刷新完成后,可以使用测试Java9.配置hadoop文件9.1配置core-site.xml添加以下代码9.2配置hdfs-site.xml添加以下代码9.3配置data节点 salves文件添加以下代码...原创 2022-06-12 19:21:43 · 190 阅读 · 0 评论