大数据
文章平均质量分 70
皓洲
这个作者很懒,什么都没留下…
展开
-
Hadoop(HDFS、Yarn、MapReduce、Zookeeper、Kafka、Flume、Storm、Spark) 知识点总结
知识点总结请简述HDFS集群的总体架构以及NameNode、DataNode和SecondaryNameNode的作用。什么是HDFS的机架感知策略?在HDFS使用该策略有什么优点?简述HDFS读写数据的流程。简述YARN集群的总体架构以及ResourceManager、NodeManager、ApplicationMaster和Container的作用。以单词计数为例,简述MapReduce计算模型的三个阶段。在ZooKeeper集群中,znode节点有哪几种类型?不同类型的节点分别具有什么特点?什么是H原创 2021-06-26 13:41:41 · 952 阅读 · 0 评论 -
Spark Streaming实时处理
Spark Streaming实时处理实验内容 在本地或HDFS新建一个测试目录,编写一个简单程序,每随机间隔若干秒(5s以内)在该目录下新建一个文件,并写入若干行内容(每一行包含若干单词,单词之间以空格分隔)。现利用Spark Streaming分别完成如下单词统计:(1)实时统计每10s新出现的单词数量(每10s统计1次);(2)实时统计最近1分钟内每个单词的出现次数(每10s统计1次);(3)实时统计每个单词的累积出现次数,并将结果保存到本地文件(每10s统计1次)实验步骤创建文件流原创 2021-06-13 22:28:27 · 1593 阅读 · 2 评论 -
Spark SQL练习
Spark SQL实验目的1.理解Spark SQL工作原理;2.掌握Spark SQL使用方法。实验内容 现有一份汽车销售记录(文件名:Cars.csv),销售记录包括时间、地点、邮政编码、车辆类型等信息,每条记录信息包含39项数据项。按步骤完成如下操作(建议在Spark-shell中完成): (1)将汽车销售记录上传至HDFS; (2)使用编程方式定义RDD模式,提取月、市、区县、品牌、车辆类型、使用性质和数量7列,并定义相应Schema; (3)将(2)的结果以json格式保原创 2021-06-02 20:33:17 · 3314 阅读 · 10 评论 -
Spark RDD编程
Spark RDD编程需要用到的技术:Spark、Hadoop集群、Scala实验内容现有大约500万条搜索引擎产生的记录,数据格式如下:每一行包含6个字段:字段1代表数据产生的时间;字段2代表用户,即UID;字段3代表用户搜索关键词;字段4代表URL超链接在返回结果中的排名;字段5代表用户单击超链接的顺序号;字段6代表用户单击的URL超链接的地址。请编写Scala程序,实现如下功能:(1)统计用户数量,输出格式如下:(2)统计搜索次数在20次及以上的用户UID及搜索次数,输出格式(按照搜原创 2021-05-27 21:30:45 · 753 阅读 · 3 评论 -
Storm综合应用
Storm综合应用实验内容假设在某一搜索应用中,需要实时统计搜索次数最多的热门关键词,并按照实时统计搜索次数输出最热门的20大热门关键词及被搜索次数。用户搜索的日志通过Flume采集,并写入Kafka,Storm从Kafka中实时读取数据,并完成实时统计工作,并进行输出。提示:(1)搜索日志可以采用搜狗搜索数据,一行代表一次用户搜索;(2)Flume Agent的Source可以配置为syslogudp类型(端口5640),监控搜索日志;(3)输出形式自定。思路使用Flume批量的读取文件原创 2021-05-13 10:41:47 · 540 阅读 · 0 评论 -
Flume+Kafka+HDFS综合运用
Flume+Kafka+HDFS综合运用实验内容如下图所示:在某一实际应用中,有一个的数据源(可用Source类型为Exec Source或NetCat Source的Agent a1来用模拟),为方便后期数据分析,需要记录事件的产生IP、时间(格式:年月日时分秒)以及事件类型(事件类型根据事件Body中包含WARNING:、ERROR:、**INFO:**来确定为WARNING、ERROR、INFO,如不包含,则无需记录事件类型)事件经处理后汇总到Agent a2。Agent a2根据事件类型,原创 2021-05-06 22:32:10 · 1908 阅读 · 6 评论 -
Kafka应用——自定义生产者与消费者
Kafka应用——自定义生产者与消费者实验内容在某一应用场景中,有两个消费者生产消息和一个消费者消费消息,他们利用Kafka集群进行消息传输。其中生产者需要记录消息来源(即发送消息的主机名或IP)及消息发送时间(格式为年月日 时分秒),生产者1同步发送消息、生产者2采用异步发送消息,都需要显示消息发送成功还是失败。用户通过输入消息内容通过生产者(生产者1或生产者2)将消息发送到Kafka,消费者根据消息内容能区分消息来源。实现思路首先我们明确需要两个生产者,两个生产者唯一的区别就是同步发送和原创 2021-04-21 15:48:41 · 469 阅读 · 0 评论 -
HDFS Java API编程——云盘系统
HDFS Java API编程——云盘系统实现内容云盘系统通过互联网为企业和个人提供信息的储存、读取、下载等服务,具有安全稳定、海量存储的特点。根据用户群定位,云盘系统可以划分为公有云盘、社区云盘、私有云盘等。利用HDFS Java API,编写一个云盘系统,实现功能如下:实现框架采用SpringBoot实现,前端界面使用thymeleaf模板。结构:----config(配置类)--------LoginHandlerInterceptor--------MvcConfig----c原创 2021-04-16 16:58:38 · 1243 阅读 · 6 评论 -
MapReduce编程综合应用
MapReduce编程综合应用实验环境VMware虚拟机(CentOS 7系统)Hadoop数据现有一份汽车销售记录,销售记录【包括时间、地点、邮政编码、车辆类型等信息,每条记录信息包含39项数据项】。实验内容请利用MapReduce框架,编写程序实现如下功能: 统计不同车型销售的年龄段分布情况,并分别按照车型和年龄段进行汇总(不考虑排序)。 注意:年龄段每10岁为1个年龄段(010、1120、21~30…) 输出格式参考如下: 车型1,年龄段1,300 车原创 2021-04-17 14:28:43 · 500 阅读 · 0 评论