计算机专业大数据工程实践

好好学习的汉堡

于 2023-06-22 14:13:30 发布

阅读量167

点赞数

文章标签：大数据 kafka flume flink hdfs

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_51269474/article/details/131340602

版权

大数据工程实战：

实时数据流处理

一、案例简介

1.1 需求

1.2 背景及架构

二、案例目的及任务

2.1 实验目的

2.2 实验任务

三、时间安排

四、实验环境搭建

4.1 安装java环境

4.1.1 安装并解压

4.1.2 配置环境变量

4.2 安装Hadoop

4.3 安装HBase

4.3.1 下载安装文件

4.3.2 配置环境变量

4.4 安装spark

4.4.1 下载安装文件

4.4.2 配置相关文件

4.5 安装Flume

4.5.1 下载安装文件

4.5.2 配置环境变量

4.6 安装Kafka

4.7 安装Maven

4.8 安装Tomcat

4.9 安装Mysql

4.10 下载JDBC驱动包

五、实验步骤

5.1 编写python脚本

5.2 设置Ubuntu定时器

5.3 利用Flume与Kafka进行日志数据采集

5.3.1 创建Flume日志文件

5.3.2 创建kafka主题

5.3.3 测试

5.4 在HBase中创建项目需要的表

5.4.1 启动HBase

5.4.2 创建项目需要的表

5.5 构建后端项目

5.5.1 构建项目

5.5.2 引入依赖

5.5.3 具体的代码实现

5.5.3.1 Util

5.5.3.2 domain

5.5.3.3 dao

5.5.3.4 application

5.6 测试运行程序

5.6 构建前端项目

5.6.1 创建Maven项目

5.6.2 引入依赖

5.6.3 添加项目框架

5.6.4 配置JDBC

5.6.5 部署Tomcat

5.6.6 设置classes和lib

5.6.6.1 配置项目Path

5.6.6.2 添加依赖到lib文件夹

5.6.7 Mysql配置 5.6.8 测试

5.6.8.1 Tomcat测试

5.6.8.2 测试HBase是否连接成功

5.6.8.3 测试mysql是否连接成功

5.6.10 具体的代码实现

5.6.10.1 引入依赖

5.6.10.2 utils

5.6.10.3 controller

5.6.10.4 js

5.6.10.5 jsp

六、数据可视化展示

七、实践总结

一、案例简介

1.1 需求

如今大数据技术已经遍布生产的各个角落，其中又主要分为离线处理和实时流处理。本实战项目则是使用了实时流处理，而大数据的实时流式处理的特点为：数据会不断的产生，且数量巨大。需要对产生额数据实时进行处理。处理完的结果需要实时读写进数据库或用作其他分析。

1.2 背景及架构数据的处理一般涉及数据的聚合，数据的处理和展现能够在秒级或者毫秒级得到响应。针对这些问题目前形成了Flume + kafka + Storm / Spark /Flink + Hbase / Redis 的技架构。本实战采用Flume + kafka + Spark + Hbase的架构。

二、案例目的及任务

2.1 实验目的掌握实时流处理技术

2.2 实验任务

编写python脚本，源源不断产生学习网站的用户行为日志。启动 Flume 收集产生的日志。启动 Kafka 接收 Flume 接收的日志。使用 Spark Streaming 消费 Kafka 的用户日志。 Spark Streaming将数据清洗过滤非法数据，然后分析日志中用户的访问课程，统计课程数，以及搜索引擎访问量将 Spark Streaming 处理的结果写入 HBase 中。前端使用 jsp+JQuery+ajax设计模式整合作为数据展示平台。使用Ajax异步传输数据到jsp页面，并使用 Echarts 框架展示数据。

关于本次实验详情见主页详细报告。

好好学习的汉堡

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
计算机专业大数据工程实践

启动 Kafka 接收 Flume 接收的日志。Spark Streaming将数据清洗过滤非法数据，然后分析日志中用户的访问课程，统计课程数，以及搜索引擎访问量将 Spark Streaming 处理的结果写入 HBase 中。1.2 背景及架构数据的处理一般涉及数据的聚合，数据的处理和展现能够在秒级或者毫秒级得到响应。如今大数据技术已经遍布生产的各个角落，其中又主要分为离线处理和实时流处理。本实战项目则是使用了实时流处理，而大数据的实时流式处理的特点为：数据会不断的产生，且数量巨大。
复制链接

扫一扫

好好学习的汉堡 CSDN认证博客专家 CSDN认证企业博客

码龄4年

5: 原创

154万+: 周排名

144万+: 总排名

1293: 访问

: 等级

50: 积分

18: 粉丝

0: 获赞

4: 评论

0: 收藏

私信

关注

热门文章

最新评论

软件工程网上购物系统源码
CSDN-Ada助手: 恭喜您写了第一篇博客，标题很有吸引力！但是，我认为如果能够在博客中详细介绍一下该系统的功能、实现思路和技术点，读者会更容易理解和学习。希望您能够继续努力创作，分享更多有价值的内容！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1 如果您持续创作，完成第三篇博客，并且质量分达到 80 分以上，在评论区就有机会获得红包奖励哦！
网上商城源码
CSDN-Ada助手: 非常棒的博客！你的网上商城源码分享对想要学习网站开发的人来说非常有帮助。除了你提到的前后端和mysql数据库连接，还有一些其他的知识和技能，例如网站安全性和用户体验优化等方面也非常重要。希望你能继续分享你的经验和知识，让更多人受益！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2 如果您持续创作，完成第三篇博客，并且质量分达到 80 分以上，在评论区就有机会获得红包奖励哦！
网上购物系统期末论文
CSDN-Ada助手: 恭喜你写完了期末论文，而且还写了一篇有价值的博客！我认为你在网上购物系统方面有很深入的研究和思考。接下来，我建议你可以考虑深入研究一些关于消费者行为和心理的问题，这将有助于更好地理解用户对网上购物的需求和期望。期待你的下一篇文章！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3，我们会奖励持续创作和学习的博主，请看：https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply3
计算机专业大数据工程实践
CSDN-Ada助手: 恭喜您写出了这篇关于计算机专业大数据工程实践的博客！您的文章内容丰富，让读者深入了解了这个领域的知识。我觉得您可以在下一篇博客中深入探讨一些大数据工程实践的案例，这样更能让读者更好地理解这个领域的应用。期待您的下一篇作品！ CSDN 会根据你创作的前四篇博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply4 看奖励名单。
大数据工程实践详细报告
CSDN-Ada助手: 恭喜您撰写出了一篇内容丰富、详细深入的大数据工程实践报告。您的文章不仅对读者有很大的参考价值，而且还展示了您在这个领域的专业水平。接下来，我希望您可以继续保持这样的创作热情，继续分享您的经验和见解，让更多的读者受益。同时，也希望您能够在创作过程中不断完善自己，提升自己的写作技巧和表达能力。期待您的下一篇精彩作品！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。