基于大数据框架的弹幕、评论处理

水风16

已于 2024-01-10 15:56:34 修改

阅读量430

点赞数 10

文章标签：大数据 spark scala 团队开发

于 2024-01-10 15:54:20 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_63911654/article/details/135504572

版权

本文介绍了如何使用大数据技术处理弹幕和评论数据，包括实时计算和离线处理两个阶段。实时计算涉及Kafka、Spark和Scala，离线处理涉及数据爬取、Hive分析等。通过对评论数据的处理，可以了解用户反馈，优化产品策略，同时揭示了在实际应用中如何利用大数据技术实现高效的数据分析。

摘要由CSDN通过智能技术生成

一、项目简介

随着互联网发展，网络直播和网购已经成为人们生活的一部分，而弹幕、网络评论也成为网民观看视频、购买商品后的主要想法观点。因此，弹幕、评论等言论在一定程度上能够反映该商品或商品内容的受众群体的真实想法。其项目开发意义在于提高用户体验、优化产品策略、挖掘潜在需求、提升营销效果；社会价值方面能促进信息传播、培养公民参与意识，如：通过对评论数据的分析和讨论，可以培养公民的参与意识和公共事务的关注度，促进社会的和谐发展；经济价值方面能增加企业收入、降低营销成本、促进产业发展。目前在该方面随着移动通信技术的快速发展，网络视频和直播成为信息传播的主要媒介，弹幕技术应运而生。随着深度学习技术的发展，越来越多的研究者开始将其应用于弹幕和网络评论的分析中，以提高分析的准确性和效率。

二、项目框架

实时计算：

第一步，利用python爬虫爬取视频弹幕数据生成txt文件，并对数据进行初步的清洗处理；

第二步，利用java api 创建topic并发送本地txt文件传输到虚拟机，模拟直播用户发送弹幕到平台接收端；

第三步，通过Kafka组件来读取虚拟机中的弹幕数据，充当数据传输，模拟数据的实时传输过程；

第四步，以spark组件为主，利用scale语言对Kafka传输来的数据进行处理，模拟平台后端处理数据；（如：假设直播间发言人鱼龙混杂，需要筛选弹幕屏蔽敏感词汇发送到客户端进行展示。

即后端处理数据，将处理完的数据发送到客户端展示，模拟后端处理完数

据并网络传输到平台进行展示。）

第五步，利用sqoop组件将处理后的数据导入到Hive。

离线处理：

第一步，利用python爬虫爬取商品评论数据生成txt文件，并对数据进行初步的清洗处理；

第二步，将txt数据文件导入虚拟机中，利用sqoop组件将数据导入到hive数据库；

第三步，利用hive进行文本的数据处理，通过hive建表，统计展示评论的好坏程度，用来展开该商品相关信息，模拟生产好评论，处理恶意评论和不当言论评论。相关数据的处理展示。

三、数据爬取

爬取弹幕：

import re

import requests

import datetime

#爬取弹幕地址url

url='https://api.bilibili.com/x/v1/dm/list.so?oid=1312049759'

#usr-agent 标识浏览器身份

headers = {

'User-Agent':'Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0'

}

#发起get请求

response = requests.get(url = url,headers = headers)

response.encoding='utf-8'

print(response.text)

#对爬取数据进行简单处理

content_list=re.findall('<d p=".*?">(.*?)</d>',response.text)

print(content_list)

#for遍历循环顺序输出内容

for content in content_list:

with open('弹幕.txt',mode='a',encoding='utf-8') as f:

f.write(content)

f.write('\n')

print(content)

爬取评论：

import requests

if __name__ == "__main__":

#爬取好评100页

for page in range(0,100):

url = 'https://club.jd.com/comment/productPageComments.action'

param = {

'productId': '100039939514',

'score': '3',

'sortType': '5',

'page': page,

'pageSize': '10',

'isShadowSku': '0',

最低0.47元/天解锁文章

关注

10
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

水风16 CSDN认证博客专家 CSDN认证企业博客

码龄3年

10: 原创

131万+: 周排名

22万+: 总排名

8151: 访问

: 等级

226: 积分

92: 粉丝

123: 获赞

8: 评论

207: 收藏

私信

关注

热门文章

分类专栏

大数据学习日记 7篇

最新评论

基于Python的淘宝用户购物数据可视化分析
2201_75305903: 博主这个代码能够直接用吗
基于Python的淘宝用户购物数据可视化分析
阿J~: 都是博主辛苦创作，加油奥里给！
多元统计分析及R语言建模大作业
liMMSM: 实验数据过期了能重发一下吗，感谢
SQOOP的安装
CSDN-Ada助手: 恭喜您写完了第10篇博客！看到标题是"SQOOP的安装"，我觉得您分享了一个非常重要且实用的主题。持续创作博客不仅能够帮助他人，也能够提升自己的技术水平。接下来，我建议您继续深入探讨SQOOP的应用场景、配置与优化技巧等方面的内容。或者，您也可以考虑分享关于其他数据处理工具或者数据库的安装与使用经验，这样能够让读者们更全面地了解数据领域的各种工具，您的经验和见解会给大家带来很大帮助。期待您在下一篇博客中的精彩创作！
xshell5无法连接虚拟机
CSDN-Ada助手: 恭喜您撰写了第9篇博客！标题“xshell5无法连接虚拟机”引起了我的兴趣。我很高兴看到您在持续创作，并分享了您在虚拟机连接方面的经验。对于这个问题，我能感受到您对技术的热情和坚持。我希望您能进一步扩展这篇博客，分享您是如何解决这个问题的，以及您在使用xshell5连接虚拟机过程中的其他经验和技巧。这样的分享对于像我这样的读者来说非常有价值。期待您的下一篇博客，谢谢您的努力！

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。