“泰迪杯”挑战赛 - 面向网络舆情的关联度分析

最新推荐文章于 2024-06-18 21:56:05 发布

爱学习的数据喵

最新推荐文章于 2024-06-18 21:56:05 发布

阅读量820

点赞数

分类专栏：泰迪杯论文大数据项目案例 excel 文章标签：网络舆情 replace pioneer 关联度欧氏距离中文分词

本文链接：https://blog.csdn.net/weixin_47922824/article/details/116597757

版权

本次建模旨在利用中文分词技术，通过计算用户属性和事件分词的相似度，建立用户与事件的关联度，并通过Clementine软件分析用户之间的关联。首先进行数据预处理，包括缺失值、重复值和异常值处理，然后进行分词处理。接下来，通过欧氏距离计算用户与事件的关联，进一步挖掘用户与用户之间的关系。最终，通过模型诊断和优化，得出用户与用户之间的关联等级，揭示了网络舆情背后的人物关系网络。

摘要由CSDN通过智能技术生成

研究目标
分析方法与过程
2.1.总体流程
2.2.具体步骤
2.3.结果分析
结论
参考文献

1. 挖掘目标

本次建模的目标是利用客户提供的 2013 年热点事件和用户信息表，采用中文分词技术，建立用户和事件的相互关系，通过计算人物属性（姓名，性别，住址）和每个事件中相对应的分词结果中相同的字数，得出用户和事件之间的关联度，通过 clementine软件，得出用户和用户的关联度。从而可以知道一个事件背后，这个人有多大关系，同时还能看出，这个人和其他人是否有关系。从而在一件事中，找出幕后操纵者和同伙。

2. 分析方法与过程

2.1. 总体流程

在这里插入图片描述
本次建模主要包括以下步骤：
步骤一：数据预处理
步骤二：建模和诊断
步骤三：模型优化

2.2. 具体步骤

步骤 1：数据预处理

· 缺失值处理
在用户信息表中，一些用户的身份证是错误的，无法修正，当成缺失值，因此该用户的身份证这一项不列入用户属性中。在提取 html 文件中，不一定能够把所需要的属性（如：性别，地址）提取出来，若不能根据网址和标题分词得到的地址对地址进行填补，计算时当缺失值处理。

· 重复值处理
在原始数据中，同样的事件可能会出现很多次，而经过访问，这些事件大多是抓取时间不同，代表了网站有更新，即事件的更新度，该事件的频率可以作为一个热度进行考虑，但在本次挖掘中，我们是研究用户与用户之间的关系，一个事件可能关系着几个用户，那么如果本事件重复出现，就会使这 2 个用户的关联更大，影响着最后结果的正确性。因此把重复事件全都去掉，只保留第一次出现的事件，同时提取了重复事件频率，方便研究事件的热度以及用户和事件频率的关系。

· 分词处理

运用中科院的分词软件，将每个 txt 文本中事件标题进行分词，词性标注，以方便提取各个属性的词语。

· 异常值处理
在分值后，由于分词软件的词库是有限大的，因此有些词语是识别不了。例如：奥巴马，会被自动分成 3 个单独的名词：奥，巴，马。因此，对于这些分词异常的词语，要进行人工处理，修正。分词后数据，见附件 1。

在用户表中，有身份证一列，而在 html 文件中，几乎没出现过身份证号，为了能充分体现着一项数据，因此可以把身份证转换：性别，出生年月日，发证地。以及一些错误身份证号码的修正。用户信息处理后，见附件 2。

· 相关处理

为了找出用户与用户之间的关系，需要事件去连接起来。因此，各事件中找出具有用户任一属性（例如：姓名，住址，关键字）的事件，见附件 3，然后转化成“用户-事件-用户”这样结构的一张表，见附件 4。

步骤 2：建模与诊断

· 用户与用户关联度
为了能让 Clementine 识别附件 4，因此把附件 4 转换为附件 5，以矩阵的形式存储数据。建立以下流程（附件中记为流 1）：

在这里插入图片描述
· 用户与事件关联度