“泰迪杯”挑战赛 - 面向网络舆情的关联度分析

本次建模旨在利用中文分词技术,通过计算用户属性和事件分词的相似度,建立用户与事件的关联度,并通过Clementine软件分析用户之间的关联。首先进行数据预处理,包括缺失值、重复值和异常值处理,然后进行分词处理。接下来,通过欧氏距离计算用户与事件的关联,进一步挖掘用户与用户之间的关系。最终,通过模型诊断和优化,得出用户与用户之间的关联等级,揭示了网络舆情背后的人物关系网络。
摘要由CSDN通过智能技术生成

目录

  1. 研究目标
  2. 分析方法与过程
    2.1.总体流程
    2.2.具体步骤
    2.3.结果分析
  3. 结论
  4. 参考文献

1. 挖掘目标

本次建模的目标是利用客户提供的 2013 年热点事件和用户信息表,采用中文分词技术,建立用户和事件的相互关系,通过计算人物属性(姓名,性别,住址)和每个事件中相对应的分词结果中相同的字数,得出用户和事件之间的关联度,通过 clementine软件,得出用户和用户的关联度。从而可以知道一个事件背后,这个人有多大关系,同时还能看出,这个人和其他人是否有关系。从而在一件事中,找出幕后操纵者和同伙。

2. 分析方法与过程

2.1. 总体流程

在这里插入图片描述
本次建模主要包括以下步骤:
步骤一:数据预处理
步骤二:建模和诊断
步骤三:模型优化

2.2. 具体步骤

步骤 1:数据预处理

· 缺失值处理
在用户信息表中,一些用户的身份证是错误的,无法修正,当成缺失值,因此该用户的身份证这一项不列入用户属性中。在提取 html 文件中,不一定能够把所需要的属性(如:性别,地址)提取出来,若不能根据网址和标题分词得到的地址对地址进行填补,计算时当缺失值处理。

· 重复值处理
在原始数据中,同样的事件可能会出现很多次,而经过访问,这些事件大多是抓取时间不同,代表了网站有更新,即事件的更新度,该事件的频率可以作为一个热度进行考虑,但在本次挖掘中,我们是研究用户与用户之间的关系,一个事件可能关系着几个用户,那么如果本事件重复出现,就会使这 2 个用户的关联更大,影响着最后结果的正确性。因此把重复事件全都去掉,只保留第一次出现的事件,同时提取了重复事件频率,方便研究事件的热度以及用户和事件频率的关系。

· 分词处理

运用中科院的分词软件,将每个 txt 文本中事件标题进行分词,词性标注,以方便提取各个属性的词语。

· 异常值处理
在分值后,由于分词软件的词库是有限大的,因此有些词语是识别不了。例如:奥巴马,会被自动分成 3 个单独的名词:奥,巴,马。因此,对于这些分词异常的词语,要进行人工处理,修正。分词后数据,见附件 1。

在用户表中,有身份证一列,而在 html 文件中,几乎没出现过身份证号,为了能充分体现着一项数据,因此可以把身份证转换:性别,出生年月日,发证地。以及一些错误身份证号码的修正。用户信息处理后,见附件 2。

· 相关处理

为了找出用户与用户之间的关系,需要事件去连接起来。因此,各事件中找出具有用户任一属性(例如:姓名,住址,关键字)的事件,见附件 3,然后转化成“用户-事件-用户”这样结构的一张表,见附件 4。

步骤 2:建模与诊断

· 用户与用户关联度
为了能让 Clementine 识别附件 4,因此把附件 4 转换为附件 5,以矩阵的形式存储数据。建立以下流程(附件中记为流 1):

在这里插入图片描述
· 用户与事件关联度

1、

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

爱学习的数据喵

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值