毕业设计:基于python的网民社交网络数据的分析与挖掘

 

1.读数据表

首先,我们读取原始数据,并查看各字段基本情况。

gradyeargenderagefriendsbasketballfootballsoccersoftballvolleyballswimmingcheerleadingbaseballtennissportscutesexsexyhotkisseddancebandmarchingmusicrockgodchurchjesusbiblehairdressblondemallshoppingclotheshollisterabercrombiediedeathdrunkdrugs
2006M18.987000000000000000100000000000000000000
2006F18.8010010000000010000000221000640100000000
2006M18.33569010000000000000020100000000000000100
2006F18.8750000000000010000000010000000000000000
200618.99510000000000001005110301000100020000011

2.年龄缺失值填补

缺失值(missing value)是指现有数据集中某个或某些属性的值是不完全的。 由于大部分机器学习模型无法处理缺失值,在数据建模前需要填补或者剔除缺失值。对于连续变量age,我们使用该列的均值进行填充,结果如下表所示。

gradyeargenderagefriendsbasketballfootballsoccersoftballvolleyballswimmingcheerleadingbaseballtennissportscutesexsexyhotkisseddancebandmarchingmusicrockgodchurchjesusbiblehairdressblondemallshoppingclotheshollisterabercrombiediedeathdrunkdrugs
2006M18.987000000000000000100000000000000000000
2006F18.8010010000000010000000221000640100000000
2006M18.33569010000000000000020100000000000000100
2006F18.8750000000000010000000010000000000000000
200618.99510000000000001005110301000100020000011

3.性别缺失值填补

对于离散变量gender,我们使用“未知”进行填充,结果如下表所示。

gradyeargenderagefriendsbasketballfootballsoccersoftballvolleyballswimmingcheerleadingbaseballtennissportscutesexsexyhotkisseddancebandmarchingmusicrockgodchurchjesusbiblehairdressblondemallshoppingclotheshollisterabercrombiediedeathdrunkdrugs
2006M18.987000000000000000100000000000000000000
2006F18.8010010000000010000000221000640100000000
2006M18.33569010000000000000020100000000000000100
2006F18.8750000000000010000000010000000000000000
2006未知18.99510000000000001005110301000100020000011

5.异常值处理前直方图

异常值(outlier),也称为极端值,是数据集中某些数值明显偏离其余数据点的样本点。因为线性回归模型等机器学习模型对异常值较为敏感,对异常值进行处理有利于提高建模的鲁棒性。

接下来,我们用直方图查看friends列数据分布情况。

6.异常值处理

通过数据筛选组件,我们可以剔除掉大于�3+1.5×���Q3​+1.5×IQR的数据点,结果如下表所示。

gradyeargenderagefriendsbasketballfootballsoccersoftballvolleyballswimmingcheerleadingbaseballtennissportscutesexsexyhotkisseddancebandmarchingmusicrockgodchurchjesusbiblehairdressblondemallshoppingclotheshollisterabercrombiediedeathdrunkdrugs
2006M18.987000000000000000100000000000000000000
2006F18.8010010000000010000000221000640100000000
2006M18.33569010000000000000020100000000000000100
2006F18.8750000000000010000000010000000000000000
2006未知18.99510000000000001005110301000100020000011

7.Z-Score标准化

数据标准化指的是将数据按比例缩放的预处理操作。 当我们希望消除量纲的影响、帮助模型收敛、适应模型假设时,就可能需要进行数据标准化。

在本案例中,我们将介绍比较常用的Z-Score标准化和MinMax标准化。下面我们对数据集中friends列做Z-Score标准化,使得处理后的数据均值为0,标准差为1。

gradyeargenderagefriendsbasketballfootballsoccersoftballvolleyballswimmingcheerleadingbaseballtennissportscutesexsexyhotkisseddancebandmarchingmusicrockgodchurchjesusbiblehairdressblondemallshoppingclotheshollisterabercrombiediedeathdrunkdrugs
2006M18.98-0.720678000000000000000100000000000000000000
2006F18.801-0.99873010000000010000000221000640100000000
2006M18.3351.742069010000000000000020100000000000000100
2006F18.875-0.99873000000000010000000010000000000000000
2006未知18.995-0.601512000000000001005110301000100020000011
特征均值标准差
friends25.14316525.175147

8.异常值处理后直方图

 

  • 27
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

计算机毕设论文

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值