数据科学导引上机（5）

最新推荐文章于 2024-03-04 09:43:05 发布

小琳哥

最新推荐文章于 2024-03-04 09:43:05 发布

阅读量2.5k

点赞数

分类专栏：笔记文章标签：聚类数据挖掘机器学习

本文链接：https://blog.csdn.net/weixin_47238158/article/details/121921719

版权

1源数据

此次用到的是青少年社交网络中常用词数据，借此进行市场调研

使用的方法是K-Means聚类方法，不介绍原理

2 数据探索和预处理

# 数据预处理
import pandas as pd
teenager_sns = pd.read_csv('teenager_sns.csv')
# 查看数据最后20行
teenager_sns.tail(20)

#1.1）观察数据，并查看数据是否存在缺失值？
teenager_sns.info()

#2.1）统计gender存在缺失值的样本数量。
teenager_sns["gender"].value_counts(dropna = False)

#2.2）统计age存在缺失值的样本数量,并给出age变量的整体描述？
print(f'age变量缺失值数目: {teenager_sns["age"].isnull().sum()}')
teenager_sns["age"].describe()

将不合理的年龄数据（异常值）设置为NaN

import numpy as np

def tag_nan(value):
    if (value >= 13) & (value < 20):
        return value
    else:
        return np.NaN
# 青少年年龄在13~18岁，超过范围的设为NaN
# map映射函数
teenager_sns["age"]  = teenager_sns["