1源数据
此次用到的是青少年社交网络中常用词数据,借此进行市场调研
使用的方法是K-Means聚类方法,不介绍原理
2 数据探索和预处理
# 数据预处理
import pandas as pd
teenager_sns = pd.read_csv('teenager_sns.csv')
# 查看数据最后20行
teenager_sns.tail(20)
#1.1)观察数据,并查看数据是否存在缺失值?
teenager_sns.info()
#2.1)统计gender存在缺失值的样本数量。
teenager_sns["gender"].value_counts(dropna = False)
#2.2)统计age存在缺失值的样本数量,并给出age变量的整体描述?
print(f'age变量缺失值数目: {teenager_sns["age"].isnull().sum()}')
teenager_sns["age"].describe()
将不合理的年龄数据(异常值)设置为NaN
import numpy as np
def tag_nan(value):
if (value >= 13) & (value < 20):
return value
else:
return np.NaN
# 青少年年龄在13~18岁,超过范围的设为NaN
# map映射函数
teenager_sns["age"] = teenager_sns["