机器学习第三期2datawhale

最新推荐文章于 2024-08-26 18:56:03 发布

千千万万成长录

最新推荐文章于 2024-08-26 18:56:03 发布

阅读量55

点赞数

文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/ywdataanalyst/article/details/132405740

版权

对任务一问题的解释

代码中如何对udmp进行了人工的onehot？

使用pd.get_dummies函数进行One-Hot编码,pd.concat()函数进行合并

import pandas as pd

# 假设数据存储在名为data.csv的文件中，读取数据到DataFrame对象
data = pd.read_csv('data.csv')

# 提取需要进行One-Hot编码的字段，假设该字段名为"ud_mp"
ud_mp = data['ud_mp']

# 使用get_dummies函数进行One-Hot编码
one_hot_encoded = pd.get_dummies(ud_mp, prefix='ud_mp')

# 将编码后的结果与原始数据合并
data_encoded = pd.concat([data, one_hot_encoded], axis=1)

# 删除原始的"ud_mp"字段
data_encoded.drop('ud_mp', axis=1, inplace=True)

# 输出编码后的数据
print(data_encoded)

数据分析和可视化

matplotlib

主要的模块和函数包括：

1. pyplot模块：提供了类似于Matlab的绘图API，可以方便地创建和定制各种图表。
2. Figure对象：表示整个图形图像窗口，包含多个子图。
3. Axes对象：表示图表中的坐标系，可以在其中绘制具体的图形元素。
4. Line2D对象：表示线条，可用于绘制折线图、曲线图等。
5. Scatter对象：表示散点图，可用于绘制二维数据点。
6. Bar对象：表示柱状图，可用于展示分类变量的数据分布。
7. Pie对象：表示饼图，可用于展示类别占比等信息。
8. Contour对象：表示等高线图，可用于可视化二维数据的密度分布。
9. Subplot函数：用于在一个图形窗口中创建多个子图。
10. 设置函数：用于调整图表的标题、坐标轴标签、刻度等属性。

seaborn(代码中简称sns): 热力图

任务2.1

字段x1至x8为用户相关的属性，为匿名处理字段。添加代码对这些数据字段的取值分析，那些字段为数值类型？那些字段为类别类型？

使用dtype属性获取每个字段的数据类型然后通过判断是否为int64或float64来确定字段类型，得出结果：数值类型字段： ['uuid', 'eid', 'common_ts', 'x1', 'x2', 'x3', 'x4', 'x5', 'x6', 'x7', 'x8', 'target'] 类别类型字段： ['udmap'] ，故x1至x8均为数值类型字段。

import pandas as pd

# 读取数据到DataFrame对象
data = pd.read_csv('用户新增预测挑战赛公开数据/train.csv')

# 使用dtypes属性获取每个字段的数据类型
data_types = data.dtypes

# 根据数据类型判断字段类型
numeric_fields = []
categorical_fields = []

for field, dtype in data_types.items():
    if dtype == 'int64' or dtype == 'float64':
        numeric_fields.append(field)
    else:
        categorical_fields.append(field)

# 输出结果
print("数值类型字段：", numeric_fields)
print("类别类型字段：", categorical_fields)

对于数值类型的字段，考虑绘制在标签分组下的箱线图。

import seaborn as sns
import pandas as pd
import matplotlib.pyplot as plt
data = pd.read_csv('用户新增预测挑战赛公开数据/train.csv')
columns=data.iloc[:,4:11]
# 使用seaborn中的boxplot()函数绘制多个变量的箱线图，并用“orient=‘v’”这一参数区分不同变量
sns.boxplot(data=columns, orient='v')

# 设置图表标题和坐标轴标签
plt.title('x1-x8')
plt.xlabel('Variable')
plt.ylabel('Value')

# 显示图表
plt.show()

得到结果