机器学习第三期2datawhale

对任务一问题的解释 

  • 代码中如何对udmp进行了人工的onehot?

 使用pd.get_dummies函数进行One-Hot编码,pd.concat()函数进行合并

import pandas as pd

# 假设数据存储在名为data.csv的文件中,读取数据到DataFrame对象
data = pd.read_csv('data.csv')

# 提取需要进行One-Hot编码的字段,假设该字段名为"ud_mp"
ud_mp = data['ud_mp']

# 使用get_dummies函数进行One-Hot编码
one_hot_encoded = pd.get_dummies(ud_mp, prefix='ud_mp')

# 将编码后的结果与原始数据合并
data_encoded = pd.concat([data, one_hot_encoded], axis=1)

# 删除原始的"ud_mp"字段
data_encoded.drop('ud_mp', axis=1, inplace=True)

# 输出编码后的数据
print(data_encoded)

 数据分析和可视化

matplotlib

主要的模块和函数包括:

1. pyplot模块:提供了类似于Matlab的绘图API,可以方便地创建和定制各种图表。
2. Figure对象:表示整个图形图像窗口,包含多个子图。
3. Axes对象:表示图表中的坐标系,可以在其中绘制具体的图形元素。
4. Line2D对象:表示线条,可用于绘制折线图、曲线图等。
5. Scatter对象:表示散点图,可用于绘制二维数据点。
6. Bar对象:表示柱状图,可用于展示分类变量的数据分布。
7. Pie对象:表示饼图,可用于展示类别占比等信息。
8. Contour对象:表示等高线图,可用于可视化二维数据的密度分布。
9. Subplot函数:用于在一个图形窗口中创建多个子图。
10. 设置函数:用于调整图表的标题、坐标轴标签、刻度等属性。

 seaborn(代码中简称sns): 热力图

任务2.1 
  • 字段x1至x8为用户相关的属性,为匿名处理字段。添加代码对这些数据字段的取值分析,那些字段为数值类型?那些字段为类别类型?

使用dtype属性获取每个字段的数据类型 然后通过判断是否为int64或float64来确定字段类型,得出结果:数值类型字段: ['uuid', 'eid', 'common_ts', 'x1', 'x2', 'x3', 'x4', 'x5', 'x6', 'x7', 'x8', 'target'] 类别类型字段: ['udmap'] ,故x1至x8均为数值类型字段。

import pandas as pd

# 读取数据到DataFrame对象
data = pd.read_csv('用户新增预测挑战赛公开数据/train.csv')

# 使用dtypes属性获取每个字段的数据类型
data_types = data.dtypes

# 根据数据类型判断字段类型
numeric_fields = []
categorical_fields = []

for field, dtype in data_types.items():
    if dtype == 'int64' or dtype == 'float64':
        numeric_fields.append(field)
    else:
        categorical_fields.append(field)

# 输出结果
print("数值类型字段:", numeric_fields)
print("类别类型字段:", categorical_fields)
  • 对于数值类型的字段,考虑绘制在标签分组下的箱线图。
import seaborn as sns
import pandas as pd
import matplotlib.pyplot as plt
data = pd.read_csv('用户新增预测挑战赛公开数据/train.csv')
columns=data.iloc[:,4:11]
# 使用seaborn中的boxplot()函数绘制多个变量的箱线图,并用“orient=‘v’”这一参数区分不同变量
sns.boxplot(data=columns, orient='v')

# 设置图表标题和坐标轴标签
plt.title('x1-x8')
plt.xlabel('Variable')
plt.ylabel('Value')

# 显示图表
plt.show()

得到结果

 

模型交叉验证

用于机器学习评估模型性能的统计方法

  1. :HoldOut Cross-validation(Train-Test Split)-随机分配82分或73分等
  2. K次交叉验证(K-Fold Cross-Validation)-K个部分顾名思义都当一边验证集
  3. 分层K次交叉验证(Stratified K-Fold Cross-Validation)-2的增强版
  4. Leave P Out cross-validation -p个样本被用作验证集和2类似
  5. Leave One Out cross-validation -p=1
  6. 蒙特卡罗交叉验证(Monte Carlo Cross-Validation)-
  7. 时间序列交叉验证(Time Series Cross-Validation)-适合时间序列数据集

1.2.不适用于不平衡数据 ,不平衡数据集用3,时间序列数据集用7

f1-score

SGD

决策树多媒体随机森林
accuracy
0.700
0.891
0.697 
0.891
macro avg
0.515
0.771
0.552
0.750
weighted avg
0.730
0.890
0.735
0.885

故决策树精度更高,与lightgbm相比后者更精确


                
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值