机器学习- 特征衍生

最新推荐文章于 2025-05-15 07:55:33 发布

想胖的壮壮

最新推荐文章于 2025-05-15 07:55:33 发布

阅读量1.6k

点赞数 21

文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/weixin_47552266/article/details/139140635

版权

特征衍生是指从原始数据中提取或创建新的特征，以帮助提升机器学习模型的性能。它是特征工程的重要组成部分，旨在通过增加信息、减少噪音、增强模型可解释性等方式，提高模型的预测能力。以下是特征衍生的目的、作用和常见方法的详细说明：

目的和作用

提升模型性能：通过创建有用的特征，可以提高模型的预测准确性和稳定性。
减少噪音：通过特征衍生，可以减少数据中的噪音，使模型更加健壮。
增强可解释性：一些特征可以帮助我们更好地理解数据和模型的决策过程。
处理数据的非线性关系：有些特征可以帮助捕捉数据中的非线性关系，从而改进模型的性能。

常见方法

数学变换：对原始特征进行加减乘除、对数变换、平方根变换等。
聚合统计量：对时间序列数据或分组数据计算均值、标准差、最大值、最小值等。
时间特征：从日期时间数据中提取年月日、星期几、小时等信息。
文本特征：从文本数据中提取关键词、词频、情感评分等。
交互特征：创建特征之间的交叉乘积或其他交互形式的特征。
分箱处理：将连续特征离散化，如将年龄分成几个年龄段。
缺失值处理：将缺失值信息转化为新的特征。
多项式特征：对原始特征进行多项式扩展，如二次项、三次项等。
编码处理：对类别型变量进行独热编码、目标编码等。
衍生变量：从原始数据中创建新的变量，如销售额=单价×销量。

常见问题和解决方案

特征冗余和共线性：
- 问题：衍生的特征可能和已有特征高度相关，导致共线性问题。
- 解决方案：使用相关性分析、VIF（方差膨胀因子）等方法筛选和删除冗余特征。
特征数量过多：
- 问题：过多的特征会增加计算复杂度，可能导致过拟合。
- 解决方案：使用特征选择算法（如L1正则化、随机森林特征重要性等）来筛选重要特征。
特征尺度不一致：
- 问题：不同特征的取值范围差异较大，影响模型训练。
- 解决方案：进行特征标准化或归一化处理，使特征值处于相同范围内。
特征分布偏差：
- 问题：一些特征的分布可能极度偏斜，影响模型的学习能力。
- 解决方案：使用对数变换、Box-Cox变换等方法对偏斜分布进行调整。
特征和目标变量关系不明确：
- 问题：衍生特征与目标变量的关系不明显或无关。
- 解决方案：通过单变量分析、多变量分析来验证特征的重要性。
特征缺失值处理：
- 问题：特征缺失值过多可能影响模型性能。
- 解决方案：使用填补缺失值的方法（如均值填补、插值法等）或创建缺失值标记特征。
类别特征的高基数问题：
- 问题：类别特征的取值种类过多，可能导致独热编码后的特征维度爆炸。
- 解决方案：使用目标编码、频次编码等方法，或者合并低频类别。
时间特征的季节性和周期性：
- 问题：时间特征中的季节性和周期性模式未被充分利用。
- 解决方案：提取季节性特征（如季度、月份）和周期性特征（如节假日、周末）来增强模型。
处理异常值：
- 问题：异常值会影响特征衍生的结果和模型的性能。
- 解决方案：使用异常值检测方法（如IQR法、z-score法）并进行处理（如删除、替换）。
特征解释性不足：
- 问题：部分衍生特征难以解释，可能影响模型的可解释性。
- 解决方案：尽量使用容易理解的特征，并对重要特征进行解释和验证。

示例

假设我们有一份电子商务交易数据集，包含以下字段：

user_id：用户ID
item_id：商品ID
price：商品单价
quantity：购买数量
purchase_date：购买日期

我们可以通过特征衍生来提升模型性能：

销售额：sales = price * quantity
购买月份：从purchase_date中提取
购买星期几：从purchase_date中提取
用户总购买次数：按user_id聚合计数
用户总购买金额：按user_id聚合计算总金额
商品总销量：按item_id聚合计算总销量
商品平均单价：按item_id聚合计算平均单价
用户-商品交互特征：user_item_interaction = user_id + item_id
购买频率：purchase_frequency = total_purchases / total_days
购买时间特征：提取购买时间的小时部分（如早晨、下午、晚上）

代码

以下是针对电子商务交易数据集进行特征衍生的示例代码。假设数据集以CSV文件的形式存储，并包含user_id、item_id、price、quantity和purchase_date字段。

import pandas as pd
import numpy as np

# 读取数据集
data = pd.read_csv('ecommerce_data.csv')

# 转换purchase_date为datetime类型
data['purchase_date'] = pd.to_datetime(data['purchase_date'])

# 1. 计算销售额
data['sales'] = data['price'] * data['quantity']

# 2. 提取购买月份
data['purchase_month'] = data['purchase_date'].dt.month

# 3. 提取购买星期几
data['purchase_day_of_week'] = data['purchase_date'].dt.dayofweek

# 4. 计算用户总购买次数
user_total_purchases = data.groupby('user_id')['item_id'].count().reset_index()
user_total_purchases.columns = ['user_id', 'total_purchases']
data = data.merge(user_total_purchases, on='user_id', how='left')

# 5. 计算用户总购买金额
user_total_sales = data.groupby('user_id')['sales'].sum().reset_index()
user_total_sales.columns = ['user_id', 'total_sales']
data = data.merge(user_total_sales, on='user_id', how='left')

# 6. 计算商品总销量
item_total_quantity = data.groupby('item_id')['quantity'].sum().reset_index()
item_total_quantity.columns = ['item_id', 'total_quantity']
data = data.merge(item_total_quantity, on='item_id', how='left')

# 7. 计算商品平均单价
item_avg_price = data.groupby('item_id')['price'].mean().reset_index()
item_avg_price.columns = ['item_id', 'avg_price']
data = data.merge(item_avg_price, on='item_id', how='left')

# 8. 用户-商品交互特征
data['user_item_interaction'] = data['user_id'].astype(str) + '_' + data['item_id'].astype(str)

# 9. 计算购买频率
first_purchase_date = data.groupby('user_id')['purchase_date'].min().reset_index()
first_purchase_date.columns = ['user_id', 'first_purchase_date']
data = data.merge(first_purchase_date, on='user_id', how='left')
data['total_days'] = (data['purchase_date'] - data['first_purchase_date']).dt.days + 1
data['purchase_frequency'] = data['total_purchases'] / data['total_days']

# 10. 提取购买时间的小时部分
data['purchase_hour'] = data['purchase_date'].dt.hour

# 显示处理后的数据
print(data.head())