特征工程

最新推荐文章于 2022-10-14 15:45:41 发布

i_love_zxr1314

最新推荐文章于 2022-10-14 15:45:41 发布

阅读量64

点赞数

文章标签：机器学习 python

本文链接：https://blog.csdn.net/weixin_43721174/article/details/110579000

版权

特征工程

我们先捋一下基于原始的给定数据，有哪些特征可以直接利用：

1.文章的自身特征， category_id表示这文章的类型， created_at_ts表示文章建立的时间，这个关系着文章的时效性， words_count是文章的字数，一般字数太长我们不太喜欢点击, 也不排除有人就喜欢读长文。
2.文章的内容embedding特征，这个召回的时候用过，这里可以选择使用，也可以选择不用，也可以尝试其他类型的embedding特征，比如W2V等
3.用户的设备特征信息

上面这些直接可以用的特征，待做完特征工程之后，直接就可以根据article_id或者是user_id把这些特征加入进去。但是我们需要先基于召回的结果，构造一些特征，然后制作标签，形成一个监督学习的数据集。

构造监督数据集的思路，根据召回结果，我们会得到一个{user_id: [可能点击的文章列表]}形式的字典。那么我们就可以对于每个用户，每篇可能点击的文章构造一个监督测试集，比如对于用户user1，假设得到的他的召回列表{user1: [item1, item2, item3]}，我们就可以得到三行数据(user1, item1), (user1, item2), (user1, item3)的形式，这就是监督测试集时候的前两列特征。

构造特征的思路是这样，我们知道每个用户的点击文章是与其历史点击的文章信息是有很大关联的，比如同一个主题，相似等等。所以特征构造这块很重要的一系列特征是要结合用户的历史点击文章信息。我们已经得到了每个用户及点击候选文章的两列的一个数据集，而我们的目的是要预测最后一次点击的文章，比较自然的一个思路就是和其最后几次点击的文章产生关系，这样既考虑了其历史点击文章信息，又得离最后一次点击较近，因为新闻很大的一个特点就是注重时效性。往往用户的最后一次点击会和其最后几次点击有很大的关联。所以我们就可以对于每个候选文章，做出与最后几次点击相关的特征如下：

1.候选item与最后几次点击的相似性特征(embedding内积） — 这个直接关联用户历史行为

2.候选item与最后几次点击的相似性特征的统计特征 — 统计特征可以减少一些波动和异常

3.候选item与最后几次点击文章的字数差的特征 — 可以通过字数看用户偏好

4.候选item与最后几次点击的文章建立的时间差特征 — 时间差特征可以看出该用户对于文章的实时性的偏好
还需要考虑一下

5. 如果使用了youtube召回的话，我们还可以制作用户与候选item的相似特征

当然，上面只是提供了一种基于用户历史行为做特征工程的思路，大家也可以思维风暴一下，尝试一些其他的特征。下面我们就实现上面的这些特征的制作，下面的逻辑是这样：

我们首先获得用户的最后一次点击操作和用户的历史点击，这个基于我们的日志数据集做
基于用户的历史行为制作特征，这个会用到用户的历史点击表，最后的召回列表，文章的信息表和embedding向量
制作标签，形成最后的监督学习数据集

导包

import numpy as np
import pandas as pd
import pickle
from tqdm import tqdm
import gc, os
import logging
import time
import lightgbm as lgb
from gensim.models import Word2Vec
from sklearn.preprocessing import MinMaxScaler
import warnings
warnings.filterwarnings('ignore')

df节省内存函数

# 节省内存的一个函数
# 减少内存
def reduce_mem(df):
    starttime = time.time()
    numerics = ['int16', 'int32', 'int64', 'float16', 'float32', 'float64']
    start_mem = df.memory_usage().sum() / 1024**2
    for col in df.columns:
        col_type = df[col].dtypes
        if col_type in numerics:
            c_min = df[col].min()
            c_max = df[col].max()
            if pd.isnull(c_min) or pd.isnull(c_max):
                continue
            if str(col_type)[:3] == 'int':
                if c_min > np.iinfo(np.int8).min and c_max < np.iinfo(np.int8).max:
                    df[col] = df[col].astype(np.int8)
                elif c_min > np.iinfo(np.int16).min and c_max < np.iinfo(np.int16).max:
                    df[col] = df[col].astype(np.int16)
                elif c_min > np.iinfo(np.int32).min and c_max < np.iinfo(np.int32).max:
                    df[col] = df[col].astype(np.int32)
                elif c_min > np.iinfo(np.int64).min and c_max < np.iinfo(np.int64).max:
                    df[col] = df[col].astype(np.int64)
            else:
                if c_min > np.finfo(np.float16).min and c_max < np.finfo(np.float16).max:
                    df[col] = df[col].astype(np.float16)
                elif c_min > np.finfo(np.float32).min and c_max < np.finfo(np.float32).max:
                    df[col] = df[col].astype(np.float32)
                else:
                    df[col] = df[col].astype(np.float64)
    end_mem = df.memory_usage().sum() / 1024**2
    print('-- Mem. usage decreased to {:5.2f} Mb ({:.1f}% reduction),time spend:{:2.2f} min'.format(end_mem,
                                                                                                           100*(start_mem-end_mem)/start_mem,
                                                                                                           (time.time()-starttime)/60))
    return df

定义数据路径

data_path = './data_raw/'
save_path = './temp_results/

i_love_zxr1314

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
特征工程

特征工程我们先捋一下基于原始的给定数据，有哪些特征可以直接利用：1.文章的自身特征， category_id表示这文章的类型， created_at_ts表示文章建立的时间，这个关系着文章的时效性， words_count是文章的字数，一般字数太长我们不太喜欢点击, 也不排除有人就喜欢读长文。2.文章的内容embedding特征，这个召回的时候用过，这里可以选择使用，也可以选择不用，也可以尝试其他类型的embedding特征，比如W2V等3.用户的设备特征信息上面这些直接可以用的特
复制链接

扫一扫