推荐系统:推荐算法详解三

特征工程涉及数据预处理,包括数值型特征的归一化和离散化,类别型特征的One-Hot编码,时间型特征的处理,以及推荐系统中用户行为类型的反馈数据分析。归一化和离散化用于平衡特征之间的影响力,One-Hot编码用于处理类别数据,而时间型特征则结合连续和离散属性。推荐系统的反馈数据如购买、评分、投票等揭示用户偏好。
摘要由CSDN通过智能技术生成

特征工程

维基百科对于特征工程的定义是:利用相关领域知识,通过数据挖掘技术从原始数据中提取特征的过程。这些特征可以用来提高机器学习算法的性能;
为了对概念更明晰,先看下图
在这里插入图片描述
特征:作为判断条件的一组输入变量,是做出判断的依据;
目标:判断和预测的目标,模型的输出变量,是特征所产生的结果;

特征(feature):数据中抽取出来的对结果预测有用的信息。
特征的个数就是数据的观测维度;
特征工程一般包括特征清洗(采样、清洗异常样本),特征处理和特征选择
特征按照不同的数据类型分类,有不同的特征处理方法:可以分为数值型,类别型,时间型,统计型等;

数值型特征处理

用连续数值表示当前的维度特征,通常会对数值型特征进行数学上的处理,主要做法是归一化和离散化

归一化

特征与特征之间应该是平等的,区别应该体现在特征内部;
例如房屋的价格和住房面积的幅度是不同的,房屋价格可能在3000000-15000000之间,而住房面积在40-300平方米之间,那么明明是平等的两个特征,输入到相同的模型后由于本身的幅值不同导致产生的效果不同,这是不合理的,需做归一化处理;
在这里插入图片描述
归一化后:
在这里插入图片描述

离散化

离散化:将原始连续值切断,转化为离散值;
在这里插入图片描述
让座问题:假设我们要训练一个模型判断在公交车上应不应该给一个人让座,按照常理,应该是给年龄很大和年龄很小的人让座
对于以上让座问题中的年龄特征,对于一些模型,假设模型为y=θ x,输入的x(年龄)对于最后的贡献是正/负相关的,即x越大越应该让座,但很明显让座问题中,年龄和是否让座不是严格的正相关或者负相关,这样只能兼顾年龄大的人,无法将年龄大的人和年龄小的人;

对于让座问题,我们可以使用阈值将年龄进行分类,将一个age特征分为多个特征,将联系值离散化;
在这里插入图片描述
在电商中人们对价格的喜好程度,就不是严格意义的正相关;
离散化的两种方式:
等步长:简单单不一定有效
等频:min —>25% ----->75% —>max
两种方法对比:
等频的离散化方法很精准,但需要每次都对数据分布机型一遍从新计算;等频不固定,但很精准,等步长是固定的,非常简单,因此两者都有应用;

类别型特征处理

类别型数据本身没有大小关系,需要将它们编码为数字,但它们之间不能有预先设定的大小关系,因此既要做到公平,又要区分开它们,那么直接开辟多个空间;
One-Hot 编码/哑变量

One-Hot 编码/哑变量所做的就是将类别型数据平行的展开,也就是说,经过One-Hot 编码/哑变量后,这个特征的空间会膨胀;
上述例子经过One-Hot 编码后:
在这里插入图片描述

时间型特征处理

时间型特征既可以做连续值,又可以看做离散值;
连续值:
持续时间(网页浏览时长)
间隔时间(上一次购买/点击离现在的时间间隔)

离散值:
一天中哪个时间段
一周中的星期几
一年中的哪个月/星期
工作日/周末

统计型特征处理

加减平均:商品价格高于平均价格多少,用户在某个品类下消费超过多少。
分位线:商品属于售出商品价格的分位线处。
次序性:商品处于热门商品第几位;
比例类:电商中商品的好/中/差比例;

推荐系统常见反馈数据

用户行为类型特征作用
购买显式布尔量化的偏好,取值0或1购买行为可以很明确地说明用户感兴趣
评分显式整数量化的偏好,可能的取值是[0,n];n一般取5或10通过用户对物品的评分,可以精确得到用户的偏好
投票显式布尔量化的偏好,取值0或1通过用户投票,可以较准确地得到用户偏好
转发显式布尔量化的偏好,取值0或1通过用户转发行为,可以精准地得到用户偏好,如果是站内,同时可以推理得到被转发人的偏好(不太准确)
保存/收藏显式布尔量化的偏好,取值0或1通过收藏行为,可以精准地得到用户偏好
打标签(tag)显式一些单词,需要对单词进行分析,得到偏好通过分析用户打的标签,可以得到用户对项目的理解,同时可以分析出用户的情感;喜欢还是讨厌
评论显式一段文字,需要进行文本分析,得到偏好通过分析用户的评论,可以得到用户的情感:喜欢还是讨厌
点击浏览(查看)隐式一组用户的点击,用户对物品感兴趣,需要进行分析,得到偏好用户的点击一定程度上反映了用户的注意力,所以它也可以从一定程度上反映用户的喜好
页面停留时间隐式一组时间信息,噪音大,需要进行去噪,分析,得到偏好用户的页面停留时间一定程度上反映了用户的注意力和偏好,但噪音偏大,不好利用
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值