个性化推荐
协同过滤
基于商品:ICF (item based) 例子:沃尔玛啤酒与尿布的故事
基于人:UCF (user based) 例子:亚马逊电商“customer who bought this item also bought…”
核心理念:爱好相同的人或者属性相似的物
协同过滤算法商品推荐架构
1、训练集->过滤出购买行为->训练出推荐对,结果比较
2、测试集测试
用户画像
用户维度特征:
总的购买量;总的点击量;总购买/总点击
商品维度特征:
总的被购买量;总的被点击量;总被购买/总被点击
归一化:去除量纲对数据计算的影响
文本挖掘
文本分类;文本打标签;情感分析
新闻自动分类:首先对于文档(包含所有文章)进行分词,然后对其进行词频统计,接着通过LDA算法提取出主题具体分布,最后使用聚类对文章进行归档处理(即具体到特定文章属于特定的类)
基于主题的文本分类:
文本 —(主题算法)— 主题 —(聚类算法)—分类
LDA算法(主题模型)
概率密度公式:
p
(
词
语
∣
文
档
)
=
∑
主
题
p
(
词
语
∣
主
题
)
∗
p
(
主
题
∣
文
档
)
p(词语|文档)=\sum_ {主题} p(词语|主题)*p(主题|文档)
p(词语∣文档)=主题∑p(词语∣主题)∗p(主题∣文档)
文档:所有文章的总和
利用贝叶斯公式生成文章
1、考虑文章的主题是什么,这个主题可以通过概率分布得出
2、得到主题后,从主题中的单词分布中选择一个词,这个词必须符合主题的概率分布
3、循环遍历文章,例如我们要写一个500词的作文,就把1,2循环遍历500次
KMeans
1、设置分类K值
2、设置初始的质心簇的位置
3、不断迭代寻找新的分类簇的簇心点
4、收敛完成聚类
例:初始质心为图中的x,首先通过计算质心簇的距离找到分隔的线(红色),在红色分隔线的两边需按照新的质心簇,在继续寻找新的分隔线,依次…直到最后收敛
文本分类步骤:
关键词抽取
算法:
- TF-IDF
- LDA
- 基于Graph的关键词抽取
文本相似度
算法流程图