个性化推荐、文本挖掘原理

个性化推荐

协同过滤
基于商品:ICF (item based) 例子:沃尔玛啤酒与尿布的故事
基于人:UCF (user based) 例子:亚马逊电商“customer who bought this item also bought…”
核心理念:爱好相同的人或者属性相似的物

协同过滤算法商品推荐架构
1、训练集->过滤出购买行为->训练出推荐对,结果比较
2、测试集测试

用户画像
用户维度特征:
总的购买量;总的点击量;总购买/总点击
商品维度特征:
总的被购买量;总的被点击量;总被购买/总被点击

归一化:去除量纲对数据计算的影响

文本挖掘

文本分类;文本打标签;情感分析
新闻自动分类:首先对于文档(包含所有文章)进行分词,然后对其进行词频统计,接着通过LDA算法提取出主题具体分布,最后使用聚类对文章进行归档处理(即具体到特定文章属于特定的类)

基于主题的文本分类:
文本 —(主题算法)— 主题 —(聚类算法)—分类

LDA算法(主题模型)
概率密度公式: p ( 词 语 ∣ 文 档 ) = ∑ 主 题 p ( 词 语 ∣ 主 题 ) ∗ p ( 主 题 ∣ 文 档 ) p(词语|文档)=\sum_ {主题} p(词语|主题)*p(主题|文档) p()=p()p
文档:所有文章的总和

利用贝叶斯公式生成文章
1、考虑文章的主题是什么,这个主题可以通过概率分布得出
2、得到主题后,从主题中的单词分布中选择一个词,这个词必须符合主题的概率分布
3、循环遍历文章,例如我们要写一个500词的作文,就把1,2循环遍历500次

KMeans
1、设置分类K值
2、设置初始的质心簇的位置
3、不断迭代寻找新的分类簇的簇心点
4、收敛完成聚类
在这里插入图片描述
例:初始质心为图中的x,首先通过计算质心簇的距离找到分隔的线(红色),在红色分隔线的两边需按照新的质心簇,在继续寻找新的分隔线,依次…直到最后收敛

文本分类步骤:

数据源
分词
过滤,过滤干扰项符号/的等
词频统计,访问量生成
LDA
聚类
评估

关键词抽取
算法:

  1. TF-IDF
  2. LDA
  3. 基于Graph的关键词抽取

文本相似度

文本数据源
句子拆分
语句向量化
计算语义距离

算法流程图

数据源
分词
过滤
关键词提取
句子拆分
文本摘要
句子向量化
语义向量距离
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值