[043]基于实体词的新闻源相似度计算

思路

新闻推荐系统里,推荐给用户喜欢看的新闻方法有很多种,其中一个很重要的就是根据用户的profile,推荐最相似的内容,如何做到最快反馈,是提高用户内容体验的重要方式。

基于新闻特点,每篇新闻都有相应的实体词或tag,tag就是用户profile的一种描述,所以可以挖掘实体词与源的关系,根据实体词给用户推送与实体词最相关的源的新闻内容。

数据统计

通过HDFS统计最近一个月的数据,以源为key,每篇文章实体词出现计为1,统计每个实体词共在多少篇文章中出现,总数排序,即可看到每个源下面出现哪些实体词出现最多。

因为实体词可以代表一种文章类型,每个优质源的作者,都是某个领域的“专家”,作者都会偏好写某方面的文章,历史、科技、娱乐、体育、军事、健康等,通过实体词找到最相关的优质源的优质文章给用户投放,用户点击的概率也就会更大。

实施

基于上面的统计信息,建立实体词的倒排索引,取出每个实体词前两位的优质源作为备选对象。

推送优质源数据的另外一种方法就是从其他源引导用户到优质源。同样基于实体词,建立普通源跟优质源的关系,用户点了普通源,就给推送相关的优质源数据。

基于已有数据建立优质源之间的关系,一个比较简单的方法就是用余弦相似度。通过余弦相似度排序,取出值大于0.2的作为备选对象。经过实际看,还是可以挖到相似源的。

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值