随笔_从《芳华》影评到TF/IDF算法

 前两天看好多《芳华》的影评说:为什么好人没好报?于是感叹一堆世态炎凉,人性丑陋什么的。我觉得这问题是:为什么中央空调(对谁都温暖)往往不被看好。




 先说说TF/IDF算法,这是一种信息处理和数据挖掘的重要算法,属于统计类方法。比如说,找一篇文章的关键词,TF(词频)是某个词在这篇文章中出现的频率,频率越高越可能是关键字。IDF(逆向文件频率)是这个词出现在其它文章的频率,比如“的”字,它在任何文章都出现,因为必然不是关键字。把TF和IDF乘在一起,就是这个词在这篇文章中的重要程度。


 我们对一个人的态度也往往取决于:他对大家的态度IDF,和他对我的态度TF。刘峰对谁都很好,因此IDF是一个固定值,他对所有人都好这是个加分项吗?很遗憾,看公式:



其中分子是所有人,分母是刘峰给几个人送过温暖。也就是说他送温暖的人越多,分母越大,IDF值越低。不过也请注意log,它把这个值影响力给降低了。比如说,他给5个人送过温暖,再给第6个人送温暖时,分母变大,IDF降低,导致前5个人对他的好感度降低,不对呀?说好的“爱人者人恒爱之,敬人者人恒敬之”,于是我们的价值观受到了冲击。不过,与此同时,第6个人对他的好感度也增加了,而且idf公式里还有一个log降低了这种影响。


 再来看TF的算法,分子是刘峰送的温暖,分子来自周围人所有温暖之和。



对于林丁丁来说,尽管分子很大,但分母更大,所以tf值并不大;而对于何小萍,分母实在是太小了,即使分子不大,tf值也会很大。所以说女孩过于穷养,分母太小,别人稍微对她好点就以身相许了;过于富养,分母太大,看不到别人的善意,又是公主病。


 最终,刘峰在每人心中的分量由下式得出。



 心理价值主要源于比较,跟均值(或者基线值)的比较。这也许就是心里那杆称吧,谁也不是没良心的白眼儿狼,只是正常的心理现象。刘峰人生的不顺利,也不是一个简单的因果关系,其中有好人好报的概率问题,社会环境中的马太效应,以及他自己在关键点的选择等等,TF/IDF只是其中一个因素。至于电影,仁者见仁,智者见智吧。


技术文章定时推送
请关注公众号:算法学习分享

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值