对话推荐系统评价指标

对话推荐系统评价指标



一、语言模型

当前的语言模型是以统计学为基础的统计语言模型,统计语言模型是基于预先人为收集的大规模语料数据,以真实的人类语言为标准,预测文本序列在语料库中可能出现的概率,并以此概率去判断文本是否“合法”,是能能被人所理解。如下例子

打个比方, 如果有这样一段话:
"今天我吃了西红柿炒__ "

对一个好的语言模型, 这句话后面出现的词是"鸡蛋"的概率可能是 30%, "土豆"的概率是 5%, "豆腐"的概率是 5%, 但"石头"的概率则应当几乎为零.显然,鸡蛋的概率更高,也更加符合人类的习惯和理解方式,石头的概率最低,因为人类的习惯不是这样子的,这就是语言模型最直观的理解。

二、语言模型评价指标–perplexity困惑度

直观理解:评价语言模型的好坏,输出的句子是否是人话。
语言模型(Language Model,LM),给出一句话的前k个词,希望它可以预测第k+1个词是什么,即给出一个第k+1个词可能出现的概率的分布p(xk+1|x1,x2,…,xk)。
perplexity困惑度(PPL),是用在自然语言处理领域(NLP)中,衡量语言模型好坏的指标。它主要是根据每个词来估计一句话出现的概率,并用句子长度作normalize,公式为
S代表sentence,N是句子长度,p(wi)是第i个词的概率。
如第一个词就是 p(w1|w0),而w0是START,表示句子的起始,是个占位符。

从公式可以看出,PPL越小,p(wi)则越大,期望的sentence出现的概率就越高。

影响因素:

  1. 训练数据集越大,PPL会下降得更低,1百万 dataset和10万dataset训练效果是很不一样的;

  2. 数据中的标点会对模型的PPL产生很大影响,一个句号能让PPL波动几十,标点的预测总是不稳定;

  3. 预测语句中的“的,了”等词也对PPL有很大影响,可能“我借你的书”比“我借你书”的指标值小几十,但从语义上分析有没有这些停用词并不能完全代表句子生成的好坏。

所以,语言模型评估时我们可以用perplexity大致估计训练效果,作出判断和分析,但它不是完全意义上的标准,具体问题还是要具体分析。

三、语言模型评价指标—N-gram

链接: link.

四、推荐系统评价指标—准确性指标

准确性指标是推荐系统中最重要的指标。
链接: link.

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值