对话推荐系统评价指标

最新推荐文章于 2025-03-04 23:18:28 发布

王一一爱吃肉

最新推荐文章于 2025-03-04 23:18:28 发布

阅读量737

点赞数

文章标签：自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45910974/article/details/108723483

版权

对话推荐系统评价指标

文章目录

对话推荐系统评价指标
一、语言模型
二、语言模型评价指标--perplexity困惑度
三、语言模型评价指标---N-gram
四、推荐系统评价指标---准确性指标

一、语言模型

当前的语言模型是以统计学为基础的统计语言模型，统计语言模型是基于预先人为收集的大规模语料数据，以真实的人类语言为标准，预测文本序列在语料库中可能出现的概率，并以此概率去判断文本是否“合法”，是能能被人所理解。如下例子

打个比方, 如果有这样一段话：
"今天我吃了西红柿炒__ "

对一个好的语言模型, 这句话后面出现的词是"鸡蛋"的概率可能是 30%, "土豆"的概率是 5%, "豆腐"的概率是 5%, 但"石头"的概率则应当几乎为零.显然，鸡蛋的概率更高，也更加符合人类的习惯和理解方式，石头的概率最低，因为人类的习惯不是这样子的，这就是语言模型最直观的理解。

二、语言模型评价指标–perplexity困惑度

直观理解：评价语言模型的好坏，输出的句子是否是人话。
语言模型（Language Model，LM），给出一句话的前k个词，希望它可以预测第k+1个词是什么，即给出一个第k+1个词可能出现的概率的分布p(xk+1|x1,x2,…,xk)。
perplexity困惑度（PPL），是用在自然语言处理领域（NLP）中，衡量语言模型好坏的指标。它主要是根据每个词来估计一句话出现的概率，并用句子长度作normalize，公式为
S代表sentence，N是句子长度，p(wi)是第i个词的概率。
如第一个词就是 p(w1|w0)，而w0是START，表示句子的起始，是个占位符。

从公式可以看出，PPL越小，p(wi)则越大，期望的sentence出现的概率就越高。

影响因素：

训练数据集越大，PPL会下降得更低，1百万 dataset和10万dataset训练效果是很不一样的；
数据中的标点会对模型的PPL产生很大影响，一个句号能让PPL波动几十，标点的预测总是不稳定；
预测语句中的“的，了”等词也对PPL有很大影响，可能“我借你的书”比“我借你书”的指标值小几十，但从语义上分析有没有这些停用词并不能完全代表句子生成的好坏。

所以，语言模型评估时我们可以用perplexity大致估计训练效果，作出判断和分析，但它不是完全意义上的标准，具体问题还是要具体分析。

三、语言模型评价指标—N-gram

链接: link.

四、推荐系统评价指标—准确性指标

准确性指标是推荐系统中最重要的指标。
链接: link.

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。