大模型评估指标

原创

已于 2024-09-12 12:42:07 修改

· 846 阅读

版权

文章标签：

于 2024-09-11 22:42:53 首次发布

文生图模型

【全文参考这位up主：https://space.bilibili.com/510348890，讲得非常详细清除】

arxiv:https://arxiv.org/abs/1801.01973

Inception score：衡量生成图像的质量，通过计算生成图像的条件概率分布和边缘概率分布之间的KL散度。

Inception score 就是用inception v3模型输出一个分类概率分布，维度为1000，因为用的image数据集，一共1000个分类。
上公式：（懒得打了，看图片吧）
在这里插入图片描述

exp: 没有具体含义。
x~Pg ：表示从生成器中生图片。
p(y|x) ：把生成的图片 x 输入到 Inception V3，得到一个1000 维的向量 y ，也就是该图片属于各个类别的概率分布。表示的是图像的质量情况，分布越尖越好，因为他反应的是生成的图片属于某一个的概率，这个概率越高，就代表他生成的越准确。即对于清晰的生成图片，这个向量的某个维度值格外大，而其余的维度值格外小（也就是概率密度图十分尖）。
p(y) ：N个生成的图片（N 通常取 5000），每个生成图片都输入到 Inception V3中，各自得到一个自己的概率分布向量，把这些向量求一个平均，代表是一个平均概率分布，代表的是一个生成器生成的多样性。他越平越好。

KL散度：度量两个概率分布之家你都差异程度，当KL散度越大，代表差异越大。我们想要的就是差异越大越好，因为一个平一个尖，越大越好。KL散度公式：