今天在看论文的时候对损失函数的含义产生了疑问
什么是损失函数?
在b站看了下科普。
损失函数可以分为三种
1、最小二乘
2、最大似然估计
3、交叉熵
最小二乘是最好理解的:
机器模型会生成一个关于标签的概率
比方说预测一个东西是不是巧克力,他会输出一个概率
最小二乘就是将人的判断减去机器判断,然后为了保持这个数大于0,会对其平方操作而不改变他的关系。但是最小二乘在模型里实现会很麻烦,至于为什么,现在还不懂
最大似然估计是通过已发生的先验概率,反推一个完美的概率
用机器模型的概率逼近真实发生的概率
交叉熵
信息量 :一个事件从概率到真实发生的难度
熵: 一个系统从原来的不确定到确定的难度
单位可以是比特
吉布斯不等式
图片来自b站 up 王木头学科学