很有意思的一门课,但关于如何利用P(x)生成x还存在疑惑。
在神经网络中y=w*x+b,为什么是这个形式?这门课将在最后归结到这一点上。
举一个实际的例子,训练集中A类71个B类69个
我们假定A类的71个点遵循gaussion distribution,上图涉及的函数:输入一个点(代表一个实例的特征vector),输出sample中该点的概率,在下文中即为P(x|A)与P(x|B)
该函数有两个参数,μ与:
使用最大似然估计的方法,为使得L函数达到最大值,可确定相关参数。
于是乎,得到参数,,1,2
为了减少参数,我们令=1=2
同样的方法得到,,
那么我们做这么多是为了什么呢?
为的是判断x属于哪个类。
x属于A的可能性是P(A|x)
x属于B的可能性是P(B|x)
使用贝叶斯公式求解——
但这还没到最后
将P(A|x)的函数形式转化成sigmoid激活函数的形式
并化简z的表达式
这不就得到了神经网络中y=w*x+b
因此神经网络连接层的含义在classification中是——假定该类中的点服从gaussion distribution等等,那么这种分布拥有两个参数,而这两个参数在后续是要不停更新的,那么根据结果=sigmoid(w*x+b)=P(A|x),再反向传播更新参数。