当你做数据挖掘的时候真的是不能不看重数学:
期望:平均值
方差:偏移的平方平均,公式是: SUM((xi-x均)^2)/n = 1/n*(SUM(xi^2)-1/n*(SUM(xi)^2)) 等号后面的式子尤其重要,后面会说到
协方差:两个变量变化趋势的同步性:SUM((xi-x均)*(yi-y均))/n = 1/n(SUM(xi*yi)-SUM(xi)*SUM(yi)/n) 等号后面的式子尤其重要,后面会说到
这里要说一下等号后面的式子怎么得到,其实就是简单的展开(a-b)^2,然后分别运算,把 “a均=SUM(ai)/n” 代入得到的,其中2*a*b-b*b会消掉一个a*b
最大似然方程:
再说最小二乘法之前要从最大似然方程说起,下面转自网上:
—————————————————————————————————————————————————————————————————————————————
设 为离散型随机变量,其概率分布的形式为
,则样本
的概率分布为
,在
固定时,上式表示
取值
的概率;当
固定时,它是
的函数,我们把它记为
并称