1.关键图:
3.feature scaling:get every feature into approximately a -1<=xi<=1 range.不过左右区间的绝对值为1/3~3都算合适。
4.mean也有’平均的‘的意思
5.推荐这样:
其中ui是所有属性i的平均值,si=属性i的最大值-属性i的最小值
7.一个选择学习率好的办法是从0.001,0.01,1,…这些选,然后每次呈三倍地递增。
8.normal equation法求
θ
\theta
θ:
9.梯度下降法与normal equation的比较:
如果特征数量小于1000,推荐用normal equation
10.xij:下标是第几个特征,上标是第几个样本数据
11.课程作业答案地址:GitHub
12.截个图表示我的答案通过了测试(哈哈哈:
13.最后提一点,ex1_multi需要我们预测X1=1650,X2=3时的y值,我用梯度下降和NE算出来的都是293081.46433,不知道有没有问题。