机器学习笔记2

本文介绍了梯度下降法,特别是批量梯度下降,以及其在预测房价等任务中的应用。同时,详细阐述了矩阵的运算规则,包括矩阵相加、标量乘矩阵等,并讨论了特征缩放的重要性。学习率α的选择对梯度下降算法的效率和收敛性至关重要,合适的α能确保代价函数J(θ)逐步下降。当J(θ)增大时,可能表明α设置过大,需要调小。
摘要由CSDN通过智能技术生成

1."Batch"梯度下降

        意味着每一步梯度下降,都遍历了整个训练集样本

2.矩阵

2.1维数:行数*列数(例如 4*2矩阵)

1c706c0a3eeb499197f877800c4f9483.jpeg

2.2矩阵相加减 ,不改变维度

6f29e6d02f4948d2b5223efed9168ba6.jpeg

2.3标量*矩阵,不改变维度9935ee1f1bcf4d68b7fb65738fe54b60.jpeg

 

2.4矩阵*矩阵

74cdfbdc61654c9eb8977eed99ea7d45.jpeg

2.5预测房价

2ed39e39f6624936aa279c73d86367c4.jpeg

3向量:特殊的矩阵

3.1只有一列的矩阵

60b8da9a747b4c04b328f8a7198ad471.jpeg

3.2矩阵*向量

dd352ba49861484f81efd638fc32001a.jpeg

3.3使用矩阵*向量计算房子价格

45df853f609e4f3daa5bcbe21ee62a00.jpeg

4.多元梯度下降

4.1代价函数

6b6ef94feb9242c18f915e76d8d1bbf3.jpeg

4.2特征缩放

特征缩放(Feature Scaling)是将不同特征的值量化到同一区间的方法,也是预处理中容易忽视的关键步骤之一。除了极少数算法(如决策树和随机森林)之外,大部分机器学习和优化算法采用特征缩放后会表现更优。

273caea4c3454e3a919d2550246ace44.jpeg

4.3均值归一化

如果有一个特征向量X_i,使用X_i减U_i替换,让特征值具有为0的平均值(U1是训练集中X1的平均值,S1是特征值的范围)

23cd3d4332e74aa3a6cfdf5d2c769f04.jpeg

5学习率α

3c5b01dffba340a98176bf4073b6b016.jpeg

5.1只要α足够小,那么每次迭代后代价函数J(θ)都会下降但是如果太小梯度下降算法会收敛很慢;如果很大代价函数J(θ)可能不会在每次迭代都下降,甚至不下降

5.2选取合适α

尝试一系列α值,直到找到一个太大的α与一个太小的α,选取最大可能值或者比最大值略小的值,通常可以得到一个不错的学习率α

5.3判断梯度下降算法有没有正常工作

e7a909a28e4d4d74a69ba784478b0087.jpeg

5.4J(θ)不断增大

代表α过大梯度下降算法冲过最小值导致J(θ)不断增大应选用更小的α

14a6bd0879054c7ca9b8ceae04a66bf6.png

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值