什么是机器学习?
机器学习就是拟人,计算机使用目前已有的数据,将其代入算法,然后训练出模型,最后使用模型进行预测等等
机器学习的分类:
R语言、MLlib、Mahout、Python、Spark
有一句话:失败是成功之母,但是不适用于机器学习领域,因为如果使用了错误的数据,那么只能产生错误的结果
对于机器学习,怎样优化训练出来的模型?
1.为了优化模型,如果算法保持不变的情况下,可以增加数据量或者提高数据的准确性
2.微数据进行相应的调整和变化,可以增加维度,从而保证模型的可靠性
一元线性回归:
最小二乘法:平方求和开根号
在机器学习中,没有完美解,只有最优解(Error 误差最小的时候,就是最优解),将一元线性回归算法应用到机器学习中,可以设置迭代,同时设置一个阈值,当达到阈值的时候,为最优解
逻辑回归:
多元线性回归:
表示两个变量服从一条直线的紧密度,由相关系数决定
1.相关系数的范围为-1到1,-1为负相关,1为正相关
神经网络:
神经网络是一种模仿动物神经网络行为特征,进行分布式并行信息处理的算法数学模型。这种网络依靠系统的复杂程度,通过调整内部大量节点之间相互连接的关系,从而达到处理信息的目的。
神经网络的网络拓扑层分为三部分:输入节点—-隐藏节点—-输出节点
理论上,神经网络可以做任何的模型计算,但是神经网络也有自己的缺点:
1.神经网络的系数很多,系数难以解释,可读性差
2.神经网络计算速度很慢
3.容易产生过拟合现象
过拟合现象:
也可以称之为拟合过度,试想一下,如果在训练过程中,有脏数据(就是跟训练模型无关的数据),那么由于脏数据的存在,使得一个正确的数据本来可以通过模型而没有,因此会产生过拟合现象