有监督学习:有确定的答案
分类任务:目标为离散值变量
回归任务:目标为连续值变量
无监督学习:没有确定的答案
聚类任务(进行归类):无目标,需要根据特征进行归类
半监督学习:一半有答案,一半没有答案
机器学习的流程:
训练:
从现有数据集进行学习数据的已有模式,生成模型
预测:
基于训练好的模型,预测未来的数据
#所以在拿到数据的时候,我们首先要进行划分训练集、验证集和测试集
常用的算法:
分类:
逻辑回归、支持向量机、神经网络、随机森林、Boosting方法、朴素贝叶斯
回归:
线性回归、决策树回归、随机森林回归
聚类:
Kmeans聚类
损失函数:算法总是朝着使得损失函数最小的方向来迭代优化
优化的方法,一般是梯度下降法,由此找到参数最优解
梯度下降法就是通过迭代的方法来找到损失函数最小的点,每一次迈一步,方向是函数的负梯度方向,一直到山底
交叉验证:
简单交叉验证
S折交叉验证
留一交叉验证
过拟合与欠拟合:
模型学习的太多,出现过拟合,导致学习的规律只适用于训练集
如果学的太少,那么就是欠拟合现象
算法基础:
线性回归:回归算法的基础
逻辑回归:线性分类算法基础
决策树:基础的树形结构,在分类问题上,根据特征进行 if-else判断,在各个节点上通过信息增益等指标来对节点进行分裂,最后形成树。
#可读性强,逻辑接近人脑
#类别特征无需额外处理
#速度较快