1.机器学习 = 数据 + 模型 + 预测
2.数据集 = 特征值 + 目标值
3.机器学习算法分类
1.监督学习(分类,回归)有特征值,有标准答案
1.分类问题 (猫狗) k-邻近算法,贝叶斯分类,决策树与随机森林,逻辑回归
(输入) 特征值: 猫/狗图片
(输出)目标值: 猫/狗 > 类别问题 (离散型数据)
2.回归问题 (房子) 回归,线性回归,岭回归
(输入)特征值: 房子各个属性的信息
(输出)目标值:房子价格 >回归问题 (连续型数据)
2.无监督学习(聚类)有特征值,无标准答案
聚类 k-means
(输入)特征值: (人物)各个属性信息
(输出)目标值: 无 >无监督学习
4.机器学习的开发流程
1.获取数据
2.数据处理
3.特征工程
4.机器学习算法训练 > 模型
5.模型评估
6.应用
特征工程
1.数据集
1.可用数据集
1.sklearn
2.kaggle https://www.kaggle.com/datasets
3.UCI
1.Scikit-learn工具介绍
安装Scikit-learn 需要Numpy,Scipy库
1.分类,聚类,回归,特征工程,模型选择,调优