概论
目录
一、数据准备和特征工程概论
1、机器学习上限
- 数据和特征决定了机器学习上限,而模型和算法只是逼近这个上限
2、项目流程
3、主要内容
- 感知数据
- 数据清理
- 特征变换
- 特征选择
- 特征抽取
(1)感知数据
- 从文件中获取数据
CSV文件、Excel文件、图像文件 - 从数据库中读取数据
- 从网页上爬取数据
- 通过API获取数据
- 初步了解数据
- 将业务知识与数据结合
(2)数据清理
- 转换数据类型
- 处理重复、缺失、离群数据
(3)特征变换
- 特征数值化 eg:woman和man、other变为0与1、2
- 特征二值化(0、1)
- OneHot编码 eg:美国40个州,如果是其中某个州,该州的位置取值为1,其余位置取值为0
- 特征离散化(作用:尽可能消除离群