1. 机器学习简介
- 人工智能----机器学习----深度学习
- 人工智能发展低谷:计算能力,数据大小,算法
- 使用框架:TensorFlow(谷歌)
- 机器学习定义:机器学习是从数据中自动分析获得规律(模型),并且利用规律对未知数据进行预测。
2. 数据的特征工程
1.基础知识
- 机器学习的数据:文件csv;一般不存在数据库。使用数据库可能会有性能瓶颈并且格式不符合机器学习要求的格式(需要转换)。
- 可用数据集:Kaggle(大数据竞赛平台)、UCI、Scikit-learn
- 常用数据集数据的结构组成:特征值+目标值;有些数据集可以没有目标值;
- 数据中对于特征的处理:pandas(一个数据读取非常方便记忆基本的处理格式的工具)、sklearn(对于特征的处理提供了强大的接口);机器学习中的重复值不需要进行去重;
- 特征工程:是将原始数据转换为更好的代表预测模型的潜在问题的特征的过程,从而提高对位置数据的预测准确性。
- Scilit-learn库的下载及安装:https://blog.csdn.net/pp814274513/article/details/87295829
2. 数据的特征抽取:
1. 基础知识
- 特征抽取:对文本等数据的特征值化,有助于计算机更好的理解数据。
- sklearn特征抽取API:sklearn.feature_extraction
2. 字典特征抽取
- 对字典数据进行特征值化(类):sklearn.feature_extraction.DictVectorizer
- DictVectorizer语法:DictVectorizer(sparse=True);
DictVectorizer.fit_transform(X),X为字典列表、返回值即为X的sparse矩阵,如果sparse=fause,则会输出数组。 - numpy中有一个scipy库,其中的格式就是sparse格式。目的是为了节约内存,方便数据读取。
- 字典数据抽取把字典中一些类别数据,分布进行转换成特征,原本是数据的不需要转换。数组城市,有类别这些特征的需要转换为字典进行处理。----one-hot编码,生成布尔列。但是类别过多就要就先要进行删选。
- 实例:
from sklearn.feature_extraction import DictVectorizer # 从特征提取库中导入字典特征提取工具 def dictvect(): # 定义字典特征提取对象,sparce是一种列表的输出方法 vect = DictVectorizer(sparse=Fa