机器学习一_为什么机器学习用csv文件而不用数据库-CSDN博客

本文链接：https://blog.csdn.net/weixin_44405644/article/details/98315757

本文介绍了机器学习的基础知识，包括数据的特征工程，详细讲述了特征抽取、文本特征提取、特征预处理、数据降维的过程，并探讨了机器学习算法分类和开发流程。重点讲解了特征抽取中的字典特征抽取、文本数据的CountVectorizer和TfidfVectorizer方法，以及归一化、标准化和PCA在特征预处理和降维中的应用。

摘要由CSDN通过智能技术生成

1. 机器学习简介

人工智能----机器学习----深度学习
人工智能发展低谷：计算能力，数据大小，算法
使用框架：TensorFlow（谷歌）
机器学习定义：机器学习是从数据中自动分析获得规律（模型），并且利用规律对未知数据进行预测。

2. 数据的特征工程

1.基础知识

机器学习的数据：文件csv；一般不存在数据库。使用数据库可能会有性能瓶颈并且格式不符合机器学习要求的格式(需要转换)。
可用数据集：Kaggle(大数据竞赛平台)、UCI、Scikit-learn
常用数据集数据的结构组成：特征值+目标值；有些数据集可以没有目标值；
数据中对于特征的处理：pandas（一个数据读取非常方便记忆基本的处理格式的工具）、sklearn（对于特征的处理提供了强大的接口）；机器学习中的重复值不需要进行去重；
特征工程：是将原始数据转换为更好的代表预测模型的潜在问题的特征的过程，从而提高对位置数据的预测准确性。
Scilit-learn库的下载及安装：https://blog.csdn.net/pp814274513/article/details/87295829

2. 数据的特征抽取：

1. 基础知识

特征抽取：对文本等数据的特征值化，有助于计算机更好的理解数据。
sklearn特征抽取API：sklearn.feature_extraction

2. 字典特征抽取

对字典数据进行特征值化(类)：sklearn.feature_extraction.DictVectorizer
DictVectorizer语法：DictVectorizer(sparse=True)；
DictVectorizer.fit_transform(X)，X为字典列表、返回值即为X的sparse矩阵，如果sparse=fause，则会输出数组。
numpy中有一个scipy库，其中的格式就是sparse格式。目的是为了节约内存，方便数据读取。
字典数据抽取把字典中一些类别数据，分布进行转换成特征，原本是数据的不需要转换。数组城市，有类别这些特征的需要转换为字典进行处理。----one-hot编码，生成布尔列。但是类别过多就要就先要进行删选。

实例：

from sklearn.feature_extraction import DictVectorizer
# 从特征提取库中导入字典特征提取工具

def dictvect():
    # 定义字典特征提取对象，sparce是一种列表的输出方法
    vect = DictVectorizer(sparse=Fa