机器学习一

本文介绍了机器学习的基础知识,包括数据的特征工程,详细讲述了特征抽取、文本特征提取、特征预处理、数据降维的过程,并探讨了机器学习算法分类和开发流程。重点讲解了特征抽取中的字典特征抽取、文本数据的CountVectorizer和TfidfVectorizer方法,以及归一化、标准化和PCA在特征预处理和降维中的应用。
摘要由CSDN通过智能技术生成

1. 机器学习简介

  1. 人工智能----机器学习----深度学习
  2. 人工智能发展低谷:计算能力,数据大小,算法
  3. 使用框架:TensorFlow(谷歌)
  4. 机器学习定义:机器学习是从数据中自动分析获得规律(模型),并且利用规律对未知数据进行预测。

2. 数据的特征工程

1.基础知识
  1. 机器学习的数据:文件csv;一般不存在数据库。使用数据库可能会有性能瓶颈并且格式不符合机器学习要求的格式(需要转换)。
  2. 可用数据集:Kaggle(大数据竞赛平台)、UCI、Scikit-learn
  3. 常用数据集数据的结构组成:特征值+目标值;有些数据集可以没有目标值;
  4. 数据中对于特征的处理:pandas(一个数据读取非常方便记忆基本的处理格式的工具)、sklearn(对于特征的处理提供了强大的接口);机器学习中的重复值不需要进行去重;
  5. 特征工程:是将原始数据转换为更好的代表预测模型的潜在问题的特征的过程,从而提高对位置数据的预测准确性。
  6. Scilit-learn库的下载及安装:https://blog.csdn.net/pp814274513/article/details/87295829
2. 数据的特征抽取:
1. 基础知识
  1. 特征抽取:对文本等数据的特征值化,有助于计算机更好的理解数据。
  2. sklearn特征抽取API:sklearn.feature_extraction
2. 字典特征抽取
  1. 对字典数据进行特征值化(类):sklearn.feature_extraction.DictVectorizer
  2. DictVectorizer语法:DictVectorizer(sparse=True);
    DictVectorizer.fit_transform(X),X为字典列表、返回值即为X的sparse矩阵,如果sparse=fause,则会输出数组。
  3. numpy中有一个scipy库,其中的格式就是sparse格式。目的是为了节约内存,方便数据读取。
  4. 字典数据抽取把字典中一些类别数据,分布进行转换成特征,原本是数据的不需要转换。数组城市,有类别这些特征的需要转换为字典进行处理。----one-hot编码,生成布尔列。但是类别过多就要就先要进行删选。
  5. 实例:
    from sklearn.feature_extraction import DictVectorizer
    # 从特征提取库中导入字典特征提取工具
    
    def dictvect():
        # 定义字典特征提取对象,sparce是一种列表的输出方法
        vect = DictVectorizer(sparse=Fa
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值