机器学习算法基础(1):特征工程,文本特征抽取&tfidf方法

本文介绍了机器学习中的特征工程,强调其在提高预测准确性中的重要性。通过讲解如何处理数据集,如使用pandas进行数据预处理,sklearn的接口进行特征处理,以及介绍DictVectorizer进行字典特征抽取。此外,文章详细阐述了文本特征抽取,特别是TF-IDF方法,用于评估词在文档中的重要性。
摘要由CSDN通过智能技术生成

数据集的构成

从历史数据中获得规律

机器学习的数据:文件csv

mysql:

  • 性能瓶颈,读取速度慢

  • 格式不符合机械学习要求的数据格式

pandas:读取工具

基于numpy:释放了GIL,真正的多线程

可用数据集

kaggle

  • 大数据竞赛平台

  • 80 万科学家

  • 真实数据

  • 数据量巨大

UCI

  • 收录了360个数据集

  • 数据量几十万

  • 覆盖各个领域

SK-LEARN

  • 数据量较小

  • 方便学习

常用数据集数据的结构组成

特征值+目标值 dataframe 列索引作为特征值
在这里插入图片描述

数据对于特征的处理

pandas

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值