机器学习 -- 决策树算法（下）

默默成长的小咸鱼

已于 2022-07-07 17:53:03 修改

阅读量105

点赞数

文章标签：机器学习决策树算法

于 2022-01-12 19:23:40 首次发布

本文链接：https://blog.csdn.net/weixin_57003452/article/details/122460444

版权

本文详细介绍了在机器学习中决策树算法的特征工程，包括特征提取的定义、字典特征提取和文本特征提取，特别是Tf-idf的重要性。通过案例分析了泰坦尼克号乘客生存预测，强调了特征工程在决策树模型中的作用。

摘要由CSDN通过智能技术生成

4.4 特征工程-特征提取

什么是特征提取呢？

1 特征提取

1.1 定义

将任意数据（如文本或图像）转换为可用于机器学习的数字特征

注：特征值化是为了计算机更好的去理解数据

特征提取分类:
- 字典特征提取(特征离散化)
- 文本特征提取
- 图像特征提取（深度学习将介绍）

1.2 特征提取API

sklearn.feature_extraction

2 字典特征提取

作用：对字典数据进行特征值化

sklearn.feature_extraction.DictVectorizer(sparse=True,…)
- DictVectorizer.fit_transform(X)
  - X:字典或者包含字典的迭代器返回值
  - 返回sparse矩阵
- DictVectorizer.get_feature_names() 返回类别名称

2.1 应用

我们对以下数据进行特征提取

[{'city': '北京','temperature':100},
{'city': '上海','temperature':60},
{'city': '深圳','temperature':30}]

2.2 流程分析

实例化类DictVectorizer
调用fit_transform方法输入数据并转换（注意返回格式）

from sklearn.feature_extraction import DictVectorizer

def dict_demo():
    """
    对字典类型的数据进行特征抽取
    :return: None
    """
    data = [{'city': '北京','temperature':100}, {'city': '上海','temperature':60}, {'city': '深圳','temperature':30}]
    # 1、实例化一个转换器类
    transfer = DictVectorizer(sparse=False)
    # 2、调用fit_transform
    data = transfer.fit_transform(data)
    print("返回的结果:\n", data)
    # 打印特征名字
    print("特征名字：\n", transfer.get_feature_names())

    return None

注意观察没有加上sparse=False参数的结果

返回的结果:
   (0, 1)    1.0
  (0, 3)    100.0
  (1, 0)    1.0
  (1, 3)    60.0
  (2, 2)    1.0
  (2, 3)    30.0
特征名字：
 ['city=上海', 'city=北京', 'city=深圳', 'temperature']

这个结果并不是我们想要看到的，所以加上参数，得到想要的结果：

返回的结果:
 [[   0.    1.    0.  100.]
 [   1.    0.    0.   60.]
 [   0.    0.    1.   30.]]
特征名字：
 ['city=上海', 'city=北京', 'city=深圳', 'temperature']

之前在学习pandas中的离散化的时候，也实现了类似的效果。

我们把这个处理数据的技巧叫做”one-hot“编码：

转化为：

2.3 总结

对于特征当中存在类别信息的我们都会做one-hot编码处理

3 文本特征提取

作用：对文本数据进行特征值化

sklearn.feature_extraction.text.CountVectorizer(stop_words=[])
- 返回词频矩阵
- CountVectorizer.fit_transform(X)
  - X:文本或者包含文本字符串的可迭代对象
  - 返回值:返回sparse矩阵
- CountVectorizer.get_feature_names() 返回值:单词列表
sklearn.feature_extraction.text.TfidfVectorizer

3.1 应用

我们对以下数据进行特征提取

["life is short,i like python",
"life is too long,i dislike python"]

最低0.47元/天解锁文章

默默成长的小咸鱼

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习 -- 决策树算法（下）

4.4 特征工程-特征提取什么是特征提取呢？1 特征提取1.1 定义将任意数据（如文本或图像）转换为可用于机器学习的数字特征注：特征值化是为了计算机更好的去理解数据特征提取分类: 字典特征提取(特征离散化) 文本特征提取图像特征提取（深度学习将介绍） 1.2 特征提取APIsklearn.feature_extraction2 字典特征提取作用：对字典数据进行特征值化sklearn.feature_extraction.Dic.
复制链接

扫一扫