from sklearn.feature_extraction import DictVectorizer
"""
字典特征提取: DictVectorizer(sparse = True,...) -> one-hot编码:每一个类别为列
应用场景:
1)数据集中类别特征比较多
1. 将数据集中的特征 -> 字典类型
2. DictVectorizer 转换
2)本身数据类型就是字典类型
"""
def dict_demo():
data = [{'city': "北京", 'temperature': 100},
{'city': "上海", 'temperature': 60},
{'city': "深圳", 'temperature': 30}]
# 1. 实例一个转换器类(sparse=False 为原来, 默认为 True)
transfer = DictVectorizer(sparse=False)
# 2. 调用 fit_transform() 提取 , 返回一个sparse矩阵(稀疏矩阵)
data_new = transfer.fit_transform(data)
print(transfer.get_feature_names()) # 打印特征名称
print(data_new) # 打印特征矩阵
return None
if __name__ == '__main__':
dict_demo()
机器学习---字典特征提取---python + sklearn
最新推荐文章于 2024-04-28 22:10:55 发布