文本特征抽取(TF-IDF)

# -*- encoding: utf-8 -*-
'''
TF-IDF,词频,抽取关键词,更具有分类意义
'''
import jieba
from sklearn.feature_extraction.text import TfidfVectorizer
data = [
    '黄河中上游以山地为主,中下游以平原、丘陵为主。',
    '由于河流中段流经中国黄土高原地区,因此夹带了大量的泥沙,所以它也被称为世界上含沙量最多的河流。',
    '但是在中国历史上,黄河下游的改道给人类文明带来了巨大的影响。'   
]
data_new = []
for sent in data:
    data_new.append(" ".join(list(jieba.cut(sent))))
data_new
['黄河 中上游 以 山地 为主 , 中下游 以 平原 、 丘陵 为主 。',
 '由于 河流 中段 流经 中国 黄土高原地区 , 因此 夹带 了 大量 的 泥沙 , 所以 它 也 被 称为 世界 上 含沙量 最多 的 河流 。',
 '但是 在 中国 历史 上 , 黄河 下游 的 改道 给 人类文明 带来 了 巨大 的 影响 。']
transer = TfidfVectorizer()
data_final = transer.fit_transform(data_new)
print(data_final.toarray())
[[0.         0.         0.32311233 0.32311233 0.32311233 0.
  0.         0.64622465 0.         0.         0.         0.
  0.         0.         0.         0.32311233 0.         0.
  0.32311233 0.         0.         0.         0.         0.
  0.         0.         0.         0.         0.         0.24573525]
 [0.         0.23851206 0.         0.         0.         0.18139457
  0.23851206 0.         0.         0.         0.         0.23851206
  0.23851206 0.23851206 0.23851206 0.         0.         0.
  0.         0.         0.23851206 0.         0.23851206 0.47702411
  0.23851206 0.23851206 0.23851206 0.23851206 0.23851206 0.        ]
 [0.33046705 0.         0.         0.         0.         0.25132871
  0.         0.         0.33046705 0.33046705 0.33046705 0.
  0.         0.         0.         0.         0.33046705 0.33046705
  0.         0.33046705 0.         0.33046705 0.         0.
  0.         0.         0.         0.         0.         0.25132871]]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值