中文文本特征抽取

最新推荐文章于 2023-01-01 11:05:55 发布

jhfsdhsgfsdggreqZa

最新推荐文章于 2023-01-01 11:05:55 发布

阅读量273

点赞数

本文链接：https://blog.csdn.net/weixin_45116096/article/details/106601151

版权

# -*- encoding: utf-8 -*-
import jieba
from sklearn.feature_extraction.text import CountVectorizer

data = [
    '黄河中上游以山地为主，中下游以平原、丘陵为主。',
    '由于河流中段流经中国黄土高原地区，因此夹带了大量的泥沙，所以它也被称为世界上含沙量最多的河流。',
    '但是在中国历史上，黄河下游的改道给人类文明带来了巨大的影响。'   
]

data_new = []
for sent in data:
    data_new.append(" ".join(list(jieba.cut(sent))))
data_new

['黄河 中上游 以 山地 为主 ， 中下游 以 平原 、 丘陵 为主 。',
 '由于 河流 中段 流经 中国 黄土高原地区 ， 因此 夹带 了 大量 的 泥沙 ， 所以 它 也 被 称为 世界 上 含沙量 最多 的 河流 。',
 '但是 在 中国 历史 上 ， 黄河 下游 的 改道 给 人类文明 带来 了 巨大 的 影响 。']

transer = CountVectorizer()
data_final = transer.fit_transform(data_new)
print(data_final.toarray())

[[0 0 1 1 1 0 0 2 0 0 0 0 0 0 0 1 0 0 1 0 0 0 0 0 0 0 0 0 0 1]
 [0 1 0 0 0 1 1 0 0 0 0 1 1 1 1 0 0 0 0 0 1 0 1 2 1 1 1 1 1 0]
 [1 0 0 0 0 1 0 0 1 1 1 0 0 0 0 0 1 1 0 1 0 1 0 0 0 0 0 0 0 1]]

# 特征名字
print(transer.get_feature_names())

['下游', '世界', '丘陵', '中上游', '中下游', '中国', '中段', '为主', '人类文明', '但是', '历史', '含沙量', '因此', '大量', '夹带', '山地', '巨大', '带来', '平原', '影响', '所以', '改道', '最多', '河流', '泥沙', '流经', '由于', '称为', '黄土高原地区', '黄河']