词数统计及其重要程度统计

词数统计

import jieba
from sklearn.feature_extraction.text import CountVectorizer #统计词数,英文


'''
# 构建文章【英文】

content = ['This is the first document.', 'This is the second second document.', 'And the third one.', 'Is this the first document? i x y']

#构建实例
con_vet = CountVectorizer()

#进行提取词语
x = con_vet.fit_transform(content)

print(x)   # (0, 1)    1 (文章下标,分词下标) 词在文章中出现的次数  sparse矩阵
print(x.toarray()) # 将 sparse矩阵 转化为 数组

# 获取提取到词语
names = con_vet.get_feature_names()
print(names) # 提取到的词
'''


# 构建文章【中文】

content = ["今天阳光真好","我要去看北京天安门","逛完天安门之后我要去王府井","吃烤蝎子与烤蜈蚣","晚上去后海游个泳"]

content_list = []

for tmp in content:
    # 使用精确模式进行分词 cut_all默认为精确模式
    res = jieba.cut(tmp,cut_all=False)
    res_str = ','.join(res)
    content_list.append(res_str)


#构建实例
con_vet = CountVectorizer(stop_words=['我要','之后'])

#进行提取词语
x = con_vet.fit_transform(content_list)

print(x)   # (0, 1)    1 (文章下标,分词下标) 词在文章中出现的次数  sparse矩阵
print(x.toarray()) # 将 sparse矩阵 转化为 数组

# 获取提取到词语
names = con_vet.get_feature_names()
print(names) # 提取到的词

词数重要程度

from sklearn.feature_extraction.text import TfidfVectorizer
# 构建文章【英文】

content = ['This is the first document.', 'This is the second second document.', 'And the third one.', 'Is this the first document? i x y']

#构建实例
#  min_df = 1 # 设置分词的时候,词必须至少出现一次
#  stop_words ===停用词 不重要的词去掉
tf_vet = TfidfVectorizer(stop_words=['is','and'])

#进行提取词语
x =tf_vet.fit_transform(content)

print(x)   #(0, 1) 1 (文章下标,分词下标) 词在文章中出现的重要程度  sparse矩阵
print(x.toarray()) #将 sparse矩阵 转化为 数组

# 获取提取到词语
names = tf_vet.get_feature_names()
print(names) # 提取到的词
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值