1、问题
给出中文文本text如下:
text =‘大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。’
对这一段中文文字进行分词,并输出每个分词的词性。
2、代码
# 导库
import jieba
import jieba.posseg as psg
from collections import Counter
# 文本
text = '大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。'
# 分词
# 精确分词
cut1=jieba.lcut(text)
print('精确分词:',cut1)
# 全模式
cut2=jieba.lcut(text,cut_all=True)
print('精确分词:',cut2)
# 搜索引擎模式
cut3=jieba.lcut_for_search(text)
print('精确分词:',cut3)
# 划分词性
words = psg.cut(text)
for word,flag in words:
print(word,flag)
3、结果
【out】:
分词
精确分词: ['大', '数据', '是', '需要', '新', '处理', '模式', '才能', '具有', '更强', '的', '决策', '力', '、', '洞察', '发现', '力', '和', '流程', '优化', '能力', '的', '海量', '、', '高', '增长率', '和', '多样化', '的', '信息', '资产', '。']
精确分词: ['大数', '数据', '是', '需要', '新', '处理', '模式', '才能', '具有', '更', '强', '的', '决策', '力', '、', '洞察', '发现', '力', '和', '流程', '优化', '能力', '的', '海量', '、', '高', '增长', '增长率', '和', '多样', '多样化', '的', '信息', '资产', '。']
精确分词: ['大', '数据', '是', '需要', '新', '处理', '模式', '才能', '具有', '更强', '的', '决策', '力', '、', '洞察', '发现', '力', '和', '流程', '优化', '能力', '的', '海量', '、', '高', '增长', '增长率', '和', '多样', '多样化', '的', '信息', '资产', '。']
【out】:
词性
大 a
数据 n
是 v
需要 v
新 a
处理 v
模式 n
才能 v
具有 v
更 d
强 a
的 uj
决策 n
力 n
、 x
洞察 n
发现 v
力 n
和 c
流程 n
优化 vn
能力 n
的 uj
海量 n
、 x
高 a
增长率 n
和 c
多样化 l
的 uj
信息 n
资产 n
。 x