NLP分词

NLP之汉语分词:

可以先加载常用的词典,如果加载词典分词的效果还是不理想,可以选择将词典里面的词进行词频调整。方法如下:

import jieba
jieba.load_userdict("dic.txt")
f = open("dic.txt", "r", encoding="utf8")
for i in f:
    line = i.strip()
    jieba.suggest_freq(line, tune=True)
# [jieba.suggest_freq(i.strip(), tune=True) for i in open("dic.txt", "r", encoding="utf-8")]

 

高频词提取:

import jieba
a = "第一,坚持推进区域经济一体化,构建开放型亚太经济。我们应该持续推进贸易和投资自由化便利化。通往亚太自由贸易区的路途不会平坦,但我们要始终朝着这个大方向、大目标迈进。对各类自由贸易安排,我们应该坚持开放、包容、透明原则,促进彼此协调,实现良性互动。我们应坚定维护以规则为基础的多边贸易体制,旗帜鲜明抵制保护主义。世界贸易组织正在探讨新一轮改革,改革的目的应该是让其更好发挥作用,坚持多边贸易体制的核心价值和基本原则,而不是推倒重来。我们应该引导经济全球化朝着更加开放、包容、普惠、平衡、共赢的方向发展。"
split_words = list(jieba.cut(a))
print(split_words)
print("----")
print(" ".join(split_words))
tf_dic = {}
# dic.get()方法http://www.runoob.com/python3/python3-att-dictionary-get.html
for w in split_words:
    tf_dic[w] = tf_dic.get(w,0) + 1
#     print(tf_dic[w])
print(tf_dic.items())
print("-------")
a = sorted(tf_dic.items(), key = lambda x: x[1], reverse=True)[:10]
print(a)



['第一', ',', '坚持', '推进', '区域', '经济', '一体化', ',', '构建', '开放型', '亚太经济', '。', '我们', '应该', '持续', '推进', '贸易', '和', '投资', '自由化', '便利化', '。', '通往', '亚太', '自由贸易区', '的', '路途', '不会', '平坦', ',', '但', '我们', '要', '始终', '朝着', '这个', '大方向', '、', '大', '目标', '迈进', '。', '对', '各类', '自由贸易', '安排', ',', '我们', '应该', '坚持', '开放', '、', '包容', '、', '透明', '原则', ',', '促进', '彼此', '协调', ',', '实现', '良性', '互动', '。', '我们', '应', '坚定', '维护', '以', '规则', '为', '基础', '的', '多边贸易', '体制', ',', '旗帜鲜明', '抵制', '保护主义', '。', '世界贸易组织', '正在', '探讨', '新一轮', '改革', ',', '改革', '的', '目的', '应该', '是', '让', '其', '更好', '发挥作用', ',', '坚持', '多边贸易', '体制', '的', '核心', '价值', '和', '基本', '原则', ',', '而', '不是', '推倒重来', '。', '我们', '应该', '引导', '经济', '全球化', '朝着', '更加', '开放', '、', '包容', '、', '普惠', '、', '平衡', '、', '共', '赢', '的', '方向', '发展', '。']
----
第一 , 坚持 推进 区域 经济 一体化 , 构建 开放型 亚太经济 。 我们 应该 持续 推进 贸易 和 投资 自由化 便利化 。 通往 亚太 自由贸易区 的 路途 不会 平坦 , 但 我们 要 始终 朝着 这个 大方向 、 大 目标 迈进 。 对 各类 自由贸易 安排 , 我们 应该 坚持 开放 、 包容 、 透明 原则 , 促进 彼此 协调 , 实现 良性 互动 。 我们 应 坚定 维护 以 规则 为 基础 的 多边贸易 体制 , 旗帜鲜明 抵制 保护主义 。 世界贸易组织 正在 探讨 新一轮 改革 , 改革 的 目的 应该 是 让 其 更好 发挥作用 , 坚持 多边贸易 体制 的 核心 价值 和 基本 原则 , 而 不是 推倒重来 。 我们 应该 引导 经济 全球化 朝着 更加 开放 、 包容 、 普惠 、 平衡 、 共 赢 的 方向 发展 。
dict_items([('第一', 1), (',', 10), ('坚持', 3), ('推进', 2), ('区域', 1), ('经济', 2), ('一体化', 1), ('构建', 1), ('开放型', 1), ('亚太经济', 1), ('。', 7), ('我们', 5), ('应该', 4), ('持续', 1), ('贸易', 1), ('和', 2), ('投资', 1), ('自由化', 1), ('便利化', 1), ('通往', 1), ('亚太', 1), ('自由贸易区', 1), ('的', 5), ('路途', 1), ('不会', 1), ('平坦', 1), ('但', 1), ('要', 1), ('始终', 1), ('朝着', 2), ('这个', 1), ('大方向', 1), ('、', 7), ('大', 1), ('目标', 1), ('迈进', 1), ('对', 1), ('各类', 1), ('自由贸易', 1), ('安排', 1), ('开放', 2), ('包容', 2), ('透明', 1), ('原则', 2), ('促进', 1), ('彼此', 1), ('协调', 1), ('实现', 1), ('良性', 1), ('互动', 1), ('应', 1), ('坚定', 1), ('维护', 1), ('以', 1), ('规则', 1), ('为', 1), ('基础', 1), ('多边贸易', 2), ('体制', 2), ('旗帜鲜明', 1), ('抵制', 1), ('保护主义', 1), ('世界贸易组织', 1), ('正在', 1), ('探讨', 1), ('新一轮', 1), ('改革', 2), ('目的', 1), ('是', 1), ('让', 1), ('其', 1), ('更好', 1), ('发挥作用', 1), ('核心', 1), ('价值', 1), ('基本', 1), ('而', 1), ('不是', 1), ('推倒重来', 1), ('引导', 1), ('全球化', 1), ('更加', 1), ('普惠', 1), ('平衡', 1), ('共', 1), ('赢', 1), ('方向', 1), ('发展', 1)])
-------
[(',', 10), ('。', 7), ('、', 7), ('我们', 5), ('的', 5), ('应该', 4), ('坚持', 3), ('推进', 2), ('经济', 2), ('和', 2)]


 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值