一文搞定繁体字预处理和词云生成（wordcloud）

最新推荐文章于 2024-11-01 15:24:27 发布

Lobster0722

最新推荐文章于 2024-11-01 15:24:27 发布

阅读量271

点赞数 2

文章标签： tensorflow python nlp

本文链接：https://blog.csdn.net/weixin_45708589/article/details/127461274

版权

本文介绍了如何使用ckiptagger而非jieba进行繁体字的高精度分词，详细步骤包括导入TXT文件、查看词性、移除停留词以及利用wordcloud生成词云。在处理过程中，特别提到了需要指定utf-8编码，并且要准备繁体字的字体包。

摘要由CSDN通过智能技术生成

1. 使用的是ckiptagger的分词包（不用jieba的原因是这个的准确度更高）：

具体下载和使用可以查看ckiptagger的GitHub链接

from ckiptagger import data_utils, construct_dictionary, WS, POS, NER
data_utils.download_data_gdown("./") # gdrive-ckip
# 使用 GPU：
#    1. 安裝 tensorflow-gpu (請見安裝說明)
#    2. 設定 CUDA_VISIBLE_DEVICES 環境變數，例如：os.environ["CUDA_VISIBLE_DEVICES"] = "0"
#    3. 設定 disable_cuda=False，例如：ws = WS("./data", disable_cuda=False)
# 使用 CPU：
ws = WS("./data")
pos = POS("./data")
ner = NER("./data")

2. 导入需要处理的TXT文件：

# test.txt 是我们需要读入的繁体文本，如果遇到无法解码的错误，用errors跳过
f = open("test.txt", encoding='utf-8', errors

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Lobster0722

关注关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

生成模型&一文认识图像生成

黎国溥

07-05

2600

更新一直持续到判别器无法区分为止（d）通过反复迭代训练生成器和判别器，GAN能够逐渐提升生成器生成的合成数据的质量和逼真度，使其接近真实数据的分布。单物体图像生成仅需要关注单个对象的生成细节，场景图像的生成往往需要考虑多个实例物体，物体间需要满足合理恰当且适应于用户需求的语义布局关系，因而场景图像生成任务复杂性较高，挑战性较强，且具有丰富的理论研究意义。这些模型通过大量的训练样本学习图像的特征和结构，并生成高质量的超分辨率图像。生成器试图生成逼真的输出图像，而判别器则试图区分生成的图像和真实的图像。

WordCloud生成词云

Pyouthon的博客

12-28

1538

WordCloud生成词云随意复制了一些天猫评论，通过wordcloud生成词云查看消费者购买意向重点第一次照着教程写，评论还不会爬所以这里评论的txt都是我手动复制的，见笑见笑 #中文数据云图 from wordcloud import WordCloud,ImageColorGenerator,STOPWORDS #ImageColorGenerator实现图片渲染图片着色 import ...

参与评论您还未登录，请先登录后发表或查看评论

关于python使用wordcloud生成繁体字词云的方法

MarrieChen的博客

02-18

900

今天我了解了一些关于python词云模块的用法，简单地实践了一下。安装比较顺利，还是老办法，pip install就可以安装好，但是时间比较长，因为可能同时安装了很多使用词云必须用到的包。然后就是动手实践的过程了。在执行到from wordcloud import WordCloud,ImageColorGenerator这句代码时，提示can not import name "WordCloud...

CkipTagger：高效中文词性标注工具的技术详解与应用指南

gitblog_00009的博客

04-25

463

CkipTagger：高效中文词性标注工具的技术详解与应用指南 ckiptaggerCKIP Neural Chinese Word Segmentation, POS Tagging, and NER项目地址:https://gitcode.com/gh_mirrors/ck/ckiptagger 是一个基于深度学习的开源项目，主要用于中文文本的词性标注。该项目由中研院资讯所开发，旨在提供一种...

探索CkipTagger：中文自然语言处理的强大工具

gitblog_00013的博客

08-10

353

探索CkipTagger：中文自然语言处理的强大工具 ckiptaggerCKIP Neural Chinese Word Segmentation, POS Tagging, and NER项目地址:https://gitcode.com/gh_mirrors/ck/ckiptagger 项目介绍 CkipTagger是一个开源的Python库，专门用于中文自然语言处理（NLP）。它实现了神经...

python 分词识别_CkipTagger开源中文处理工具(分词/词性标注/实体识别)

weixin_39827036的博客

12-09

396

CkipTaggerGitHub PyPI DocumentationAuthor / MaintainersPeng-Hsuan Li@CKIP (author/maintainer)Wei-Yun Ma@CKIP (maintainer)IntroductionThis open-source library implements neural CKIP-style Chinese N...

中英文停用词（stop word）列表

lawenliu的专栏

11-19

1万+

停用词即我们在处理文本时出现频率比较高，但是没有统计意义的词。一般在处理统计性文本信息时，我们会选择过滤掉这些词，比如用TF-IDF抽取关键词或者摘要，或者计算文档相识度的时候。当然进行文档语音及语法分析的时候，这些词是不能随便过滤掉的。搜集了一下网上大家列的中英文停用词以备之后使用。英文停用词 able about above according accordingly across a......

一文搞定BP神经网络——从原理到应用（原理篇）

热门推荐

佐井白白的微笑

10-11

26万+

神经网络结构以及前向传播过程损失函数和代价函数反向传播 1 矩阵补充知识 11 矩阵求梯度 12 海塞矩阵 13 总结 2 矩阵乘积和对应元素相乘 3 反向传播原理四个基础等式 4 反向传播总结 41 单样本输入公式表 42 多样本输入公式表本文小结 Hello，对于神经网络的原理，我入门了好多次，每次都觉得懂了，但是其实内部原理并没有理解透彻。经过不懈努力，终于茅塞顿开，遂总结此文。本

一文看懂数据预处理最重要的3种思想和方法

大数据

02-20

3116

导读：本文我们考虑应当采用哪些预处理步骤，让数据更加适合挖掘。数据预处理是一个广泛的领域，包含大量以复杂的方式相关联的不同策略和技术。我们将讨论一些最重要的思想和方法，并试图指出它们之间...

wordcloud生成词云

Janice的博客

07-30

437

链接1：https://blog.csdn.net/fly910905/article/details/77763086 链接2：https://www.cnblogs.com/jlutiger/p/9176517.html

NLP预处理——编码、繁转简、停用词、表情、标签

无限大地NLP_空木的专栏

03-10

5134

preface：随着经历的积累，觉得预处理问题愈发重要，需要整理整理。环境：mac，anaconda2 目录一、文本编码转换二、繁转简三、停用词四、表情异常符号五、html/json/xml标签处理六、切割一、文本编码转换 python2 VS python3 python2读取文件：默认asciii，类型为str 转为utf-8 demo： ...

【资源】stopwords.txt下载百度云（中英文）

XVII 的博客

06-01

2万+

https://pan.baidu.com/s/1K-fbpcbHJzM67Jq1O4YLZQ

中文停用词

weixin_34249678的博客

12-27

494

! " # $ % & ' ( ) * + , - -- . .. ... ...... ................... ./ .一 .数 .日 / // 0 1 2 3 4 5 6 7 8 9 : :// :: ; < = > >> ? @ A Lex [...

中文文本预处理

Yuka_bro

06-18

422

import pandas as pd import jieba import re import numpy as np from langconv import * content = pd.read_table('content.txt',encoding='gbk',sep='\n') data = content.iloc[0,0] 去掉特殊符号和空格，包括数字、标点、字母 pattern = re.compile(u'[^\u4E00-\u9FA5]') text = pattern.su

python怎么使用自定义停用词_【python】jieba分词，去停用词，自定义字典

weixin_42303282的博客

02-04

1278

使用jieba分词，去停用词，添加自定义字典。#encoding=utf-8import jiebafilename = "gp.txt"stopwords_file = "stopwords.txt"jieba.load_userdict("dict.txt")stop_f = open(stopwords_file,"r",encoding='utf-8')stop_words = list(...

一文读懂「RAG，Retrieval-Augmented Generation」检索增强生成

女王の专属领地

01-20

8729

检索增强生成（Retrieval Augmented Generation），简称 RAG，已经成为当前最火热的LLM应用方案。它是一个为大模型提供外部知识源的概念，这使它们能够生成准确且符合上下文的答案，同时能够减少模型幻觉。知识的局限性：模型自身的知识完全源于它的训练数据，而现有的主流大模型（ChatGPT、文心一言、通义千问…）的训练集基本都是构建于网络公开的数据，对于一些实时性的、非公开的或离线的数据是无法获取到的，这部分知识也就无从具备。幻觉问题。

wordcloud 中文词云生成

qq_34788084的博客

03-07

924

最近学了wordcloud 库发现词云生成很漂亮于是根据自己的兴趣玩了一下（背景图要白底）代码如下 # # coding: utf-8 import jieba from wordcloud import WordCloud from imageio import imread # 读取文本文件 f = open('m.txt', 'r') text = f.read() f.close...

【车辆车型识别】Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+算法模型

子午的博客

11-01

876

车辆车型识别，使用Python作为主要编程语言，通过收集多种车辆车型图像数据集，然后基于TensorFlow搭建卷积网络算法模型，并对数据集进行训练，最后得到一个识别精度较高的模型文件。再基于Django搭建web网页端操作界面，实现用户上传一张车辆图片识别其类型。局部感知能力：通过卷积层，CNN能够捕捉图像的局部特征，如边缘和纹理信息，这使得它在处理图像时具有空间感知能力。参数共享：卷积层中的权重在整个输入图像上共享，减少了模型的参数数量，降低了过拟合的风险，并提高了训练效率。平移不变性。

【眼疾识别】Python+深度学习+人工智能+算法模型训练+TensorFlow+CNN卷积神经网络算法