目录
文本分析介绍:
文本是人类知识的重要载体,也是最广泛存在和最容易获取的数据类型。文本分析是一种通过对文本数据进行处理和分析来提取有用信息的技术。它可以应用于多种领域,包括自然语言处理、数据挖掘、情感分析等。
在线可视化分析工具:
NLPIR
NLPIR在线演示平台https://online.lingjoin.com/#/
待分析文本输入:
可以直接粘贴放到上面。也可以输入url。url获取方法可以网上查找资料获取。
分析结果展示:
分词标注:标注如何分词以及词性,大家可以通过这个来判断分析效果
实体抽取:这个如果做知识图谱会有帮助
词频统计:这个结果可以导出为png图片。
情感分析结果
关键词分析结果
Python代码实现词云图
具体步骤
导入所需库
import jieba
import wordcloud
from imageio import imread
读取文本文件
with open('坚持以生为本 助推学生发展.txt', 'r', encoding='utf-8') as f:
txt = f.read()
中文分词:
wordList = jieba.lcut(txt)
生成词云字符串:
wcstr = ' '.join(wordList)
读取形状图片:
maskim = imread('shape.jpg')
生成词云对象:
wc = wordcloud.WordCloud(
font_path='msyh.ttc', # 指定中文字体路径
width=640,
height=480,
background_color='white', # 设置背景颜色
mask=maskim # 使用图片作为词云的形状
)
生成词云
wcim = wc.generate(wcstr)
保存词云
wcim.to_image().save('result.png')
完整代码
import jieba
import wordcloud
from imageio import imread
f = open('坚持以生为本 助推学生发展.txt', 'r', encoding='utf-8')
txt = f.read()
f.close()
wordList = jieba.lcut(txt)
wcstr = ' '.join(wordList)
maskim = imread('shape.jpg')
wc = wordcloud.WordCloud(
'msyh.ttc', width=640, height=480,
background_color='white', mask=maskim)
wcim = wc.generate(wcstr)
wcim.to_image().save('result.png')
需要注意的问题
本机上已经有msyh.ttc这个中文字体文件,并且它位于你的代码执行路径中。
确保图片文件也需要在你的代码执行路径中,以便imageio.imread能够正确读取它。
生成的词云图片在代码相同的文件夹下。
其他在线可视化工具网站
Flourish | Data Visualization & Storytelling
总结
在线可视化平台比较方便,因为都是一键化的。但是要想达到自己定制化的效果需要费一番心思,还是要具备一些编程能力。