python中文词频统计并利用词云图进行数据可视化

一、前言

简介

💻祝各位六一儿童节快乐,最近真的太忙了,转眼间大三就来到第二个学期,还有一学年就要毕业了;马上也要开始准备 毕业设计 。 但是很多地方还需要进阶学习。然后这段时间也学习了很多的东西,让我也是收获颇满;但同时也 认识到了自己的不足,下面我将介绍一下做的一些内容。

二、项目简介

Python数据处理、分析与应用的实现过程,以及专业技术人员所使用的基本方法和技巧,

培养自己解决Python数据处理、分析与应用过程中遇到实际问题的能力,

掌握应用Python编写程序的技术,提高学生在Python数据处理、分析与应用方面的综合应用能力。

基本的知识目前就不哆嗦了,直接实战。

三、实战项目

实战1:中文词频统计并利用词云图进行数据可视化

(1)认识jieba库和wordcloud库;

(2)利用jieba库进行中文词频统计,强调字典、列表的应用;

(3)结合词频统计结果利用wordcloud库进行词云图的可视化;

(4)程序代码存为“学号姓名a.py”,词频统计结果存为“学号姓名a.csv”,词云图存为“学号姓名a.png”;

(5)每个步骤需要运行结果截图,截图中需要加上水印,水印为自己的学号姓名。

第一步:安装库

    pip install 库名

第二步: 分析题目意思

题目需要利用jieba库和wordcloud库

首先认识一下这两个库

第三步:Jieba是什么

jieba(“结巴”)是Python中一个重要的第三方中文分词函数库,能够将一段中文文本分割成中文词语的序列。

jieba库的分词原理是利用一个中文词库,将待分词的内容与分词词库进行比对,通过图结构和动态规划方法找到最大概率的词组。 除了分词jieba还提供增加自定义中文单词的功能。

第四步:Jieba常用的方法

精确模式,将句子最精确地切开,适合文本分析;返回结果是列表类型

    import jieba  #导入库
    a="爱上对方过后就哭了."
    ls = jieba.lcut(a)
    print(ls)

在这里插入图片描述

全模式,把句子中所有可以成词的词语都扫描出来,速度非常快,但是不能解决歧义;将字符串的所有分词可能均列出来,返回结果是列表类型,冗余性最大

    import jieba
    a="爱上对方过后就哭了."
    ls = jieba.lcut(a,cut_all=True)
    print(ls)

在这里插入图片描述

搜索引擎模式,在精确模式基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。

    import jieba
    a="爱上对方过后就哭了."
    ls = jieba.lcut_for_search(a)
    print(ls)

在这里插入图片描述

jieba.add_word()函数,用来向jieba词库增加新的单词。

    import jieba
    a="爱上对方过后就哭了."
    jieba.add_word("过后就哭了.")
    ls = jieba.lcut(a)
    print(ls)

在这里插入图片描述

第五步: Wordcloud常用的方法

在生成词云时,wordcloud默认会以空格或标点为分隔符对目标文本进行分词处理
根据文本中词语出现的频率等参数绘制词云 绘制词云的形状,尺寸和颜色都可以设定

过多的基础知识我这就不多余的讲解,不懂得请看以前的文章,嘿嘿😊

代码详解

    import matplotlib.pyplot as plt
    from PIL import Image
    import wordcloud as wc
    import jieba
    import csv
    import numpy as np
    
    #排除不合法字符
    excludes = open("stoplist.txt", 'r+', encoding='utf-8').read()
    b = []
    i = 0
    while i < len(excludes) - 1:
        if excludes[i] not in {',', '、', '.', ' ', '\n', '\\'}:
            b.append(excludes[i:i + 2])
            i += 2
        else:
            i += 1
    
    
    # 打开文件
    counts = {}
    with open('Praxis.txt', mode='r', encoding='utf-8') as fp:
        content = fp.read()
    words = jieba.lcut(content)  # 精确模式,返回一个列表类型的分词结果
    text = " ".join(words) #文本必须以空格的方式存入
    
    # 统计词语的次数
    for word in words:
        if len(word) == 1:
            continue
        else:
            rword = word
        counts[rword] = counts.get(rword, 0) + 1
    
    for word in b:
        print(f'word{word}')
        if word in counts:
            del counts[word]
    print(f'counts{counts}')
    
    items = list(counts.items())
    print(f'item{items}')
    
    mask = np.array(Image.open('love.png'))
    word_cloud = wc.WordCloud(
        font_path=r'C:\Windows\Fonts\simkai.ttf',
        background_color="#e6ebf1",
        mask=mask,  # 背景图片
        max_words=2000,  # 设置最大显示的词数
        max_font_size=100,  # 设置字体最大值
        width=500,  # 设置画布的宽度
        height=500,  # 设置画布的高度
    )  # 创建文本对象
    word_cloud.generate(text)  # 加载文本
    fn = '888888小猿.csv'
    with open(fn, 'w', encoding='gbk', newline='') as csvfile:  # 打开文件
        csvWiter = csv.writer(csvfile)  # 建立Writer对象
        for key in counts:
            csvWiter.writerow([key, counts[key]])
        print("数据加载完毕")
    plt.imshow(word_cloud)
    word_cloud.to_file('888888小猿.jpg')  # 保存为图片
    plt.show()

在这里插入图片描述

结果

如果对你有帮助,请下方投币,创作不容易,请多多支持小猿✅
这里有更多更详细得技术讲解

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小猿_00

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值