基础Python(文本信息获取与词频统计)

最新推荐文章于 2024-07-30 17:23:09 发布

调皮的代码

最新推荐文章于 2024-07-30 17:23:09 发布

阅读量368

点赞数 6

分类专栏： python 文章标签： python 开发语言 pycharm

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_62134940/article/details/134846434

版权

python 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

文本信息获取与词频统计

内容：

基于正则表达式获取网站网页的部分文字信息，进行词频统计，绘制词云图。

源代码：

import re
from urllib.request import urlopen
import jieba
import wordcloud
import matplotlib.pyplot as plt

startUrl = r'http://ccs.snnu.edu.cn/xygk/lsyg1.htm'
with urlopen(startUrl) as fp:
    content = fp.read().decode()  
print(content)
pattern = re.compile(u'<p.*?<span style="background.*?>(.*?)</span>.*?' +
                     '<span style="background.*?>：(.*?)</span>(.*?)</span></p>', re.I)
result = re.findall(pattern, content)
print(result)
file_test = open('test_example', 'w', encoding='utf-8')

result_str = ""
for item in result:
    print(item[0], item[1], item[2])
    result_str += ''.join(item)
    file_test.write('时间：' + item[0] + '\r\n')
    file_test.write('事件：' + item[1] + item[2] + '\r\n')
file_test.close()

words = jieba.lcut(result_str)
words_str = ' '.join(words)
stat_dict = {}
for element in words:
    stat_dict[element] = stat_dict.get(element, 0) + 1
print(stat_dict)
wc = wordcloud.WordCloud(
    r'C:\\windows\\fonts\\simfang.ttf', width=500, height=400,
    background_color='white', font_step=3,
    random_state=False, prefer_horizontal=0.9)

craw_stat = wc.generate(words_str)
craw_stat.to_image().save('craw_stat.png')
plt.imshow(wc)
plt.axis('off')
plt.show()

运行结果：

调皮的代码

关注

6
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
基础Python(文本信息获取与词频统计)

文本信息获取与词频统计：基于正则表达式获取网站网页的部分文字信息，进行词频统计，绘制词云图。
复制链接

扫一扫

专栏目录

调皮的代码

博客等级

码龄3年

11
原创

246
点赞

186
收藏

182
粉丝

关注

私信

热门文章

分类专栏

最新评论

基于OBS+smart_rtmp+Potplayer的视频播放（点播+直播）
2401_83871846: 卡在porplayer这一步了显示无法播放
操作系统（磁盘调度算法算法）
CSDN-Ada助手: 恭喜博主发布了第11篇博客！标题为“操作系统（磁盘调度算法算法）”，这篇博客看起来很有深度和技术性。感谢你持续分享关于操作系统的知识，我真的从你的博客中学到了很多。作为下一步的创作建议，我希望你能够继续探索更多关于操作系统的主题。比如，你可以写一篇关于内存管理的博客，或者分享一些关于进程调度的实践经验。当然，这只是一些建议，你的专业知识和兴趣将是你创作的最好指引。期待你下一篇博客的发布！
Python基础：数据集探索
CSDN-Ada助手: 恭喜你写了第10篇博客！阅读你的《Python基础：数据集探索》让我受益匪浅。你对数据集的探索方法讲解得非常清晰，让我对Python的数据操作有了更深入的理解。希望你可以继续保持写作的热情，可以考虑在下一篇博客中分享一些实际的案例分析，让读者更好地理解数据集探索的实际应用。期待你的下一篇作品！
基础python:随机数据文件生成与分析
CSDN-Ada助手: 恭喜你写了这么一篇有趣且实用的博客！看到你分享关于基础python的随机数据文件生成与分析，让我对python的应用又有了新的认识。希望你能继续保持创作的热情，也许下一步可以考虑分享一些高级python技巧或者实际案例分析，让读者能够更深入地了解python的应用。期待你的下一篇作品！
基于OBS+smart_rtmp+Potplayer的视频播放（点播+直播）
CSDN-Ada助手: 恭喜作者能够分享关于基于OBS+smart_rtmp+Potplayer的视频播放（点播+直播）的经验，这篇博客内容非常有用！希望作者能够继续坚持创作，分享更多有趣的内容。同时，也建议作者可以考虑深入探讨一些视频播放中的技术细节，或者分享一些实际应用中的案例分析，这样能够让读者更加全面地了解相关知识。期待作者的下一篇精彩文章！

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。