使用Python快速统计关键词及其词频

最新推荐文章于 2025-03-02 02:38:53 发布

Uri栗子

最新推荐文章于 2025-03-02 02:38:53 发布

阅读量1.8w

点赞数 22

分类专栏： Python应用文章标签：统计 python jieba

本文链接：https://blog.csdn.net/weixin_43886356/article/details/86711012

版权

思路：

1.通过jieba库分词获取所有的词语列表；
2.计算列表里出现词语及其对应的频次，存储为字典；
3.删除字典中键为无关且频次高的词语的键值对；
4.对字典里的词语按照频次进行排序；
5.输出频次前五的词语及其频次；

如果没有安装 jieba 库，需要使用 cmd 进入命令提示符窗口，通过 pip install jieba 进行安装。

源代码如下

import jieba

file = open("sample.txt", "r", encoding='utf-8') #此处需打开txt格式且编码为UTF-8的文本
txt

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Uri栗子

关注关注

22
点赞
踩
107

收藏

觉得还不错? 一键收藏
5
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Python大数据：jieba分词，词频统计

weixin_33778544的博客

03-21

7036

实验目的学习如何读取一个文件学习如何使用DataFrame 学习jieba中文分词组件及停用词处理原理了解Jupyter Notebook 概念中文分词在自然语言处理过程中，为了能更好地处理句子，往往需要把句子拆开分成一个一个的词语，这样能更好的分析句子的特性，这个过程叫就叫做分词。由于中文句子...

python-中文分词词频统计

最新发布

无糖可乐没有灵魂

03-02

1098

菜鸟驿站对“面向对象”的解释如下：其中很明显的提出了常用的几个关键词：类、方法、类变量、数据成员、实例变量、实例化、对象、局部变量类属性：类class里面的变量类方法：类class里面的函数类：属性和方法的集合实例：类的具体实现实例属性：实例的变量实例方法：实例的函数对象：类属性和实例属性的结合局部变量：类属性或实例属性作用在类方法或实例方法的作用域方法重写：子类继承到的父类方法进行修改操作。

python分词统计词频_Python 分词并统计词频

weixin_39573535的博客

11-20

292

#先对建立汇总到txt文件中，然后进行分词，读到另外一个txt 文件中import matplotlibimport matplotlib.pyplot as plt #数据可视化import jieba #词语切割import wordcloud #分词from wordcloud import WordCloud,ImageColorGenerator,STOPWORDS #词云，颜色生成器，...

python分词统计词频_python利用多种方式来统计词频（单词个数）

weixin_39745724的博客

11-20

1142

python的思维就是让我们用尽可能少的代码来解决问题。对于词频的统计，就代码层面而言，实现的方式也是有很多种的。之所以单独谈到统计词频这个问题，是因为它在统计和数据挖掘方面经常会用到，尤其是处理分类问题上。故在此做个简单的记录。统计的材料如下：document = ['look', 'into', 'my', 'eyes', 'look', 'into', 'my', 'eyes','the',...

python关键词统计_使用Python快速统计关键词及其词频

weixin_34109083的博客

01-29

4042

版权声明：转载附链接哦。https://blog.csdn.net/weixin_43886356/article/details/86711012思路：1.通过jieba库分词获取所有的词语列表；2.计算列表里出现词语及其对应的频次，存储为字典；3.删除字典中键为无关且频次高的词语的键值对；4.对字典里的词语按照频次进行排序；5.输出频次前五的词语及其频次；如果没有安装 jieba 库，需要使用...

python jieba分词并统计词频后输出结果到Excel和txt文档方法

09-20

这篇文章主要介绍了如何使用Python语言中的jieba库进行中文文本分词...希望读者能够通过这篇文章快速掌握使用Python进行jieba分词、词频统计以及数据输出的基本流程，并能够根据自己的需求进行相应的修改和扩展应用。

python统计英文文本词频和提取文本关键词

david2000999的博客

09-29

2924

统计一段英文的词频，以下代码只将标点符号省去，没有去除英文中介词，数词，人称代词等，如需要改进在统计时候直接去除相应词汇即可。 #读取文本 txt = open("english.txt","r",errors='ignore').read() #字母变小写 txt = txt.lower() for ch in '!"#$&()*+,-./:;<=>?@[\\]^_{|}·~‘’': #替换标点 txt = txt.replace(ch,"") #根据空格，空字符，换行符，制表

python实现简单中文词频统计示例

09-21

本文将详细介绍如何使用Python实现简单的中文词频统计，并通过具体的示例代码展示整个过程。 #### 二、所需知识点为了实现中文词频统计功能，我们需要掌握以下几点知识： 1. **文件操作**：文件读取是获取待分析...

python统计词频_Python中文分词及词频统计

weixin_30601893的博客

01-31

7213

中文分词中文分词(Chinese Word Segmentation)，将中文语句切割成单独的词组。英文使用空格来分开每个单词的，而中文单独一个汉字跟词有时候完全不是同个含义，因此，中文分词相比英文分词难度高很多。分词主要用于NLP 自然语言处理(Natural Language Processing)，使用场景有：搜索优化，关键词提取(百度指数)语义分析，智能问答系统(客服系统)非结构...

Python 分词，词频统计，寻找公共词

12-12

Python 分词，词频统计，寻找公共词

jieba textrank关键词提取 python_文本关键词提取_词频统计

weixin_39624097的博客

11-23

1009

大家晚上好，我是阿涛。今天的主题是介绍提取从文本中关键词技术(有时候业务场景是需要从海量舆情数据中提取关键词，这个时候就需要进行分词求词频来先发现高频词)，介绍最为简单的一种用jieba分词后，然后统计词频，词频高的我们就理解为关键词；当然还有LDA、textrank等提取关键词的算法。如果是多篇文档还可以再加tf-idf算法，计算关键词的"新鲜度"。【T】.文本关键词提取-词频统计【1...

python分词统计词频_python进行分词及统计词频

weixin_39692045的博客

11-20

396

#!/usr/bin/python# -*- coding: UTF-8 -*-#分词统计词频import jiebaimport refrom collections import Countercontent=""filename=r"../data/commentText.txt";result = "result_com.txt"r='[0-9\s+\.\!\/_,$%^*()?;；:-【...

python计算词频

liutielei的专栏

03-31

1204

网上看到一个面试题，描述如下：有一个文件file1，文件内容如下： Hello world Hello perl hello world Goodmorning good news 123 请用perl，python或者java写一个程序，计算file1中首字母大写的单词出现的次数。 python实现代码如下： f=open('test','r+') l

对指定关键词进行词频统计

m0_52488320的博客

03-11

2419

过往的词频统计都是针对整个文档进行的，而如果研究中需要知道单条评论或某个研究单元内某些词的词频，那么就需要进行额外的处理。原理非常的简单，就是遍历筛选，具体做法为去除停用词的逆运算。 Step1:分词最基本的处理的就不做多余的赘述，直接上码： def seg_word(data): seg_result=[] stop_list = open('哈工大停用词表.txt','r',encoding='utf-8').read() for sentence in data:

网页关键词频率计算（词频计算js版）

卓林的专栏

12-04

2797

不需要词库，直接分割网页内容提取词语.并且计算词语出现次数按照从多到少排序, 这里能区分中英文词语

python分词统计词频_python 实现中文分词统计

weixin_39907316的博客

11-24

864

总是看到别人用Python搞各种统计，前端菜鸟的我也来尝试了一把。有各种语义分析库在，一切好像并不是很复杂。不过Python刚开始看，估计代码有点丑。一、两种中文分词开发包THULAC（THU Lexical Analyzer for Chinese）由清华大学自然语言处理与社会人文计算实验室研制推出的一套中文词法分析工具包，具有中文分词和词性标注功能。THULAC具有如下几个特点：能力强。利用我...

Python中文分词及词频统计

lee小白菜的博客

11-07

4759

Python中文分词及词频统计中文分词中文分词(Chinese Word Segmentation)，将中文语句切割成单独的词组。英文使用空格来分开每个单词的，而中文单独一个汉字跟词有时候完全不是同个含义，因此，中文分词相比英文分词难度高很多。分词主要用于NLP 自然语言处理(Natural Language Processing)，使用场景有：搜索优化，关键词提取(百度指数) 语义分...

python 中文关键词词频统计

01-14

为了在Python中实现中文关键词的词频统计，可以采用Jieba分词工具配合`collections.Counter`来进行高效处理[^1]。 #### 使用Jieba进行中文分词 Jieba是一个非常流行的用于中文文本分割的第三方库。安装此库之后，...