[python]文本处理 pandas、nltk词频统计

最新推荐文章于 2022-02-13 17:12:54 发布

shu天

最新推荐文章于 2022-02-13 17:12:54 发布

阅读量1.9k

点赞数 1

分类专栏： python 数据处理文章标签： pandas nltk

不允许转载

本文链接：https://blog.csdn.net/weixin_46081055/article/details/119518309

版权

本文介绍了如何使用Python的pandas和nltk库进行文本预处理、分词，并通过nltk的FreqDist方法进行词频统计，详细阐述了在实际操作中的步骤与方法。

摘要由CSDN通过智能技术生成

先做好预处理和分词，word_list为处理好的列表

nltk的FreqDist方法

import nltk

freqlist = nltk.FreqDist(word_list) 		#生成一个词频的字典
freqlist['词']			#查一个词的频率
freqlist.keys()		#看里面所有的词
freqlist.tabulate(10) 	#前十个高频词,表显示

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

shu天

关注关注

1
点赞
踩
8

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

用Python分析文本数据的词频并词云图可视化

m0_64336780的博客

09-20

1万+

上次批量提取了上市公司主要业务信息，要分析这些文本数据，就需要做文本词频分析。由于中文不同于英文，词是由一个一个汉字组成的，而英文的词与词之间本身就有空格，所以中文的分词需要单独的库才能够实现，常用的是`jieba`。

使用Python+NLTK实现英文单词词频统计

热门推荐

飞翔的荷兰人号

03-16

2万+

使用Python+NLTK实现英文单词词频统计使用PythonNLTK实现英文单词词频统计 应用场景 Fork Me 参考运行环境流程步骤图详细步骤读取文件过滤特殊符号以及还原常见缩写单词分词词形还原 NLTK 单词的TAG 词形还原统计词频结果写入文件应用场景本人近来想要提高英语水平，决定从直接看英文书籍开始做起，在选择英文书的时候，我需要了解这本书的词汇量以及词频，这样在遇到生词

参与评论您还未登录，请先登录后发表或查看评论

【Python】使用 pandas 的 `groupby` + `collections.Count` 统计（TopK）词频

「熊猫系列项目」ing

06-21

688

前几天 review 一份统计词频的代码，提了一些优化建议，觉得对写 Python 经验还比较少的同学应该有帮助，所以这边记录一下。 Overview提交的代码最终结果Reference 提交的代码 def word_frequency(data, top): """ 生成top20词频词语 """ if data is None or data.empty: return None # ...some code... # 统计词频 df_res = .

pandas统计论文词频

tyler的博客

11-26

1988

读入Excel文件，内容如下： ![在这里插入图片描述](https://img-blog.csdnimg.cn/20201126152910725.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3RhaWxvbmg=,size_16,color_FFFFFF,t_70#pic_center 处理程序如下： # coding: utf-8 i.

pandas:统计某一列字符串中各个word出现的频率

ljp1919的专栏

02-13

2660

背景某一列是字符串，想要统计该列字符串分词结果后各词出现的词频。示例代码 # -*- coding: utf-8 -*- # @Time : 2022/2/13 4:18 下午 # @Author : JasonLiu # @FileName: test.py import pdb import pandas as pd import numpy as np df = pd.DataFrame( [[104472, "R.X. Yah & Co"], [104873,

使用Python中的Pandas库进行语料处理（词频统计、清洗数据、选取满足条件的对应行写入文件等）

GCTTTTTT的博客

12-11

2718

import pandas as pd import numpy as np import json,math import random from tqdm import tqdm from collections import Counter ,defaultdict import re,nltk import re import pandas as pd import csv df=pd.read_csv("导出印地语数据1000条.csv") df.title df df.columns

【Python】三国演义词频统计，wordcloud实现

11-20

通过以上步骤，我们可以完成《三国演义》的词频统计和词云制作，不仅学习了Python的文本处理技术，也加深了对这部历史小说的理解。这种分析方法同样适用于其他大量文本数据，如新闻报道、社交媒体数据等，是数据科学...

Python文本分析：高效词频统计与预处理技巧

在Python中，有多种方法可以实现词频统计，包括使用内置的数据结构、字符串处理和正则表达式，以及利用Python标准库中的collections模块等。本文将通过实例代码，展示如何利用Python的这些特性来高效地完成这项任务...

Python文本分析实例：词频统计技巧揭秘

本实例将展示如何利用Python的内置功能及第三方库，比如`collections`模块中的`Counter`类，以及`pandas`库和`matplotlib`库等，来实现文本数据的读取、处理、词频统计和可视化展示。在学习本实例的过程中，你将学到...

文本分类之词频统计（分词、词干提取、去停用词、计算词频，有界面）

06-08

主要是读取文本，然后进行分词、词干提取、去停用词、计算词频，有界面，很实用

Python实现快速计算词频功能示例

09-20

主要介绍了Python实现快速计算词频功能,结合实例形式总结分析了Python使用nltk库进行词频计算功能的相关操作技巧,需要的朋友可以参考下

Python自然语言处理—统计词频

m0_38126215的博客

10-31

4527

一数据的预处理本文所有的例子我都将使用中文文本进行，所以在分析前需要对中文的文本进行一个预处理的过程（暂时只用的分词，去除停用词的部分后面介绍） # -*- coding:utf-8 -*- from nltk import FreqDist import jieba import pymssql # 我的数据来源于数据库，用的是爬虫的小学数学题 conndb = pymssql.co...

nltk学习之统计词频和分词nltk.word_tokenize nltk.FreqDist

机器学习初学者必看，关注我，一起了解机器学习

11-15

3232

分词（1）可以使用split()函数 import nltk import numpy as np import re from nltk.corpus import stopwords #1 分词1 text = "Sentiment analysis is a challenging subject in machine learning.\ People express thei...

使用NLTK进行英文文本的分词和统计词频

苣篛

07-01

5747

目录分词分词后词干提取和词形归一Stemming词干提取分词先将文档读入，然后全部变为小写 txt=open("English.txt","r").read() txt = txt.lower()#将英文全部变为小写中文分词需要专门的方法：英文分词就可以直接使用word_tokenize()进行分词 text="This is a text for test.And I want to learn how to use nltk." words = nltk.word_token

Python 3.6 利用NLTK 统计多个文本中的词频

大泡泡的专栏

03-16

7822

#!/usr/bin/env python # encoding: utf-8""" @author: wg @software: PyCharm @file: word_frequency_statistics.py @time: 2017/3/16 0016 10:46 """import os import nltk''' 利用NLTK 统计多个文本中的词频 '''dirs = os.list

Python：使用nltk统计词频并绘制统计图

彭世瑜的博客

07-18

5584

测试环境： mac python3.6.5 安装 pip install nltk 代码示例 # -*- coding: utf-8 -*- from nltk import FreqDist from matplotlib import rcParams # matplotlib 设置中文字体 rcParams["font.family"] = "STHeiti" rcParams["fo...

pandas统计亚马逊后台关键词频率

weixin_43351935的博客

03-10

910

将亚马逊后台全年的四个季度的词均导出。这里是用jupyter notebook进行数据处理的，按行处理。 1、将数据文件导入。 2.将四个excel表格读取,表格格式如下，你可以每个都打开，手动删除第一行，我这选择的是自动删除。 #将列的名称进行修改，且删除第一行， def change_format(df): df.columns=df.loc[0].values #重新定义列名...

【python技能】词频统计

macb007的博客

07-30

1072

import jieba from astropy.table.np_utils import join import os import sys import jieba.posseg as pseg def main(): #分词结果存储列表 word_list = [] #词频统计词典{关键词：次数} word_dict = {} curren

python英文分词统计词频_数据分析-词频统计-nltk自然语言处理

weixin_39797758的博客

11-24

808

读取数据由于我们之前是吧每个职位都存储为单个的csv文件，所以我们先把它们的details职位要求细节信息读取出来。代码如下，具体说明参照之前的文章。#cell-1定义读取细节的函数defreadDetail(fileName):withopen(fileName,'r')asf:job=json.load(f)details=job['details'].lower()det...