《Python自然语言处理》-ch1-语料库

与其等风来，不如追风去

于 2022-09-20 19:17:38 发布

阅读量842

点赞数

分类专栏： Python自然语言处理文章标签：自然语言处理人工智能深度学习

本文链接：https://blog.csdn.net/weixin_47195879/article/details/126958222

版权

Python自然语言处理专栏收录该内容

1 篇文章 0 订阅

订阅专栏

1.构建语料库的挑战

决定解决问题所需的数据类型；数据获取；数据的质量；数据数量的充足性。

2. 语料分析

nltk提供了一些内建语料库，包含四种语料：

孤立语料库：自然语言的文本集合，例gutenberg, webtext

分类语料库：文本已被分类，例如brown

重叠语料库：分类的，但是不同类别有重叠，例如reuters

时序语料库：包含一段时间内的自然语言的应用集合，例如inaugural address

练习题

1. 计算brown语料库中fileID为fileidcc12的文件的单词的数量。

2. 建立自己的语料库文件，使用nltk加载，然后考察这个语料库的频率分布。

解答练习题

1. 更正题目：计算brown语料库中fileids为cc12的文件的单词的数量

其他加载方式：1.9 加载你自己的语料库-Python 自然语言处理第二版-面试哥

关注博主即可阅读全文

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

与其等风来，不如追风去

关注关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
《Python自然语言处理》-ch1-语料库

自然语言处理-语料库-加载语料库
复制链接

扫一扫

专栏目录

python语料库_NLP&Python笔记——语料库

weixin_39631295的博客

11-29

1178

什么是语料库？文本语料库是一个大型结构化文本的集合。NLTK包含了许多语料库：（1）古滕堡语料库（2）网络和聊天文本（3）布朗语料库（4）路透社语料库（5）就职演讲语料库（6）标注文本语料库词汇列表语料库（1）词汇列表：nltk.corpus.words.words()词汇语料库是Unix 中的/usr/dict/words 文件，被一些拼写检查程序使用。下面这段代码的功能是：过滤文本，留下罕见或...

python自然语言处理入门-词典分词

weixin_38477351的博客

05-09

2769

自然语言处理入门-词典分词摘要中文分词指的是将一段文本拆分为一系列单词的过程，这些单词顺序拼接后等于原文本。词典分词是最简单、最常见的分词算法，仅需一部词典和一套查词典的规则即可。给定一部词典，词典分词就是一个确定的查词与输出的规则系统。 1.什么是词语言学定义：具备独立意义的最小单位。基于词典的中文分词中的定义：词典中的字符串就是词。 1.1词的定义齐夫定律：哈弗大学语言学家乔治 .金斯利 .齐夫于 1949年发表，...

参与评论您还未登录，请先登录后发表或查看评论

python 语料收集

01-29

使用前微信关注小冰，与腾讯智能闲聊互问，用于收集生成式训练语料，语料质量还行吧

语料库与python应用_语料库与Python应用/语料库翻译学文库简介，目录书摘

weixin_39875805的博客

11-29

253

python语料库是什么,Python 语料库的搭建

weixin_28890941的博客

03-26

980

语料库就是我们要分析文件的合计。语料库构建http://blog.csdn.net/happylife_haha/article/details/44566975构建方法：os.walk(fileDir)fileDir 文件夹路径文件读取：codecs.open(filePath, method, encoding)filePath 文件路径method 打开方式，r 读， w 写， rw 读写；...

python文本分析与挖掘（一）-构建语料库

数据杂坛

06-05

2146

python文本分析与挖掘（一）-构建语料库。

《Python 自然语言处理》学习笔记--第二章：获得文本语料和词汇资源

weixin_43951224的博客

07-18

889

《Python 自然语言处理》学习笔记--第二章：获得文本语料和词汇资源获取文本语料库 获取文本语料库 #古腾堡语料库 >>> nltk.corpus.gutenberg.fileids() ['austen-emma.txt', 'austen-persuasion.txt', 'austen-sense.txt', 'bible-kjv.txt', 'blake-poems....

【python自然语言处理】读书笔记

Sindy_Jen的专栏

11-20

548

《python自然语言处理》读书笔记参考书目：《python自然语言处理》使用的工具：python, NLTK Ch1 安装nltkpython3 -m pip install nltk 错误：运行时错误、语法错误 bigram Ch2 语料各种语料库 词汇列表 wordnet是基于语义的库。比如用树状结构表现同义词 Ch3 加工原文本爬虫：访问网络资源 from urllib...

HanLP《自然语言处理入门》笔记--5.感知机模型与序列标注

mantch

02-09

1553

本章将深人讲解感知机算法的原理，以及在分类和序列标注上的应用。在序列标注应用部分，我们将实现基于感知机的中文分词器。由于感知机序列标注基于分类，并且分类问题更简单，所以我们先学习分类问题。

自然语言处理LDA入门实战（python代码）

she_is_brilliant的博客

07-25

807

这是LDA的入门学习，由五个句子组成，训练的过程也较为简单。网页来源https://aiteam.blog.csdn.net/article/details/88392606 代码是自己修改过运行的，原代码没什么问题，只是在安装包时以及stopwords那里每个人的情况不同，我这里报错了，具体解决也都是百度来的。 #从nltk中import停用词 import nltk #nltk.download() from nltk.corpus import stopwords from nltk.ste

新文科背景下翻译人才培养的路径探索——兼评《语料库与Python应用》.pdf

06-28

新文科背景下翻译人才培养的路径探索——兼评《语料库与Python应用》.pdf

python语料爬虫

10-31

做自然语言处理时需要语料来做训练集，利用这个爬虫程序可以很方便的获取语料。

python自然语言处理之加载本地语料库

脚步丈量世界

06-20

3441

python自然语言处理之加载本地语料库 from nltk.corpus import PlaintextCorpusReader # 语料库本地目录 coupus_root = "E:\\guoby\\temp\\dict" # 加载文件过滤 file_pattern = '.*' wodslist = PlaintextCorpusReader(coupus_root, f

Python3：语料库技术与应用 | Python | 语料库技术 | 图书

nibiner的博客

01-15

871

Pyhon3：语料库技术与应用本书介绍了基于Python 3的语料库相关技术与应用，内容包括语料自动获取与语料分析实践。全书分为理论篇和实践篇，理论篇主要介绍了如何将Python 3应用到语料自动获取、存储与读取、清洗与预处理、语料检索与分析等典型应用场景，其中第4章还涉及部分自然语言处理的内容，包括情感分析、命名实体识别等；实践篇主要从开发环境配置出发，以IMDb为例，阐述了影评语料的自动获取和基于机器学习的文本分析方法。从语料的获取到分析的整个流程中，作者希望能够在理论和实践上传达“语言+技术”的理念

Typescript(六) tsconfig.json + complierOptions + 再来一波complierOptions

Mark_fu博客

10-02

496

1 如何生成这个配置文件目标文件夹---终端 ---- tsc -init 1) 如果使用 tsc demo14.ts 生成 demo14.js 配置文件是不起作用的如果想起作用可以直接 tsc 但是如果该文件夹包含多个文件不要这样使用因为会生成多个对应的js 你可能不想要如何处理这个问题？我只想编译特定的ts 文件其他的都不编译成 js 1、配置文件 tsconfig.json中加 "include/files : ["demo14.ts"]", 里面放的是想编译的ts文件 2、看

NLP&Python笔记——语料库

weixin_30312557的博客

07-19

628

什么是语料库？文本语料库是一个大型结构化文本的集合。 NLTK包含了许多语料库：（1）古滕堡语料库 （2）网络和聊天文本（3）布朗语料库 （4）路透社语料库 （5）就职演讲语料库 （6）标注文本语料库 词汇列表语料库 （1）词汇列表：nltk.corpus.words.words() 词汇语料库是Unix 中的/usr/dict/words 文...

Python自然语言处理 | 获得文本语料与词汇资源

Claire_chen_jia的博客

02-08

4247

本章解决问题- 什么是有用的文本语料和词汇资源，我们如何使用Python获取它们? 哪些Python结构最适合这项工作? 编写Python代码时我们如何避免重复的工作? 这里写目录标题1获取文本语料库1.1 古腾堡语料库1.2 网络和聊天文本1.3 布朗语料库1.4 路透社语料库1.5 就职演说语料库1.6 其他语料库1.7 文本语料的结构1.8 载入自己的语料库2 条件频率分布2.1 条件和事件2.2 按文体计数词汇2.4 使用双连词生成随机文本3 更多关于python：代码重用4 词典资源4.1.

python语料库代码_基于Python的语料库数据处理（七）

weixin_29416253的博客

02-21

972

原标题：基于Python的语料库数据处理(七)《Python玩转语料库数据》专栏· 第7篇2826字 | 10 分钟阅读今天我们学习的内容是分组、元字符的转义、回车符、换行符和制表符！一、分组有时候我们不需要返回全部检索内容,而需要对检索的内容分几个部分回,这时候就需要用到分组(grouping)。我们可以将需要分开检索返回的部分用圆括弧括起来。比如,我们需要检索出'http:/www.hust....

基于python的语料库数据处理_基于Python的语料库数据处理（三）

weixin_39622905的博客

12-05

918

原标题：基于Python的语料库数据处理(三)《Python玩转语料库数据》专栏· 第3篇1393 字 | 5 分钟阅读一起来学习用Python进行语料库数据处理吧！一、条件判断在执行某个语句前，我们可能需要对某个条件进行判断，并根据条件判断的结果来决定是否执行该语句。这时就需要使用条件判断if。条件判断if的基本句法为：if:在用Python进行语料库数据处理时，常用的条件判断操作符有“”、“&...

python自然语言处理-BERT