Natural Language Processing with Py
晏清
这个作者很懒,什么都没留下…
展开
-
计数词汇
首先,让我们以文本中出现的词和标点符号为单位算出文本从头到尾的长度。我们使用函数len获取长度,请看在《创世纪》中使用的例子:《创世纪》有44764个词和标点符号或者叫“标识符”。一个标识符是表示一个我们想要放在一组对待的字符序列的术语。当我们计数文本中标识符的个数时,如to be or not to be 这句话,我们计数这些序列出现的次数。因此,我们的例句中出现了to和be各两次,or和not各一次。然而在例句中只有四个不同的词。《创世纪》中有多少不同的词?要用Python来回答这个问题,我们处理原创 2021-04-06 16:02:03 · 122 阅读 · 0 评论 -
搜索文本
词语索引视图显示一个指定单词的每一次出现,连同上下文一起显示。下面我们用concordance函数来查看《白鲸记》中的词monstrous:你也可以搜索我们已经列入的其他文本。例如:使用text3.concordance(“lived”)搜索《创世纪》找出某人活了多久;你也可以看看text4,《就职演说语料》,回到1789年看看那时英语的例子,搜索如nation,terror,god这样的词,看看随着时间推移这些词的使用如何不同。词语索引使我们看到词的上下文。例如:我们看到monstrous出现的上下文原创 2021-04-06 10:57:47 · 113 阅读 · 0 评论 -
NLTK_DATA配置
在配置完NLTK_DATA环境变量后在Python提示符后输入:from nltk.book import *#这个book模块包含你阅读文章所需要的所有数据原创 2021-04-06 10:17:10 · 334 阅读 · 0 评论 -
NLTK
NLTK定义了一个使用Python进行NLP编程的基础工具。它提供重新表示自然语言处理相关数据的基本类,词性标注、文法分析、文本分类等任务的标准接口以及这些任务的标准实现,可以组合起来解决复杂问题。软件安装在官网上下载NLTK_DATA,并配置全局变量...原创 2021-04-03 11:13:17 · 96 阅读 · 0 评论 -
为什么使用Python?
Python是一种简单但功能强大的编程语言,非常适合处理语言数据。Python可以从官网免费下载,能够在各种平台上安装运行。Python的学习曲线比较平缓,文法和语义比较清晰,具有良好的处理字符串的功能。作为解释性语言,Python便于交互式编程。作为面向对象语言,Python允许数据和方法被方便的封装和重用。作为动态语言,Python允许属性等到程序运行时才被添加到对象,允许变量自动类型转换,提高开发效率。Python自带强大的标准库,包括图形编程、数值处理、和网络链接等组件。...原创 2021-04-03 10:53:23 · 251 阅读 · 0 评论