Python自然语言处理笔记(七)------词典资源

一. NLTK中的词典资源

词典或词典资源是一个词或短语及其相关信息的集合。

1. 词汇列表语料库

词汇语料库是UNIX中的/usr/dict/words文件,被一些拼写检查程序所使用。可用来寻找文本语料中不常见的或拼写错误的词汇。

(1). 过滤文本

2. 停用语料词库

停用语料词库包括的是高频词汇,如the,to,和and,有时在进一步进行处理之前需要将它们从文档中过滤。停用词通常没有什么词汇内容,但它们的出现会使区分文本变得困难。

(1)NLTK中的停用语料词库

 (2)过滤停用词

例:定义一个函数来计算文本中不包含在停用列表中的词所占的比例。

 3. 名字语料库

名字语料库包含8000个按性别分类的名字。男性和女性的名字存储在单独的文件中。

(1)找到同时出现在两个文件中的名字即分辨不出性别的名字。

(2)研究男性与女性名字结尾的字母

4.表格词典

表格词典:在每一行含有一个词及其一些性质

(1)CMU发音词典

CMU发音词典为语音合成器而设计。

对任意一个词,词典资源都有语音的代码,不同的声音有不同的标签(音素) 

(2)比较词典

斯瓦蒂士核心词列表:包含几种语言的约200个常用词的列表,语言标识符使用ISO639双字母码。

通过使用entries()方法来指定一个语言链表来访问多语言中的同源词,而且还可以把它转换成一个简单的词典。

swadesh.fileids()获得的是语言的类别。

swadesh.words('en')获得的是英语语言下的词列表。

可以使用该词表实现一个小小的翻译器(法语,德语,西班牙语翻译成英文)

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值