NLTK-003:词典资源

词典或者词典资源的意思是一个 词或短语 以及一些相关信息的集合。例如:词性和词意定义等相关信息。词典资源附属于文本,通常在文本的帮助下创建和丰富。

词汇列表语料库

nltk.corpus.words
仅仅包含词汇列表的语料库,可以用来寻找文本语料中不常见的或者拼写错误的词汇

import nltk
def unusual_words(text):
    text_vocab = set([w.lower() for w in text if w.isalpha()])
    english_vocab = set([w.lower() for w in nltk.corpus.words.words()])
    unusual = text_vocab.difference(english_vocab)#集合的差集
    return sorted(unusual)

print unusual_words(nltk.corpus.gutenberg.words('austen-sense.txt'))

输出:[u’abbeyland’, u’abhorred’, u’abilities’, u’abounded’, u’abridgement’, u’abused’, u’abuses’, …u’years’, u’yielded’, u’youngest’]

停用词语料库

print(nltk.corpus.stopwords.words('english'))#英语停用词

输出:[‘i’, ‘me’, ‘my’, ‘myself’, ‘we’, ‘our’, ‘ours’, …wouldn’t"]

print(nltk.corpus.stopwords.words('French'))#法语停用词

名字语料库

nltk.corpus.names
包括8000个按性别分类的名字。男女的名字存储在单独的文件

names = nltk.corpus.names
cfd = nltk.ConditionalFreqDist(
    (fileid, name[-1])
    for fileid in names.fileids()
    for name in names.words(fileid))

cfd.plot()

在这里插入图片描述

发音的词典
属于表格词典 ,NLTK中包括美国CMU发音词典,它是为语音合成器使用而设计的。

entries = nltk.corpus.cmudict.entries()
for entr in entries:
    print(entr)

输出结果:在这里插入图片描述
对任意一个词,词典资源都有语音的代码——不同的声音有着不同的标签称作音素

比较词表
nltk.corpus.swadesh
包括几种语言的约200个常用词的列表

from nltk.corpus import swadesh
swadesh.fileids()

输出结果:[‘be’, ‘bg’, ‘bs’, ‘ca’, ‘cs’, ‘cu’, ‘de’, ‘en’, ‘es’, ‘fr’, ‘hr’, ‘it’, ‘la’, ‘mk’, ‘nl’, ‘pl’, ‘pt’, ‘ro’, ‘ru’, ‘sk’, ‘sl’, ‘sr’, ‘sw’, ‘uk’]

swadesh.words('en')#英语

输出结果:[u’I’,u’you (singular), thou’,u’he’,u’we’,…u’if’, u’because’, u’name’]

简单的翻译器

fr2en = swadesh.entries(['fr','en'])
translate = dict(fr2en)
print(translate['chien'])
print(translate['nom'])

输出: dog、name

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

考古学家lx(李玺)

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值