NLTK学习2:深入了解Python:文本作为单词列表

2深入了解Python:文本作为单词列表

2.1 清单

什么是文字?在一个级别上,它是诸如此类的页面上的一系列符号。在另一个层次上,它是由一系列章节组成的一系列章节,其中每个章节都是一系列段落,依此类推。但是,出于我们的目的,我们将文本看作只是一系列单词和标点符号。这是我们用Python表示文本的方式,在本例中是sent1:Moby Dick的开篇句子:

sent1 = ['Call', 'me', 'Ishmael', '。']
print(len(sent1))
def lexical_diversity(text):
    return len(set(text))/len(text)
print(lexical_diversity(sent1))

在这里插入图片描述
还为定义了更多列表,其中一个列表用于每个文本的开头句子 send2 … sent9。我们在这里检查了其中两个

from nltk.book import *
print(sent2)
print(sent3)

在这里插入图片描述
可以使用引用预定义列表的简称,键入列表。若还想将单个项目添加到列表怎么办?这称为追加。当我们将append()添加到列表时,该列表本身将作为操作的结果而更新。

print(sent4 + sent1)
sent1.append("Some")
print(sent1)

在这里插入图片描述

2.2 索引列表

如我们所见,Python中的文本是单词列表,使用方括号和引号的组合表示。正如文中一个普通的页面,我们可以计数的单词总数的 text1 与 len(text) ,并在一个特定的词的文字数的出现-比如,“天堂” ,使用text1.count(‘天堂’)。

有了一些耐心,我们可以在打印的文本中挑选出第一个,第173个,甚至第14,278个单词。类似地,我们可以通过Python列表中元素的出现顺序来识别它们。代表该位置的数字是商品的index。通过编写文本名称,然后在方括号内添加索引,我们指示Python向我们显示出现在索引(例如173)处的项:

print(text4[173])
print(text4.index('awaken'))

在这里插入图片描述
索引是访问文本单词或更常见的任何列表元素的常用方法。Python也允许我们访问子列表,从大型文本中提取可管理的语言,这是一种称为切片的技术。

print(text5[16715:16735])
print(text6[1600:1625])

在这里插入图片描述
索引有一些微妙之处,我们将在一个人工句子的帮助下进行探索:

sent=['word1', 'word2', 'word3', 'word4', 'word5','word6', 'word7', 'word8', 'word9', 'word10']
print(sent[0],sent[9])

在这里插入图片描述

2.3 变量

从1开始,您可以访问名为text1,text2等的文本。它省去了很多打字工作,因此可以使用这样的短名称来引用一本250,000字的书!定义变量 send1= [ ‘Call’,‘me’,‘Ishmael’,’。’ ] ,这样的行的形式为:variable = expression。Python将对表达式求值,并将其结果保存到变量中。此过程称为分配。以下是一些变量和赋值的示例:

my_sent = ['Bravely', 'bold', 'Sir', 'Robin', ',', 'rode','forth', 'from', 'Camelot', '.']
noun_phrase = my_sent[1:4]
print(noun_phrase)
wOrDs = sorted(noun_phrase)
print(wOrDs)

在这里插入图片描述
我们通常会使用变量来保存计算的中间步骤,尤其是在使代码易于遵循的情况下。因此len(set(text1))也可以写成:

vocab =set(text1)
vocab_size = len(vocab)
print(vocab_size)

在这里插入图片描述
我们将回到3中的字符串主题。目前,我们有两个重要的构建块-列表和字符串-并准备好进行一些语言分析。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值