1.构建语料库的挑战
决定解决问题所需的数据类型;数据获取;数据的质量;数据数量的充足性。
2. 语料分析
nltk提供了一些内建语料库,包含四种语料:
孤立语料库:自然语言的文本集合,例gutenberg, webtext
分类语料库:文本已被分类,例如brown
重叠语料库:分类的,但是不同类别有重叠,例如reuters
时序语料库:包含一段时间内的自然语言的应用集合,例如inaugural address
练习题
1. 计算brown语料库中fileID为fileidcc12的文件的单词的数量。
2. 建立自己的语料库文件,使用nltk加载,然后考察这个语料库的频率分布。
解答练习题
1. 更正题目:计算brown语料库中fileids为cc12的文件的单词的数量
2.