一、语料库
存放语言材料的仓库,现代的语料库是指存放在计算机里的原始语料文本或加工后带有语言学信息标注的语料文本。
1.特征
- 存放的是在实际使用中真实出现过的语言材料
- 是以计算机为载体承载语言知识的基础资源,但并不等于语言知识
- 真实语料需经过分析、处理和加工,才能成为有用的资源
2.作用
支持语言学研究和语言教学研究、支持NLP系统的开发
3.类型
按内容构成和目的构成:异质的(最简单的语料收集方法,没有事先规定和选材原则)、同质的、系统的(充分考虑语料动态和静态问题、代表性和平衡问题以及语料库规模等问题)、专用的
按语言种类划分:单语的、双语的或多语的
按是否加工处理过(标注)划分:生语料库、熟语料库
共时语料库与历时语料库:共时语料库是为了对语言进行共时(同一时段)研究而建立的语料库。历时语料库是为了对语言进行历时研究而建立的语料库。