自然语言处理第二章语料库与语言知识库

一、语料库

        存放语言材料的仓库,现代的语料库是指存放在计算机里的原始语料文本或加工后带有语言学信息标注的语料文本。

        1.特征

  • 存放的是在实际使用中真实出现过的语言材料
  • 是以计算机为载体承载语言知识的基础资源,但并不等于语言知识
  • 真实语料需经过分析、处理和加工,才能成为有用的资源

        2.作用

        支持语言学研究和语言教学研究、支持NLP系统的开发

        3.类型

        按内容构成和目的构成:异质的(最简单的语料收集方法,没有事先规定和选材原则)、同质的、系统的(充分考虑语料动态和静态问题、代表性和平衡问题以及语料库规模等问题)、专用的

        按语言种类划分:单语的、双语的或多语的

        按是否加工处理过(标注)划分:生语料库、熟语料库

        共时语料库与历时语料库:共时语料库是为了对语言进行共时(同一时段)研究而建立的语料库。历时语料库是为了对语言进行历时研究而建立的语料库。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值