【NLP】语料库和词汇知识库

语料库是语言学研究的基础,它包含真实、多样性的语言材料。平衡语料库注重代表性与平衡,平行语料库用于对比不同变体,共时与历时语料库分别服务于同一时段和历史演变的研究。词汇知识库如WordNet用于存储词汇信息。熟语料库带有标注,生语料库则未加工。
摘要由CSDN通过智能技术生成

语料库(corpus)

语料库(corpus)就是存放语言材料的仓库(语言数据库),基于语料库进行语言学研究–语料库语言学(corpus linguistics)。

语料库语言学研究的内容

  1. 语料库的建设与编纂
  2. 语料库的加工和管理技术
  3. 语料库的使用

语料库的类型

平衡语料库

  1. 平衡语料库着重考虑语料的代表性与平衡性
  2. 语料采集的七项原则:语料的真实性、可靠性、科学性、代表性、权威性、分布性和流通性。其中,语料的分布性还要考虑语料的科学领域分布、地域分布、时间分布和语体分布等。

平行语料库

两种含义:一种是指在同一种语言的语料上的平行,例如,“国际英语语料库”,共有20个平行的子语料库,分别来自以英语为母语或官方语言和主要语言的国家,如英国、美国、加拿大、澳大利亚、新西兰等。其平行性表现为语料选取的时间、对象、比例、文本数、文本长度等几乎是一致的。建库的目的是对不同国家的英语进行对比研究。

共时语料库与历时语料库

共时语料库是为了对语言进行共时(同一时段)研究而建立的语料库。研究大树的横断面所见的细胞和细胞关系,即研究一个共时平面中的元素与元素的关系。

历时语料库是为了对语言进行历时研究而建立的语料库。研究大树的纵剖面所见的每个细胞和细胞关系的演变,即研究一个历时切面中元素与元素关系的演化。

词汇知识库

知识库是以描述性方法来存储和管理知识的机构,由知识和知识处理机构行成一个知识域 

1.WordNet

开发目的:解决词典中同义信息的组织问题

2.知网(HowNet)

3.概念层次网络(HNC)

研究从自然语言空间到语言概念空间的映射:

  1. 建立语言概念空间的概念基元符号体系;
  2. 建立语言概念空间的语句基元符号体系。

什么是熟语料库?什么是生语料库?

熟语料库指在自然语言单位上添加人工的标签标注,如经过分词、词性标注、命名实体识别、依存句法标注形成的语料。

生语料库指直接收集而未经加工形成的语言资源集,如常见的微博语料,新闻语料等。 

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

沉淀体育生

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值