语料库与语言知识库


1.包含内容

1.1大规模语言数据

∙ \bullet 模型训练参数
∙ \bullet 测评标准

1.2NLP中的知识库

∙ \bullet 词汇语义库
∙ \bullet 词法、句法规则库
∙ \bullet 常识库等


2.语料库

2.1定义

指经科学取样和加工的大规模电子文本库,其中存放的是真实出现过的语言材料

2.2类型

∙ \bullet 按语言种类:
(1) 单语
(2)双语的或者多语的:篇章对齐/句子对齐/结构对齐

∙ \bullet 是否标注:
(1)词性标注
(2)句法结构信息标注(树库)
(3)语义信息标注

∙ \bullet 平行语料库:
两种或多种语言之间的平行采样和加工,比如机器翻译中的双语对齐语料库

2.3典型语料库

∙ \bullet 宾夕法尼亚大学树库:在 C h i n e s e T r e e B a n k ( C T B ) Chinese Tree Bank(CTB) ChineseTreeBankCTB中汉语词性被划分为33类,23类句法标记

对于一句话的标注如下(树形结构):

∙ \bullet 北京大学开发的CLKB:包含的内容较多,其中对于汉语短语结构规则库有600条语法规则,对于平行语料库含对译的英汉句对100万…

多级加工语料样例:

∙ \bullet 口语语料库 B T E C BTEC BTEC,目标是开展语音翻译的国际合作交流,开发实用的语音翻译技术。


3.词汇知识库

3.1WordNet

3.1.1介绍

∙ \bullet 开发者:普林斯顿大学认知科学实验室
∙ \bullet 开发目的:解决词典中同义信息的组织问题
∙ \bullet 五大类词汇:名词、动词、形容词、副词、虚词
∙ \bullet 特色:按词义组织词汇信息,它算是一部语义词典

3.1.2四种语义关系

∙ \bullet 同义关系
∙ \bullet 反义关系
∙ \bullet 上下位关系或从属/上属关系:{树}是{植物}的下位
∙ \bullet 部分关系或部分/整体关系

3.1.3应用

∙ \bullet 词汇消歧
∙ \bullet 语义推理
∙ \bullet 理解

3.2HowNet(知网)


4.思维导图

在这里插入图片描述

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

比奇堡咻飞兜

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值