集合语义空间提高动提取同义词能力

文章探讨了如何利用集合语义空间提高医学文本中动词同义词的提取能力。通过从临床和医学语料库构建语义空间,结合RI和RP模型,以及对多个语料库的组合策略,来增强同义词识别。方法包括语料库预处理、组合策略、后处理和频率阈值实验,旨在解决医学文本中同义词提取的精度问题。
摘要由CSDN通过智能技术生成

集合语义空间提高动提取同义词能力

  1. 文章出发点:医学界需要统一医学文章的专用词语言,从而针对医学文本同义词提取精度有限的问题,进行提高同义词从其他语义关系中分离开的能力。
  2. 方法概括:(1)语料库预处理 (2)从两个语料库(和联合语料库)构建语义空间,(3)识别最有利的单个语料库(和联合语料库))组合,(4)识别最有利(不相交)的多语料组合,(5)单个语料库(包括联合语料库)和多个语料库组合的评估,(6)候选术语的后处理,和(7)频率阈值实验。
  3. 具体步骤:
    运用材料:(1)临床语料库,包括健康记录的注释,和 (2)医学语料库,包括医学期刊文章
    主要概念:RI随机索引:RI是LSA的增量,通过分配稀疏的、内部的和随机生成的d维索引向量来实现 给予某一术语静态的唯一表示值,为每个唯一术语分配相同维度d的初始空上下文向量。然后通过添加目标术语出现的上下文的(加权)索引向量,用上下文信息递增地填充上下文向量。
    【然而LSA是什么呢】LSA是潜在语义分析,具体说来就是对一个大型的文档集合使用一个合理的维度建模,并将词和文档都表示到该空间,而将文档表示到此空间的过程就是SVD奇异值分解和降维的过程。

具体的做法是将词项文档矩阵做SVD分解,其中是以词项(terms)为行, 文档(documents)为列做一个

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值