集合语义空间提高动提取同义词能力

最新推荐文章于 2022-07-07 14:46:04 发布

Hinako_

最新推荐文章于 2022-07-07 14:46:04 发布

阅读量437

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_46187486/article/details/104823692

版权

文章探讨了如何利用集合语义空间提高医学文本中动词同义词的提取能力。通过从临床和医学语料库构建语义空间，结合RI和RP模型，以及对多个语料库的组合策略，来增强同义词识别。方法包括语料库预处理、组合策略、后处理和频率阈值实验，旨在解决医学文本中同义词提取的精度问题。

摘要由CSDN通过智能技术生成

集合语义空间提高动提取同义词能力

文章出发点：医学界需要统一医学文章的专用词语言，从而针对医学文本同义词提取精度有限的问题，进行提高同义词从其他语义关系中分离开的能力。
方法概括：（1）语料库预处理（2）从两个语料库（和联合语料库）构建语义空间，（3）识别最有利的单个语料库（和联合语料库））组合，（4）识别最有利（不相交）的多语料组合，（5）单个语料库（包括联合语料库）和多个语料库组合的评估，（6）候选术语的后处理，和（7）频率阈值实验。
具体步骤：
运用材料：（1）临床语料库，包括健康记录的注释，和（2）医学语料库，包括医学期刊文章
主要概念：RI随机索引：RI是LSA的增量，通过分配稀疏的、内部的和随机生成的d维索引向量来实现给予某一术语静态的唯一表示值，为每个唯一术语分配相同维度d的初始空上下文向量。然后通过添加目标术语出现的上下文的（加权）索引向量，用上下文信息递增地填充上下文向量。
【然而LSA是什么呢】LSA是潜在语义分析，具体说来就是对一个大型的文档集合使用一个合理的维度建模，并将词和文档都表示到该空间，而将文档表示到此空间的过程就是SVD奇异值分解和降维的过程。

具体的做法是将词项文档矩阵做SVD分解，其中是以词项(terms)为行, 文档(documents)为列做一个

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。