论文笔记:Comparing CNN and LSTM character-level embeddings in BiLSTM-CRF models for chemical and disease

主要工作

主要目标是生物医学、化学和疾病命名实体识别,基于原来的CNN和LSTM模型加了字符向量。CNN训练速度更快,因为参数更少。

数据集

BioCreative VCDR corpus (Li et al., 2016).

  • 1000篇手工标注的摘要用于训练和验证,大概9193条句子
  • 500偏手工标注的摘要用于测试,大概4840条句子

也用到了一个预处理过的此数据集版本,提供了POS-,chunking和gazetteer-based标签

  • POS 和 chunking tags 使用GENIA tagger (Tsuruoka et al., 2005),提供了命令行版本解析工具,地址http://www.nactem.ac.uk/GENIA/tagger/
  • Gazetteer tags通过与外部化学词典匹配,在生物标记方案中对地名表标签进行编码,参考论文[4]

实验

主要参考论文[1]中的实验细节。
训练集、验证集9:1

模型

主要实现了以下方法:

  • BiLSTM模型 + softmax层
  • BiLSTM-CRF,参考论文[2]
  • BiLSTM-CRF + CNN-char,参考论文[3]
  • BiLSTM-CRF + LSTM-char ,参考论文[5]
    也考虑了外部特征,主要参考[1]

细节

BiLSTM-CRF-based 模型主要参考:

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值