主要工作
主要目标是生物医学、化学和疾病命名实体识别,基于原来的CNN和LSTM模型加了字符向量。CNN训练速度更快,因为参数更少。
数据集
BioCreative VCDR corpus (Li et al., 2016).
- 1000篇手工标注的摘要用于训练和验证,大概9193条句子
- 500偏手工标注的摘要用于测试,大概4840条句子
也用到了一个预处理过的此数据集版本,提供了POS-,chunking和gazetteer-based标签
- POS 和 chunking tags 使用GENIA tagger (Tsuruoka et al., 2005),提供了命令行版本解析工具,地址http://www.nactem.ac.uk/GENIA/tagger/
- Gazetteer tags通过与外部化学词典匹配,在生物标记方案中对地名表标签进行编码,参考论文[4]
实验
主要参考论文[1]中的实验细节。
训练集、验证集9:1
模型
主要实现了以下方法:
- BiLSTM模型 + softmax层
- BiLSTM-CRF,参考论文[2]
- BiLSTM-CRF + CNN-char,参考论文[3]
- BiLSTM-CRF + LSTM-char ,参考论文[5]
也考虑了外部特征,主要参考[1]
细节
BiLSTM-CRF-based 模型主要参考: