Incorporating dictionaries into deep neural networks for the Chinese clinical named entity recognition
总述
作者提出了融入字典信息的深度学习模型,用于解决中文医学命名实体识别
问题。
融合了字典的深度模型主要的优点是,可以克服传统深度模型难以识别出现频率少,或者从未出现的实体。
具体得,作者基于BiLSTM拓展出两个深度模型框架
,并且设计了五种特征
设计的五种特征
-
N-gram特征
具体的过程,首先提取出2-5gram
字符串
, 共有8个字符串(左右两边),如上图一,所示xi的2-5gram字符串,之后用独热编码表示各个字符串,如图二所示,
腹壁
属于body,所以编码是00001
,8个字符串,每个字符串用五维的独热编码表示,所以N-gram特征,共有40维
-
PIEF(Position-Independent Entity Type)特征
一句话概括就是,双向最大匹配算法(正向、逆向取最大长度),对句子中的字符标注其属于的类别
如上图PIET特征所示
-
PDET(Position-Dependent Entity Type)特征
相比于PIEF融入了实体位置信息,如上图PDEF所示,S、single
单个字符实体位置
,B、begin实体的开始位置
,E、end实体结束位置
I、inter实体中间位置
。
两个模型
-
model 1
嵌入向量和特征向量直接连接,输入到双向LSTM中
-
model 2
嵌入向量和特征向量分别输入到双向LSTM中,最后在CRF层前才连接
显然第一种是最好的方式