文章链接
使用理由
引导性的实现一个医疗知识图谱系统。
文章内容整理
条件随机场(CRF)和医疗固有规则推导的CT文本命名实体识别的方法。
预处理 -> 属性提取 -> 即时结构化
分词
基于字典、基于统计、基于理解
命名体识别
词的边界识别(难点)
基于规则和字典、基于统计
基于统计的方法主要包括:隐马尔可夫模型、最大熵、支持向量机和条件随机场
采用两者相结合来做处理
命名体识别的问题本质可以看做是序列标注问题
使用到的工具CRF++(用作命名体识别)
步骤:
确认标签体系、确认特征模板、预处理、训练
训练的数据文件和特征模板文件AND 测试文件
实体类别
类别 | 标注 | 样例 |
---|---|---|
器官部位 | O | 脾脏,腹腔等 |
疾病 | D | 腹水,结实,积液等 |
状态 | S | 片团状 ,迂曲等 |
时期 | P | 动脉期,静脉期 |
性状 | T | 大小,形态,密度等 |
修饰词 | A | 未见,可见等 |
变化 | C | 增大,扩张等 |
数值 | N | 0.8cm,30HU等 |
数量 | Q | 九个,一枚等 |
程度 | De | 严重,稍微等 |
特征选取
内部标注规则
标注类别
例子
原始语句:
脾静脉增粗、迂曲,其内未见明显充盈缺损影。胆囊壁未见明显增厚。 中文分词及标注:
脾/n,静脉/n,增/v,粗/a,、/w,迂曲/a,,/w,其内/r,未见/nz,明显乂充盈/v,缺损/v,影/ng,。/w,胆囊/n,壁/ng,未见/nz,明显/a,增/v,厚/a,。/w
CRF标注结果:
脾/O-B,静脉/O-E,增/C-B,粗/C-E,、/M,迂曲/S-S,,/M,其内/M,未见/A-S,明显/M,充盈/D-B,缺损/D-I,影/D-E,。脱,胆囊/0-B,壁/O-E,未见/A-S,明显/M,增/C-B,厚/C-E,。/M
合并相关内部标记得到实体:
脾静脉/〇,增粗/C,、/M,迂曲/S,,/M,其内/M,未见/A,明显/M,充盈缺损影/D,。/M,胆囊壁/0,未见/A,明显/M,增厚/C,。/M
…
因此我们可以得到样例中的实体有:“脾静脉”、“增粗”、“迂曲”、“未见”、“充盈缺损影”、“胆囊壁”、“未见”、“増厚”。
4,文本结构化算法
4,1 句子划分
句子划分主要可以分为两类:一是把多个语义连续的句子当做一个句子进行处理,二是把包含有多个内容的长句子,划分为多个独立的短句进行处理。
使用CRF++进行句子序列标注
原始语句:
肝内外胆管未见扩张及异常密度灶,胆囊不大,壁不厚,其内未见阳性结石影。
中文分词及标注:
肝/n,内外/f,胆管/n,未见/nz,扩张/vn,及/cc,异常/a,密度/n,灶/n,,/w,胆囊/n,不大/d,,/w,壁/ng,不/d,厚/a,,/w,其内/r,未见/nz,阳性/n,结石/nhd,影/ng,。/wCRF标注结果:20肝/〇,内外/〇,胆管/〇,未见/〇,扩张/〇,及/〇,异常/〇,密度/〇,灶/〇,,/s,胆囊/〇,不大/〇,,/〇,壁/〇,不/〇,厚/〇,,/〇,其内/〇,未见/〇,阳性/〇,结石/0,影/0,。/S
4.2 推导规则定义
推导规则分为两类:第一类为生成类型规则,第二类为推导类型规则。
规则A 规则D
生成类型规则: A D -> D A
推导类型规则:A D -> D C ==> A - > D -> C
4.3 结果归一化
词向量 word2Vec
过程
- 分词 - 去除停用词 - 生成训练文本
- 单词 - 出现数量
- 构建词的哈夫曼树
5,结构化处理流程
- 预处理阶段
数据清洗,构建自定义词库,中文分词, - 属性提取阶段