《医疗CT文本结构化研究与系统实现》 -分析与实现

文章链接

知网链接

使用理由

引导性的实现一个医疗知识图谱系统。

文章内容整理

条件随机场(CRF)和医疗固有规则推导的CT文本命名实体识别的方法。

预处理 -> 属性提取 -> 即时结构化


分词
基于字典、基于统计、基于理解

命名体识别
词的边界识别(难点)
基于规则和字典、基于统计

基于统计的方法主要包括:隐马尔可夫模型、最大熵、支持向量机和条件随机场
采用两者相结合来做处理


命名体识别的问题本质可以看做是序列标注问题
使用到的工具CRF++(用作命名体识别)
步骤:
确认标签体系、确认特征模板、预处理、训练

训练的数据文件和特征模板文件AND 测试文件
实体类别

类别标注样例
器官部位O脾脏,腹腔等
疾病D腹水,结实,积液等
状态S片团状 ,迂曲等
时期P动脉期,静脉期
性状T大小,形态,密度等
修饰词A未见,可见等
变化C增大,扩张等
数值N0.8cm,30HU等
数量Q九个,一枚等
程度De严重,稍微等

特征选取
在这里插入图片描述
内部标注规则
在这里插入图片描述
标注类别
在这里插入图片描述
例子

原始语句:
脾静脉增粗、迂曲,其内未见明显充盈缺损影。胆囊壁未见明显增厚。 中文分词及标注:
脾/n,静脉/n,增/v,粗/a,、/w,迂曲/a,,/w,其内/r,未见/nz,明显乂充盈/v,缺损/v,影/ng,。/w,胆囊/n,壁/ng,未见/nz,明显/a,增/v,厚/a,。/w
CRF标注结果:
脾/O-B,静脉/O-E,增/C-B,粗/C-E,、/M,迂曲/S-S,,/M,其内/M,未见/A-S,明显/M,充盈/D-B,缺损/D-I,影/D-E,。脱,胆囊/0-B,壁/O-E,未见/A-S,明显/M,增/C-B,厚/C-E,。/M
合并相关内部标记得到实体:
脾静脉/〇,增粗/C,、/M,迂曲/S,,/M,其内/M,未见/A,明显/M,充盈缺损影/D,。/M,胆囊壁/0,未见/A,明显/M,增厚/C,。/M

因此我们可以得到样例中的实体有:“脾静脉”、“增粗”、“迂曲”、“未见”、“充盈缺损影”、“胆囊壁”、“未见”、“増厚”。

4,文本结构化算法
4,1 句子划分

句子划分主要可以分为两类:一是把多个语义连续的句子当做一个句子进行处理,二是把包含有多个内容的长句子,划分为多个独立的短句进行处理。
使用CRF++进行句子序列标注
在这里插入图片描述

原始语句:
肝内外胆管未见扩张及异常密度灶,胆囊不大,壁不厚,其内未见阳性结石影。
中文分词及标注:
肝/n,内外/f,胆管/n,未见/nz,扩张/vn,及/cc,异常/a,密度/n,灶/n,,/w,胆囊/n,不大/d,,/w,壁/ng,不/d,厚/a,,/w,其内/r,未见/nz,阳性/n,结石/nhd,影/ng,。/wCRF标注结果:20肝/〇,内外/〇,胆管/〇,未见/〇,扩张/〇,及/〇,异常/〇,密度/〇,灶/〇,,/s,胆囊/〇,不大/〇,,/〇,壁/〇,不/〇,厚/〇,,/〇,其内/〇,未见/〇,阳性/〇,结石/0,影/0,。/S

4.2 推导规则定义

推导规则分为两类:第一类为生成类型规则,第二类为推导类型规则。

规则A 规则D
生成类型规则: A D -> D A
推导类型规则:A D -> D C ==> A - > D -> C

4.3 结果归一化

词向量 word2Vec过程

  • 分词 - 去除停用词 - 生成训练文本
  • 单词 - 出现数量
  • 构建词的哈夫曼树
5,结构化处理流程
  • 预处理阶段
    数据清洗,构建自定义词库,中文分词,
  • 属性提取阶段

文章代码

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值