《医疗CT文本结构化研究与系统实现》 -分析与实现

最新推荐文章于 2024-04-21 09:41:49 发布

自由的小白

最新推荐文章于 2024-04-21 09:41:49 发布

阅读量657

点赞数

分类专栏：自然语言处理 Paper # 结构化文章标签：文本结构化医疗

本文链接：https://blog.csdn.net/zzzzlei123123123/article/details/103442098

版权

自然语言处理同时被 3 个专栏收录

13 篇文章 0 订阅

订阅专栏

Paper

4 篇文章 0 订阅

订阅专栏

结构化

1 篇文章 0 订阅

订阅专栏

文章目录

文章链接

知网链接

使用理由

引导性的实现一个医疗知识图谱系统。

文章内容整理

条件随机场（CRF）和医疗固有规则推导的CT文本命名实体识别的方法。

预处理 -> 属性提取 -> 即时结构化

分词
基于字典、基于统计、基于理解

命名体识别
词的边界识别（难点）
基于规则和字典、基于统计

基于统计的方法主要包括：隐马尔可夫模型、最大熵、支持向量机和条件随机场
采用两者相结合来做处理

命名体识别的问题本质可以看做是序列标注问题
使用到的工具CRF++（用作命名体识别）
步骤：
确认标签体系、确认特征模板、预处理、训练

训练的数据文件和特征模板文件AND 测试文件
实体类别

类别	标注	样例
器官部位	O	脾脏，腹腔等
疾病	D	腹水，结实，积液等
状态	S	片团状，迂曲等
时期	P	动脉期，静脉期
性状	T	大小，形态，密度等
修饰词	A	未见，可见等
变化	C	增大，扩张等
数值	N	0.8cm，30HU等
数量	Q	九个，一枚等
程度	De	严重，稍微等

特征选取
在这里插入图片描述
内部标注规则

标注类别

例子

原始语句：
脾静脉增粗、迂曲，其内未见明显充盈缺损影。胆囊壁未见明显增厚。中文分词及标注：
脾／ｎ，静脉／ｎ，增／ｖ，粗／ａ，、／ｗ，迂曲／ａ，，／ｗ，其内／ｒ，未见／ｎｚ，明显乂充盈／ｖ，缺损／ｖ，影／ｎｇ，。／ｗ，胆囊／ｎ，壁／ｎｇ，未见／ｎｚ，明显／ａ，增／ｖ，厚／ａ，。／ｗ
CRF标注结果：
脾／Ｏ－Ｂ，静脉／Ｏ－Ｅ，增／Ｃ－Ｂ，粗／Ｃ－Ｅ，、／Ｍ，迂曲／Ｓ－Ｓ，，／Ｍ，其内／Ｍ，未见／Ａ－Ｓ，明显／Ｍ，充盈／Ｄ－Ｂ，缺损／Ｄ－Ｉ，影／Ｄ－Ｅ，。脱，胆囊／０－Ｂ，壁／Ｏ－Ｅ，未见／Ａ－Ｓ，明显／Ｍ，增／Ｃ－Ｂ，厚／Ｃ－Ｅ，。／Ｍ
合并相关内部标记得到实体：
脾静脉／〇，增粗／Ｃ，、／Ｍ，迂曲／Ｓ，，／Ｍ，其内／Ｍ，未见／Ａ，明显／Ｍ，充盈缺损影／Ｄ，。／Ｍ，胆囊壁／０，未见／Ａ，明显／Ｍ，增厚／Ｃ，。／Ｍ
…
因此我们可以得到样例中的实体有：“脾静脉”、“增粗”、“迂曲”、“未见”、“充盈缺损影”、“胆囊壁”、“未见”、“増厚”。

4，文本结构化算法

4,1 句子划分

句子划分主要可以分为两类：一是把多个语义连续的句子当做一个句子进行处理，二是把包含有多个内容的长句子，划分为多个独立的短句进行处理。
使用CRF++进行句子序列标注
在这里插入图片描述

原始语句：
肝内外胆管未见扩张及异常密度灶，胆囊不大，壁不厚，其内未见阳性结石影。
中文分词及标注：
肝／ｎ，内外／ｆ，胆管／ｎ，未见／ｎｚ，扩张／ｖｎ，及／ｃｃ，异常／ａ，密度／ｎ，灶／ｎ，，／ｗ，胆囊／ｎ，不大／ｄ，，／ｗ，壁／ｎｇ，不／ｄ，厚／ａ，，／ｗ，其内／ｒ，未见／ｎｚ，阳性／ｎ，结石／ｎｈｄ，影／ｎｇ，。／ｗＣＲＦ标注结果：２０肝／〇，内外／〇，胆管／〇，未见／〇，扩张／〇，及／〇，异常／〇，密度／〇，灶／〇，，／ｓ，胆囊／〇，不大／〇，，／〇，壁／〇，不／〇，厚／〇，，／〇，其内／〇，未见／〇，阳性／〇，结石／０，影／０，。／Ｓ

4.2 推导规则定义

推导规则分为两类：第一类为生成类型规则，第二类为推导类型规则。

规则A 规则D
生成类型规则： A D -> D A
推导类型规则：A D -> D C ==> A - > D -> C

4.3 结果归一化

词向量 word2Vec过程

分词 - 去除停用词 - 生成训练文本
单词 - 出现数量
构建词的哈夫曼树

5，结构化处理流程

预处理阶段
数据清洗，构建自定义词库，中文分词，
属性提取阶段

文章代码

自由的小白

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
《医疗CT文本结构化研究与系统实现》 -分析与实现

文章目录文章链接使用理由文章内容整理文章代码文章链接知网链接使用理由引导性的实现一个医疗知识图谱系统。文章内容整理条件随机场（CRF）和医疗固有规则推导的CT文本命名实体识别的方法。预处理 -> 属性提取 -> 即时结构化分词基于字典、基于统计、基于理解命名体识别词的边界识别（难点）基于规则和字典、基于统计基于统计的方法主要包括：隐马尔可夫模型、最大熵...
复制链接

扫一扫

专栏目录