基于NLP的中医医案文本快速结构化方法

最新推荐文章于 2024-07-12 03:06:05 发布

唐名威

最新推荐文章于 2024-07-12 03:06:05 发布

阅读量1.4k

点赞数

文章标签：算法大数据编程语言机器学习人工智能

本文链接：https://blog.csdn.net/weixin_45585364/article/details/125775536

版权

本文提出了基于自然语言处理的中医医案文本快速结构化方法，通过N-gram模型结合词典进行症状、体征的识别。研究中，从《中国现代名中医医案精粹》中选取医案，采用OCR技术转化医案图片为文本，并进行初步结构化。实验结果显示，该方法对4 754份医案的F1值达到82.99%，为中医医案结构化提供了一种有效途径。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

基于NLP的中医医案文本快速结构化方法

肖晓霞¹, 刘明婷², 杨冯天赐³, 刘鉴建县⁴, 杨阳⁵, 石月⁶

1湖南中医药大学信息科学与工程学院

2湖南大学信息科学与工程学院

3湘潭大学化学学院

4湖南泽塔科技有限公司

5东北林业大学工程技术学院

6北京瑞迪弘欣科贸有限公司

摘要：中医医案是中医医生学习临床经验的重要文献资料，对中医医案进行结构化处理有利于采用机器学习等方法总结临床经验，加速中医传承。为了实现中医医案快速结构化，提出了一种基于自然语言处理的中医医案文本快速结构化方法。将《中国现代名中医医案精粹》作为结构化对象，采用光学字符识别技术识别医案截图的文本，同时对文本做初步结构化。构建简单症状词典，采用结合词典的改进的N-gram模型获取医案文本中的症状、体征等词，并在结构化过程中更新词典，实现了对4 754份文本医案的结构化。随机选取666份医案文本对最终模型进行测试，其F1值达到82.99%。

关键词：N-gram模型 ; 自然语言处理 ; 中医医案 ; 中文分词 ; 光学字符识别

论文引用格式：

肖晓霞, 刘明婷, 杨冯天赐, 等. 基于NLP的中医医案文本快速结构化方法[J]. 大数据, 2022, 8(3): 128-139.

XIAO X X, LIU M T, YANG F T C, et al. A fast text structuring methodology of TCM medical records based on NLP[J]. Big Data Research, 2022, 8(3): 128-139.

0 引言

中医医案是中医历代医家临床过程的记录，往往采用叙述的方式记录病人的症状、体征和理法方药，是历代医家综合运用中医理法方药解决临床问题的经验总结，是中医知识传承的载体。但医案浩如烟海，若能够将医案中的症状、体征、证、方提取出来，并结构化为独立可用的数据单元，才能利用现代数据科学技术构建“ 症状（体征）-证方”的关系，才能更高效地总结海量医案中的诊疗经验，更有利于中医传承。

目前，医案资料大多以书籍的形式存在，基本都有对应的电子书籍，但电子书籍也是以扫描版本为主，而非可计算机直接识别的文字。人工整理和结构化医案费时费力，直接采用自然语言处理结构化图片文字也不可能，但可以先采用光学字符识别技术将图片式医案转化为计算机文字，再用自然语言技术来处理。

1 医案结构化现状

医案的描述一般包括病人姓氏、年龄、性别、症状、体征、证名、治则或治法、病因、方剂名、汤药名、中草药名、西药品名等，这些都是采用自然语言形式描述的，要将医案结构化，就需要将这些信息提取出来作为一个独立的数据单元。这些信息提取中难度最大的就是症状、体征和现代医案中生化指标信息的提取，由于中文语句中没有词的间隔符，信息提取之前往往需要对文本进行词语的切分并将其识别为目标对象，对应的技术有中文分词和命名实体识别技术。目前中文分词和命名实体识别主要有基于词典、基于规则、基于统计以及规则与统计相结合的方法。

基于词典的方法要求词典涵盖所有需要抽取的实体，并且随着数据量的增大，匹配速度会大幅度降低，对未登录词（即自然语言处理中的未被词典收录的词）的补充较难实现，缺乏自学能力。由于人类语言的灵活性和多变性，基于规则的实体抽取也很难有一个通用的方法。基于统计的机器学习方法、深度学习方法是目前发展比较快、应用比较广的中文自然语言处理方法，如隐马尔可夫模型（ hidden Markov model，HMM）、最大熵（maximum entropy，ME）模型、条件随机场（ conditional random field，CRF）模型、长短期记忆（long short-time memory， LSTM）网络等。由于基于统计的机器学习方法和深度学习方法需要对所处理的文本进行标注，短时间内无法完成，并且标注的方法及文本的领域特点也会使算法无法泛化到其他领域。除此之外，由于深度学习涉及大量的高维稀疏矩阵运算，需要特殊计算硬件来加速。

医案结构化过程中最大的工作量就是对医案中症状、体征命名实体的识别，但目前并没有专门针对中医医案症状、体征命名实体识别的技术，也没有公开的用于中医医案症状、体征命名实体识别的词典和通用的语料库，因此涉及的中医药词典和语料都需要研究者自行构建。例如，张帆等人构建了中医领域词典，对600份医案进行了人工标注，之后采用层叠隐马尔可夫模型结合中医词典的方法对600份医案进行处理，F1值为94.14%；李明浩等人在对492份医案中2 069条规范症状进行标注的基础上，采用LSTM-CRF对这些医案中的症状进行识别，F1值为78%。

中医临床命名实体识别研究随着技术的发展不断进步，但由于中医领域特点及研究起步较晚，症状命名实体识别要么需要大量人工语料标注，要么其F1值