基于ICD-10诊断编码的慢性病并发症聚类算法

本文提出了一种基于ICD-10诊断编码的慢性病并发症半监督聚类算法,旨在利用少量医学专家提供的种子数据指导大规模电子病历数据的聚类,以实现对慢性病并发症的有效归类。实验以糖尿病并发症为例,证明了该算法在减少医生工作负担的同时,能提高并发症归类的准确性和实用性。
摘要由CSDN通过智能技术生成

基于ICD-10诊断编码的慢性病并发症聚类算法

王晓霞1,2,3,蒋伏松4,王宇5,熊贇1,2

1. 复旦大学计算机科学技术学院,上海 201203

2. 上海市数据科学重点实验室,上海 201203

3. 西北师范大学计算机科学与工程学院,甘肃 兰州 730070

4. 上海市第六人民医院,上海 200233

5. 上海市普陀区疾病预防控制中心,上海 200333

摘要:慢性病与其相关并发症关系的研究,对患者以及医学研究都有重要意义。电子病历中记录的患者就诊数据为研究目标慢性病与其并发症的关系提供了数据基础,其中面临的挑战之一在于既需要使用临床医生的领域知识对并发症进行标注,又不希望给医生增加过多负担。设计了一种采用分组策略的基于ICD-10诊断编码的慢性病并发症半监督聚类方法,以实现在较少的医生专家参与下对慢性病并发症归类。真实糖尿病患者电子医疗记录数据集上的实验结果表明提出的算法是实用且有效的。

关键词:半监督学习;聚类算法;慢性病并发症;CD-10诊断编码

doi:10.11959/j.issn.2096-0271.2018028

640?wx_fmt=jpeg

论文引用格式:王晓霞, 蒋伏松, 王宇, 等. 基于ICD-10诊断编码的慢性病并发症聚类算法[J]. 大数据, 2018, 4(3): 37-45.

WANG X X, JIANG F S, WANG Y, et al. Chronic disease complications clustering based on ICD-10 diagnoses code[J]. Big Data Research, 2018, 4(3): 37-45.

640?wx_fmt=jpeg

引言

在长时间的发展过程中,很多慢性病都会引发并发症,比如慢性阻塞性肺病、抑郁症等,这些并发症 是导致慢性病患者残疾、死亡的重要原因之一。了解慢性病与其并发症的关系以及研究相关并发症的发展,无论是对控制和预防慢性病并发症的发生、提高患者的自我监管能力,还是对慢性病的临床防治以及药物研发都有重要意义。

在医疗大数据环境下,对电子病历(electronic medical record)中的海量数据进行利用与分析能够促进医疗服务水平的提高以及对疾病的理解 [1]。在电子病历中,对患者的诊断结果一般使用国际疾病分类(international classification of diseases,ICD)编码进行分类标注,近年来使用的是全世界通用的第10次修订本《疾病和有关健康问题的国际统计分类》,即ICD-10诊断编码。例如,对于糖尿病及其并发症 [2],虽然在ICD-10诊断编码中根据疾病已知的病因、病理、临床表现和解剖位置等特性进行了一些详细的分类编码,但对于一些有可能由糖尿病引发的并发症并没有加以体现(比如抑郁症)。为了更好地利用电子病历中的数据分析各种目标疾病及其并发症的关系,将大量疾病诊断合理归类到若干种并发症类型是一项重要的任务。由于数据量巨大,对这些诊断结果按照研究目标的逻辑进行分类的工作,很难全部由具有医学知识的医生们来完成。本文设计了一种基于半监督聚类的慢性病并发症归类方法,聚类的依据是ICD-10诊断编码系统自身的编码特点:对于那些依据ICD-10诊断编码的分类规则划分为类似的疾病,其代码也会相邻。

2  相关工作

在机器学习领域,根据学习任务的不同分为两种学习方法:一种 是无监督学习,在无人工标记的数据集中发现数据自身蕴含的结构信息;另一种是有监督学习,在有人工标记的训练数据集中寻找数据与给定标记之间的映射关系,对测试数据集中的未标记数据进行分类或预 测 [3]。在很多具体的应用中,获取大量有标记的数据是很困难、很昂贵且很费时的,也就是说有标记的数据数量是相对有限的,对于有监督学习,学习结果令人不满意的重要原因之一是有限的标记数据很难为机器学习算法提供足够的分布信息,而对于不使用标记数据的无监督学习方法,在处理海量数据时很难保证算法的 精度 [4]。在此背景下,半监督学习方法引起了人们的关注,它的学习目标是综合利用少量有标记数据和大量无标记数据来更好地完成学习任务。半监督聚类分析基本思想是通过引入标记数据(或约束关系)来指导聚类过程,帮助算法更好地划分样本数据,提高

  • 1
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
序号 作废 疾病名称 ICD9码 ICD10码 统计码 统计码10 CCMD 拼音码 五笔码 自定义码 传染病 中西医 1 0 霍乱 1.901 A00.901 4 4 HL 是 2 0 伤寒 2.001 A01.001 5 5 SH 是 3 0 伤寒杆菌性败血症 2.003 A01.002 5 5 SHGJX 是 4 0 伤寒性脑膜炎 2.002 A01.003 5 5 SHXNM 是 5 0 甲种副伤寒 2.101 A01.101 5 5 JZFSH 是 6 0 乙种副伤寒 2.201 A01.201 5 5 YZFSH 是 7 0 丙种副伤寒 2.301 A01.301 5 5 BZFSH 是 8 0 副伤寒 2.901 A01.401 5 5 FSH 是 9 0 B群沙门氏菌肠炎 A02.001 3 BQSMSJ BVIUQA 是 10 0 C群沙门氏菌肠炎 A02.002 3 CQSMSJ CVIUQA 是 11 0 阿哥拉沙门氏菌肠炎 A02.003 3 EGLSMS BSRIUQ 是 12 0 沙门氏菌肠道感染 3.001 A02.004 6 3 SMSJC 是 13 0 沙门氏菌伦敦血清型肠炎 A02.005 3 SMSJLD IUQAWY 是 14 0 沙门氏菌胃肠炎 A02.006 3 SMSJWC IUQALE 是 15 0 鼠伤寒沙门氏菌肠炎 3.002 A02.007 6 3 SSHSM 是 16 0 婴儿沙门氏菌肠炎 A02.008 3 YESMSJ MQIUQA 是 17 0 沙门氏菌败血症 3.101 A02.101 6 3 SMSJB 是 18 0 沙门氏菌鼠伤寒伴有败血症 A02.102 3 SMSJSS IUQAVW 是 19 0 沙门氏菌性肺炎 3.202 A02.201 6 3 SMSJX 是 20 0 沙门氏菌性关节炎 A02.202 3 SMSJXG IUQANU 是 21 0 沙门氏菌性脑膜炎 3.201 A02.203 6 3 SMSJX 是 22 0 沙门氏菌感染 3.901 A02.901 6 3 SMSJG 是 23 0 鼠伤寒沙门氏菌感染 A02.902 3 SSHSMS VWPIUQ 是 24 0 沙门氏菌属食物中毒 3.902 A02.903 6 3 SMSJS 是 25 0 什密氏致贺菌痢疾 A03.001 6 SMSZHJ WPQ LA 是 26 0 弗氏志贺氏菌痢疾 4.101 A03.101 7 6 FSZHS 是 27 0 鲍氏致贺菌痢疾 A03.201 6 BSZHJL QQ LAU 是 28 0 宋内氏志贺氏菌痢疾 4.301 A03.301 7 6 SNSZH 是 29 0 不定型志贺菌痢疾 A03.801 6 BDXZHJ IPGFLA 是 30 1 痢疾(中国的) 4.903 A03.801 7 6 LJ 是 31 0 菌痢混合感染 A03.802 6 JLHHGR AUIWDI 是 32 0 细菌性痢疾 4.901 A03.901 7 6 XJXLJ 是
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值