文本结构化

信息抽取之文本结构化


浅谈如何快速制作一个专业领域的文本结构化工具,可用于非规则自然文本的关键信息快速抽取

前言—电子病历文本结构化

电子病历的文本结构化是指我们从电子病历的自然语言文本中提取出关键内容,如从患者某个影像检查中提取出来 “肿瘤大小”、“肿瘤位置”、“转移部位”等信息,并将其可视化出来。
该任务属于信息抽取(Information extraction)的范畴,主要使用的技术是实体识别和实体关系抽取。

准备数据

公开数据 当前医疗领域已公开的最大规模数据集(CBLUE),旨在推动中文医学NLP技术和社区的发展。读者可以自行申请,很简单的。
个人数据
还可以去丁香园、拇指医生等社区爬取一些“公开的问诊记录”,下图是作者收集到的一批数据,然后使用doccano工具(仅支持标注实体)和 brat工具(支持实体及关系标注)进行标注。
在这里插入图片描述

抽取方法
  • 基于多头选择机制(multi-head selection)的实体关系联合抽取算法,见解读1解读2
    • 假设一句 sentence 存在 A,B,C 三个实体
    • 抽取出 A, B, C 实体后,两两组合送去关系分类器
    • NERLoss + BCELoss 联合训练模型,推测阶段,每对实体大于某种阈值则认为这种关系有效
  • 基于主实体感知的层叠式抽取网络,思路来源于苏神的科学空间,此思路还发表在ACL2020 ,见论文CasRel
基于Web可视化框架 Dash

博主基于第二种抽取方法,在CBLUE中文医学实体关系数据集达到 60.556%的分数,有效队伍天池打榜前8,虽然与第一名有4%的差距…
在这里插入图片描述
然后我们基于该方法进一步将抽取函数封装为 FLASK 接口,搭建了一个简单的可视化页面,如下图所示:

dash2

  • 4
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 6
    评论
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

勤奋的懒猫

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值