机器学习的医学数据

这篇博客整理了多种医学数据集,包括医学影像数据、挑战/比赛数据、电子健康记录(EHR)数据、国家医疗保健数据、UCI数据集、生物医学文献以及医疗语音数据,用于机器学习在医学领域的研究。这些数据集涵盖了各种疾病如自闭症、阿尔茨海默病、结肠癌、肺部疾病等,并提供了多个公开数据库和挑战赛,促进医学成像分析、疾病诊断和治疗的进步。
摘要由CSDN通过智能技术生成

机器学习的医学数据

这是机器学习的医疗数据的策划列表。
此列表仅供参考,请确保您尊重此处列出的任何数据的任何和所有使用限制。

1.医学影像数据

国家医学图书馆提供了
来自13,000名注释患者的53,000张医学图像的MedPix®数据库。需要注册
信息:https//medpix.nlm.nih.gov/home


ABIDE:自闭症脑成像数据交换:对自闭症的内在大脑结构进行大规模评估。
功能MRI图像为539名ASD患者和573名典型对照组。这1112个数据集由结构和静止状态功能MRI数据以及大量的表型信息组成。需要注册
论文:http
//www.ncbi.nlm.nih.gov/pubmed/23774715信息:http//fcon_1000.projects.nitrc.org/indi/abide/
预处理版本:http:// preprocessed-connectomes-project。组织/遵守/


阿尔茨海默氏病神经影像学倡议(ADNI)
关于阿尔茨海默病患者和健康对照的MRI数据库。还有临床,基因组和生物制剂数据。需要注册
论文:http//www.neurology.org/content/74/3/201.short
访问:http//adni.loni.usc.edu/data-samples/access-data/


用于结肠癌的CT Colongraphy(癌症成像档案) 用于诊断结肠癌的CT扫描。包括没有息肉,6-9mm息肉和超过10 mm息肉的患者的数据。访问:https//wiki.cancerimagingarchive.net/display/Public/CT+COLONOGRAPHY#dc149b9170f54aa29e88f1119e25ba3e


用于血管提取的数字视网膜图像(DRIVE)
DRIVE数据库用于对视网膜图像中的血管分割进行比较研究。它由40张照片组成,其中7张显示轻度早期糖尿病视网膜病变的迹象。
论文:https//ieeexplore.ieee.org/document/1282003
访问:http//www.isi.uu.nl/Research/Databases/DRIVE/download.php


AMRG Cardiac Atlas AMRG Cardiac MRI Atlas是奥克兰MRI研究组的西门子Avanto扫描仪获得的正常患者心脏的完整标记MRI图像集。该地图集旨在为大学和学校的学生,MR技师,临床医生提供......

先天性心脏病(CHD)Atlas 先天性心脏病(CHD)Atlas代表成人和患有各种先天性心脏病的儿童的MRI数据集,生理临床数据和计算机模型。这些数据来自包括Rady在内的多个临床中心......

确定 除颤器通过磁共振成像降低风险评估是一项前瞻性,多中心,随机临床试验,用于冠状动脉疾病和轻度至中度左心室功能不全的患者。主要目标......

MESA 动脉粥样硬化多族裔研究是一项大规模心血管人群研究(> 6,500名参与者),在美国的六个中心进行。它的目的是在......之前调查亚临床到临床心血管疾病的表现。


OASIS 开放获取系列成像研究(OASIS)是一个旨在使科学界免费获得大脑MRI数据集的项目。有两个数据集:横截面和纵向集。

  • 年轻,中年,非痴呆和痴呆老年人的横断面MRI数据:该组包括416名年龄在18到96岁之间的受试者的横断面收集。对于每个受试者,在单个中获得3或4个单独的T1加权MRI扫描扫描会话包括在内。受试者都是右撇子,包括男性和女性。包括60岁以上的受试者中的100名已经临床诊断为患有非常轻度至中度的阿尔茨海默氏病(AD)。另外,包括可靠性数据集,其包含在其初始会话的90天内在随后的访问中成像的20个非痴呆的对象。
  • 非痴呆和痴呆老年人的纵向MRI数据:该组包括150名年龄在60到96岁之间的受试者的纵向收集。每个受试者在两次或更多次就诊时扫描,相隔至少一年,总共373次成像。对于每个受试者,包括在单次扫描会话中获得的3或4个单独的T1加权MRI扫描。受试者都是右撇子,包括男性和女性。在整个研究中,72名受试者被表征为非痴呆。所包括的受试者中的64名在其初次就诊时被表征为痴呆,并且对于随后的扫描保持如此,包括51名患有轻度至中度阿尔茨海默病的个体。另外14名受试者在初次就诊时被表征为非痴呆,随后在随后的就诊时表现为痴呆。

访问:http//www.oasis-brains.org/


Isic Archive - Melanoma 这个档案包含23k分类皮肤病变图像。它包含恶性和良性的例子。
每个例子都包含病变的图像,关于病变的元数据(包括分类和分割)和关于患者的元数据。
可以在以下链接中查看数据:https//www.isic-archive.com(在图库部分)
可以通过网站或使用此存储库下载:https
//github.com/GalAvineri/ISIC -archive-下载


SCMR共识数据 SCMR共识数据集是一组15项混合病理学心脏MRI研究(5项健康,6项心肌梗死,2项心力衰竭和2项肥大),这些研究均来自不同的MR机器(4 GE,5 Siemens,6 Philips) )。主要目标......

Sunnybrook心脏数据 Sunnybrook心脏数据(SCD),也称为2009年心脏MR左心室分割挑战数据,包括来自患者和病理混合的45个电影 - MRI图像:健康,肥大,心肌梗塞和心脏衰竭。 ..

访问:http//www.cardiacatlas.org/studies/


肺部图像数据库联盟(LIDC)

初步临床研究表明,肺部的螺旋CT扫描可以改善高危人群肺癌的早期检测。图像处理算法有可能有助于螺旋CT研究中的病变检测,并评估连续CT研究中病变大小的稳定性或变化。使用这种计算机辅助算法可以显着提高螺旋CT肺部筛查的灵敏度和特异性,并通过减少解释所需的医生时间来降低成本。

肺成像数据库联盟(LIDC)倡议的目的是支持一个机构联盟,为螺旋CT肺部图像资源制定共识指南,并构建螺旋CT肺部图像数据库。根据该计划资助的研究人员为数据库使用和开发数据库作为试验台和展示这些方法的指南和指标创建了一套指南和指标。该数据库可通过互联网供研究人员和用户使用,作为研究,教学和培训资源具有广泛的实用性。

具体而言,LIDC倡议旨在提供:

  • 用于图像处理或CAD算法的相对评估的参考数据库
  • 灵活的查询系统,使研究人员有机会评估各种技术参数,并在该数据库中去除可能对研究应用很重要的临床信息。

该资源将为包括癌症筛查,诊断和图像引导干预以及治疗在内的应用程序的图像处理和CAD评估提供进一步的数据库开发。因此,NCI鼓励研究人员发起的资助申请,在他们的研究中利用数据库。NCI还鼓励研究人员发起的拨款申请,提供可改善或补充LIDC使命的工具或方法。

访问:https//wiki.cancerimagingarchive.net/display/Public/LIDC-IDRI#


TCIA收藏

癌症成像数据设置了各种癌症类型(例如癌,肺癌,骨髓瘤)和各种成像方式。癌症成像档案(TCIA)中的图像数据被组织成专门建立的受试者集合。受试者通常具有共同的癌症类型和/或解剖部位(肺,脑等)。下表中的每个链接包含有关集合的科学价值的信息,有关如何获得可用的任何支持非图像数据的信息,以及查看或下载成像数据的链接。为了支持科学研究的可重复性,TCIA支持数字对象标识符(DOI),允许用户共享研究手稿中引用的TCIA数据子集。

访问:http//www.cancerimagingarchive.net/


白俄罗斯结核病门户

结核病(TB)是白俄罗斯公共卫生的一个主要问题。最近,MDR / XDR TB和HIV / TB的出现和发展需要长期治疗。许多和最严重的病例通常在全国各地传播到不同的结核病诊所。通过使用包含患者放射图像,实验室工作和临床数据的通用数据库,将大大提高领导白俄罗斯结核病专家跟踪此类患者的能力。这也将显着提高对治疗方案的依从性,从而更好地记录治疗结果。在门户数据库中纳入临床病例的标准 - 被诊断或怀疑患有耐多药结核病的肺病和结核病RSPC的耐多药结核病科住院患者,

访问:http//tuberculosis.by/


DDSM:用于筛查乳腺摄影的数字数据库

用于筛查乳房摄影的数字数据库(DDSM)是乳房摄影图像分析研究界使用的资源。该项目的主要支持是美国陆军医学研究和装备司令部乳腺癌研究计划的资助。DDSM项目是一项合作项目,涉及马萨诸塞州综合医院(D. Kopans,R。Moore),南佛罗里达大学(K. Bowyer)和桑迪亚国家实验室(P. Kegelmeyer)的合作。华盛顿大学医学院的其他病例由放射学和内科学助理教授医学博士Peter E. Shile提供。其他合作机构包括维克森林大学医学院(医学工程和放射学系),圣心医院和ISMD,Incorporated。该数据库的主要目的是促进计算机算法开发中的合理研究,以帮助筛选。数据库的次要目的可能包括开发算法以帮助诊断和开发教学或培训辅助工具。该数据库包含大约2,500项研究。每项研究包括每个乳房的两个图像,以及一些相关的患者信息(研究时的年龄,ACR乳房密度评级,异常的微妙评级,异常的ACR关键字描述)和图像信息(扫描仪,空间分辨率,...... )。包含可疑区域的图像具有关于可疑区域的位置和类型的像素级“基础事实”信息。

访问:http//marathon.csee.usf.edu/Mammography/Database.html


INbreast:数字乳腺摄影数据库

INbreast数据库是一个乳腺摄影数据库,其图像位于大学医院(医院deSãoJoão,乳房中心,葡萄牙波尔图)的乳房中心。INbreast共有115例(410张图像),其中90例来自两个乳房的女性(每例4张),25例来自乳房切除术患者(每例2张)。包括几种类型的病变(肿块,钙化,不对称和扭曲)。专家制作的精确轮廓也以XML格式提供。

访问:http//medicalresearch.inescporto.pt/breastresearch/index.php/Get_INbreast_Database


mini-MIAS:MIAS MiniMammographic Database

乳房X线摄影图像分析协会(MIAS)是一个英国研究小组的组织,有兴趣了解乳房X线照片并生成数字乳房X线照片数据库。采用英国国家乳房筛查计划的胶片已经数字化为50微米像素边缘,使用Joyce-Loebl扫描微密度计,光学密度范围为0-3.2的线性装置,并用8位字表示每个像素。该数据库包含322个数字化电影,可在2.3GB 8mm(ExaByte)磁带上使用。它还包括放射科医师对可能存在的任何异常位置的“真相”标记。数据库已减少到200微米像素边缘并填充/剪裁,以便所有图像都是1024x1024。

访问:http//peipa.essex.ac.uk/info/mias.html


前列腺

据报道,前列腺癌(CaP)在全球范围内是第二常见的男性癌症,占13.6%(Ferlay等人(2010))。据统计,在2008年,新诊断病例的数量估计为899,000例,其中不少于258例,100例死亡(Ferlay等人(2010年))。

磁共振成像(MRI)提供允许诊断和定位CaP的成像技术。I2CVB提供多参数MRI数据集,以帮助开发计算机辅助检测和诊断(CAD)系统。访问:http//i2cvb.github.io/


访问:http//www.medinfo.cs.ucy.ac.cy/index.php/facilities/32-software/218-datasets

  • 多发性硬化数据库中的MRI病变分割

  • 紧急远程骨科X射线数字图书馆

  • IMT细分

  • 针EMG MUAP时域特征


DICOM图像样本集 这些数据集专门用于研究和教学。您无权重新分发或出售它们,或将它们用于商业目的。

所有这些DICOM文件都以JPEG2000传输语法压缩。

访问:http//www.osirix-viewer.com/resources/dicom-image-library/


SCR数据库:胸部X光片中的分割

胸片中解剖结构的自动分割对于这些图像中的计算机辅助诊断非常重要。已经建立了SCR数据库,以便于对标准后胸部前胸片中肺野,心脏和锁骨的分割进行比较研究。

本着合作科学进步的精神,我们自由地共享SCR数据库,并致力于维护这些分段任务的各种算法结果的公共存储库。在页面上,可以找到有关下载数据库和上传结果的说明,并且可以检查各种方法的基准测试结果。

访问:http//www.isi.uu.nl/Research/Databases/SCR/


医学图像数据库和图书馆

访问:http//www.omnimedicalsearch.com/image_databases.html

一般类别

  • e-Anatomy.org - 解剖学互动地图集 - 电子解剖学是一个解剖学电子学习网站。选择超过1500个来自正常CT和MR检查的切片以覆盖人体的整个断层解剖结构。使用Terminologia Anatomica标记图像。用户友好的界面允许通过多切片图像系列与交互式文本信息,3D模型和解剖图相结合。

  • 医学图片和定义 - 欢迎访问互联网上最大的医学图片和定义数据库。有许多网站提供医疗信息,但很少提供医疗图片。据我们所知,我们是唯一一家为医学图片数据库提供有关每个术语的基本信息的人。编者注:尼斯网站提供免费访问,无需注册1200多种健康和医疗相关图像及定义。

  • Nucleus医学艺术 - 医学插图,医学艺术。包括3D动画。“Nucleus Medical Art,Inc。是医学插图,医疗动画和互动多媒体的领先创建者和分销商,为美国和海外的出版,法律,医疗,娱乐,制药,医疗设备,学术界和其他市场提供服务。注意:很棒的网站。

  • 互联网上的医学图像数据库(UTHSCSA库) - 指向具有主题特定医学相关图像的网站的链接目录。

  • 手术视频 - 国家医学图书馆MedlinePlus系列链接到100和100个不同的外科手术程序。您必须在计算机上安装RealPlayer媒体播放器才能查看这些免费的视频。

  • ADAM医学百科全书与插图。ADAM医学百科全书可能是当今互联网上最佳插图医学着作之一,包括4000多篇关于疾病,测试,症状,伤害和手术的文章。它还包含一个广泛的医学照片和插图库,可以备份这4000篇文章。这些插图和文章对公众免费。

  • Hardin MD - 医学和疾病图片,是爱荷华大学提供了一段时间的免费和已建立的资源。主页采用目录样式,用户必须向下钻取以查找他们要查找的图像,其中许多图像都在异地。尽管如此,Hardin MD仍是通往1,000种详细医学照片和插图的绝佳门户。

  • 健康教育资产图书馆(HEAL) - 网络健康基金会媒体画廊总部设在瑞士的(HON)是一个旨在鼓励道德提供在线健康信息的国际机构。“HONmedia(图片库)是一个独特的存储库,包含超过6,800个医学图像和视频,涉及1,700个主题和主题。这个无与伦比的数据库是由HON手动创建的,新的图像链接不断从世界范围内添加Web.HON鼓励用户通过提交图片链接制作自己的图片链接。“ 图书馆包括解剖图像,疾病和条件和程序的视觉影响。

  • 公共卫生图像图书馆(PHIL)由疾病控制和预防中心(CDC)的一个工作组创建,它为疾病预防控制中心的图片提供了一个有组织的通用电子门户。我们欢迎公共卫生专业人员,媒体,实验室科学家,教育工作者,学生和全世界公众使用这些材料作为参考,教学,演示和公共卫生信息。内容被组织成人,地点和科学的分层类别,并且被呈现为单个图像,图像集和多媒体文件。

  • 来自医学史的图像 - 该系统可以访问美国国家医学图书馆(NLM)医学史(HMD)的版画和照片集中的近60,000张图像。该系列包括各种媒体的肖像,机构图片,漫画,流派场景和图形艺术,展示了医学的社会和历史方面。

  • Pozemedicale.org - 收集西班牙语,意大利语,葡萄牙语和意大利语的医学图像。

  • 旧医学图片:从19世纪末20世纪初开始,数以百计的迷人而有趣的古老而高质量的照片和图像。

学科专业图像库和馆藏

  • 亨利·格雷对人体的剖析 - “灰色人体解剖学”的Bartleby.com版本以经典的1918年出版物为特色,展示了1,247种充满活力的彩色雕刻品。

  • 克鲁克斯顿收藏馆 - 约翰·H·克鲁克斯顿博士拍摄的一系列医疗载玻片,已经数字化,可供公众和医生使用。

  • DAVE项目 - 一个可搜索的胃肠道内窥镜视频剪辑库,涵盖广谱内窥镜成像。

  • Dermnet - 超过8,000种高品质皮肤病图像的可浏览系列。

  • 交互式皮肤病学图谱 - 常见和罕见皮肤问题的图像参考源。

  • 多维人类胚胎是由国家儿童健康与人类发展研究所(NICHD)资助的一项合作,通过互联网提供基于磁共振成像的人类胚胎的三维图像参考。

  • GastroLab内窥镜检查档案于1996年启动,其目标是为所有感兴趣的医疗保健人员免费使用内窥镜图像库。

  • MedPix是放射学和医学图片数据库的资源工具。主页界面令人困惑,整个网站设计不是用户友好的,并且具有20世纪90年代中期的感觉。但是,如果你有时间(耐心),它可能被证明是一些重要的资源。

  • OBGYN.net图片库 - 该网站致力于提供对女性健康感兴趣的图像的访问。除了为您提供访问OBGYN.net图像的权限之外,我们还在互联网上指出其他女性健康相关图像。由于材料的图形性质,一些人可能不愿意查看这些图像。它们仅用于教育目的。


威盛集团公共数据库

记录的图像数据库对于定量图像分析工具的开发至关重要,特别是对于计算机辅助诊断(CAD)的任务。我们与I-ELCAP小组合作建立了两个公共图像数据库,其中包含DICOM格式的肺部CT图像以及放射科医师的异常记录。请访问以下链接了解更多详情:

访问:http//www.via.cornell.edu/databases/


CVonline:图像数据库 访问:http//homepages.inf.ed.ac.uk/rbf/CVonline/Imagedbase.htm


USC-SIPI图像数据库 USC-SIPI图像数据库是数字化图像的集合。它主要用于支持图像处理,图像分析和机器视觉方面的研究。USC-SIPI图像数据库的第一版于1977年发布,此后又添加了许多新图像。

数据库根据图片的基本特征分为卷。每个体积中的图像具有各种尺寸,例如256×256像素,512×512像素或1024×1024像素。所有图像对于黑白图像是8位/像素,对于彩色图像是24位/像素。目前提供以下卷:

Textures 	Brodatz textures, texture mosaics, etc.
Aerials 	High altitude aerial images
Miscellaneous 	Lena, the mandrill, and other favorites
Sequences 	Moving head, fly-overs, moving vehicles

访问:http//sipi.usc.edu/database/


组织学数据集:不同染色切片的图像配准

该数据集由2D组织学显微镜组织切片组成,用不同的染色剂染色,并且标志物表示每个切片中的关键点。任务是图像配准 - 将特定图像集(连续污点切割)中的所有切片对齐在一起,例如对准初始图像平面。这些图像的主要挑战如下:非常大的图像尺寸,外观差异以及缺乏独特的外观对象。该数据集包含108个图像对和手动放置的标记,用于登记质量评估。

访问:http//cmp.felk.cvut.cz/~borovji3/?page = datatt


2.挑战/比赛数据

放射学中的视觉概念提取挑战 从几种不同的成像模式(例如CT和MR)手动注释几种解剖结构(例如肾,肺,膀胱等)的放射学数据。它们还提供了一个云计算实例,任何人都可以使用它来根据基准开发和评估模型。

访问:http//www.visceral.eu/


生物医学图像分析的重大挑战

一系列生物医学成像挑战,通过标准化评估标准,促进新解决方案与现有解决方案之间的更好比较。您也可以创建自己的挑战。在撰写本文时,有92个挑战提供可下载的数据集。

访问:http//www.grand-challenge.org/


梦想挑战

DREAM挑战提出了关于系统生物学和转化医学的基本问题。由来自各种组织的研究人员社区设计和运营,我们的挑战邀请参与者提出解决方案 - 在此过程中促进协作和建立社区。Sage Bionetworks提供专业知识和机构支持,以及通过其Synapse平台应对挑战的基础设施。我们共同拥有一个愿景,允许个人和团体公开合作,使“人群的智慧”对科学和人类健康产生最大的影响。

  • 数字乳房X线摄影术梦想挑战。
  • ICGC-TCGA DREAM体细胞突变调用RNA挑战(SMC-RNA)
  • DREAM Idea挑战赛
  • 这些是添加时的积极挑战,还有更多过去的挑战和即将到来的挑战!

访问:http//dreamchallenges.org/


Kaggle糖尿病视网膜病变

高分辨率视网膜图像,由临床医生按0-4严重等级注释,用于检测糖尿病视网膜病变。该数据集是完成的Kaggle竞赛的一部分,该竞赛通常是公开数据集的重要来源。

访问:https//www.kaggle.com/c/diabetic-retinopathy-detection


宫颈癌筛查

在这场讨价还价的比赛中,您将开发算法,根据宫颈图像正确分类子宫颈类型。我们数据集中的这些不同类型的子宫颈都被认为是正常的(非癌症),但由于转化区并不总是可见的,因此一些患者需要进一步检测,而有些患者则不需要。

访问:https//www.kaggle.com/c/intel-mobileodt-cervical-cancer-screening/data


多发性硬化病变分割

挑战2008年。一组脑MRI扫描检测MS病变。

访问:http//www.ia.unc.edu/MSseg/


多模式脑肿瘤分割挑战

脑肿瘤磁共振扫描的大数据集。自2012年以来,他们每年都在扩展这一数据集并进行挑战。

访问:http//braintumorsegmentation.org/


Coding4Cancer

美国国立卫生研究院和Sage Bionetworks基金会的一项新举措,旨在应对一系列改善癌症筛查的挑战。第一个是数字乳房X线摄影读数。第二个是肺癌检测。尚未启动挑战。

访问:http//coding4cancer.org/


脑电图挑战数据集在Kaggle上

  • 墨尔本大学AES / MathWorks / NIH癫痫发作预测 - 预测长期人类颅内脑电图记录中的癫痫发作

访问:https//www.kaggle.com/c/melbourne-university-seizure-prediction

  • 美国癫痫学会癫痫发作预测挑战 - 预测颅内脑电图记录中的癫痫发作

访问:https//www.kaggle.com/c/seizure-prediction

  • UPenn和梅奥诊所的癫痫发作检测挑战 - 检测颅内脑电图记录中的癫痫发作

访问:https//www.kaggle.com/c/seizure-detection

  • 掌握和提升脑电图检测 - 识别脑电图记录的手部动作

访问:https//www.kaggle.com/c/grasp-and-lift-eeg-detection


MICCAI会议面临挑战

医学图像计算与计算机辅助干预。大多数挑战都会被盛大挑战等网站所覆盖。您仍然可以在会议网站的“卫星活动”标签下看到所有这些挑战。

访问:http//www.miccai.org/ConferenceHistory


国际生物医学成像研讨会(ISBI)

IEEE国际生物医学成像研讨会(ISBI)是一个科学会议,致力于生物医学成像的数学,算法和计算方面,涵盖所有观察范围。大多数挑战将列入重大挑战。您仍然可以访问每年网站“计划”下的“挑战”标签来访问它。

访问:http//biomedicalimaging.org


连续注册挑战(CRC)

连续注册挑战(CRC)是受现代软件开发实践启发的肺和脑图像注册的挑战。参与者使用开源SuperElastix C ++ API实现他们的算法。挑战集中于肺和脑的成对登记,这是临床环境中经常遇到的两个问题。他们收集了7个开放访问数据集和一个私有数据集(3 + 1肺数据集,4个脑数据集)。挑战结果将在即将举行的生物医学图像注册研讨会(WBIR 2018)上进行介绍和讨论。

访问:https//continuousregistration.grand-challenge.org/home/


使用MURA进行骨骼X射线深度学习比赛

MURA(肌肉骨骼X线片)是骨骼X射线的大型数据集。斯坦福大学集团和AIMI中心正在举办一项竞赛,其中算法的任务是确定X射线研究是正常还是异常。该算法在207项肌肉骨骼研究的测试集上进行评估,其中每项研究由6名经过委员会认证的放射科医师单独回顾性标记为正常或异常。其中三位放射科医师用于创建金标准,定义为放射科医师标签的多数投票,另外三位用于获得最佳放射科医师表现,定义为三位放射科医师的最高得分金标准作为事实。挑战排行榜是公开托管的,每两周更新一次。

访问:https//stanfordmlgroup.github.io/competitions/mura/


3.来自电子健康记录(EHR)的数据

从数百万临床叙述中构建医学图表
从1400万临床记录和260,000名患者中提取医学术语的共现统计数据。
论文:http//www.nature.com/articles/sdata201432
数据:http//datadryad.org/resource/doi : 10.5061/dryad.jp917


学习医学概念的
维表示使用索赔数据构建的医学概念的低维嵌入。请注意,本文利用来自数百万临床叙述的医学图表中的数据。
纸张:http//cs.nyu.edu/~dsontag/papers/ChoiChiuSontag_AMIA_CRI16.pdf
数据:https//github.com/clinicalml/embeddings


MIMIC-III,一个可自由访问的重症监护
数据库,38,597名患者的匿名重症监护EHR数据库和53,423名ICU入院患者。需要注册
论文:http//www.nature.com/articles/sdata201635
数据:http//physionet.org/physiobank/database/mimic3cdb/


从医学大规模数据的人士处获悉临床概念曲面嵌入
曲面嵌入为108477个医学概念60万名患者,170万篇期刊论文,以及20万名患者的临床笔记了解到
纸业:https://arxiv.org/abs/1804.01486
曲面嵌入:   HTTPS: //figshare.com/s/00d69861786cd0156d81
互动工具:http//cui2vec.dbmi.hms.harvard.edu


4.国家医疗保健数据

疾病控制和预防中心(CDC)
CDC在许多领域的数据,包括:

  • 生物监测
  • 儿童接种疫苗
  • 流感疫苗接种
  • 卫生统计
  • 伤害和暴力
  • MMWR
  • 摩托车
  • NCHS
  • NNDSS
  • 怀孕和接种疫苗
  • 性病
  • 吸烟和烟草使用
  • 青少年接种疫苗
  • 创伤性脑损伤
  • 接种疫苗
  • Web度量标准

着陆页:https//data.cdc.gov
数据目录:https//data.cdc.gov/browse



来自医疗保健和医疗补助服务中心(CMS)的医疗保险数据数据,用于医院,疗养院,医生,家庭医疗保健,透析和设备提供商。
着陆页:https//data.medicare.gov
资源管理器:https//data.medicare.gov/data


德克萨斯州公共使用住院患者数据文件 数据,包括2006年至2009年德克萨斯州诊断,程序代码和结果的1100万住院患者就诊情况。

链接:https//www.dshs.texas.gov/thcic/hospitals/Inpatientpudf.shtm


医生美元
公共调查制药公司向医生支付的款项。
信息:https//www.propublica.org/series/dollars-for-docs
搜索工具:https//projects.propublica.org/docdollars/
数据请求:https//projects.propublica.org/data-store /套/健康D4D -国家- 2


DocGraph Physician交互网络通过信息自由行为获得请求。涵盖近100万个实体。
主页:http//www.docgraph.com
信息:http//thehealthcareblog.com/blog/2012/11/05/tracking-the-social-doctor-opening-up-physician-referral-data-and-更多/
数据:http//linea.docgraph.org


5. UCI数据集

肝脏疾病数据集
数据包括345例有和无肝病的患者。特征是被认为与肝脏疾病有关的5种血液生物标志物。
数据:https//archive.ics.uci.edu/ml/datasets/Liver+Disorders

甲状腺疾病数据集
数据:https//archive.ics.uci.edu/ml/datasets/Thyroid+Disease

乳腺癌数据集
数据:https//archive.ics.uci.edu/ml/datasets/Breast+Cancer

心脏病数据集
数据:https//archive.ics.uci.edu/ml/datasets/Heart+Disease

淋巴造影数据集
数据:https//archive.ics.uci.edu/ml/datasets/Lymphography

Parkinsons数据集
数据:https//archive.ics.uci.edu/ml/datasets/parkinsons

Parkinsons远程监控数据集
数据:https//archive.ics.uci.edu/ml/datasets/Parkinsons+Telemonitoring

帕金森语音数据集与多种类型的录音数据集
数据:https//archive.ics.uci.edu/ml/datasets/Parkinson+Speech+Dataset+with++Multiple+Types+of+Sound+Recordings

帕金森病分类数据集
数据:https//archive.ics.uci.edu/ml/datasets/Parkinson%27s+Disease+Classification

6.生物医学文献

PMC Open Access子集
Pubmed中心的所有全文,开放访问文章的集合。
信息:http:
//www.ncbi.nlm.nih.gov/pmc/tools/openftlist/存档文件:http//www.ncbi.nlm.nih.gov/pmc/tools/ftp/#Data_Mining

PubMed 200k RCT

收集随机对照试验(RCTs)的公开摘要。可以使用摘要中每个句子的注释。

论文:https//arxiv.org/abs/1710.06071

数据:https//github.com/Franck-Dernoncourt/pubmed-rct

PubMed文章的Web API

NLM还提供了用于访问PubMed中生物医学文献的Web API。

获取PubMed文章的说明:https//www.ncbi.nlm.nih.gov/research/bionlp/APIs/BioC-PubMed/(不是全文,只是标题,摘要等)

对于PubMed Central中的文章,获取整篇文章的说明:https//www.ncbi.nlm.nih.gov/research/bionlp/APIs/BioC-PMC/

6. TREC精准医学/临床决策支持轨道

文本检索会议(TREC)从2014年起开始实施精准医学/临床决策支持。

2014临床决策支持跟踪
焦点:检索与回答医疗记录的一般临床问题相关的生物医学文章。
信息和数据:http//www.trec-cds.org/2014.html

2015年临床决策支持跟踪
焦点:检索与回答有关医疗记录的一般临床问题相关的生物医学文章。
信息和数据:http//www.trec-cds.org/2015.html

2016年临床决策支持跟踪
重点:检索与回答医疗记录的一般临床问题相关的生物医学文章。使用实际电子健康记录(EHR)患者记录代替合成病例。
信息和数据:http//www.trec-cds.org/2016.html

2017年临床决策支持跟踪
焦点:向治疗癌症患者的临床医生检索有用的精确医学相关信息。
信息和数据:http//www.trec-cds.org/2017.html

7.医疗语音数据

TORGO数据库:来自构音障碍
发言者的声学和发音演讲 TORGO 发音障碍的数据库包括对齐的声学和测量的3D发音特征来自扬声器的脑瘫(CP)或肌萎缩侧索硬化症(ALS),这是两个最常见的语言障碍的普遍原因(Kent和Rosen,2004)和匹配的控制。这个名为TORGO的数据库是多伦多大学计算机科学和语言病理学系与多伦多Holland-Bloorview儿童康复医院合作的结果。

信息和数据:http//www.cs.toronto.edu/~complingweb/data/TORGO/torgo.html

论文:链接


NKI-CCRT语料库:伴随放化疗治疗晚期头颈癌之前和之后的语言清晰度。
NKI-CCRT语料库与个人听众对55名因头部和颈部癌症治疗的发言者的录音清晰度的判断将被限制科学使用。语料库包含三个评估时刻的语音清晰度的记录和感知评估:治疗前和治疗后(10周和12个月)。通过化学放射疗法(CCRT)进行治疗。

论文:http//lrec.elra.info/proceedings/lrec2012/pdf/230_Paper.pdf

访问:联系作者。


非典型影响Interspeech次挑战

BjörnSchuller,Simone Hantke及其同事正在提供EMOTASS语料库。这种独特的语料库是第一个提供来自残疾人的情感语音录音的录音,其中包括更广泛的精神,神经和身体残疾。它包括15名残疾成年人的录音(年龄范围为19至58岁,平均年龄为31.6岁)。任务将是面对非典型展示的五种情绪的分类。录音是在日常工作环境中进行的。总体而言,包括大约11k的话语和大约9个小时的演讲。

论文:http//emotion-research.net/sigs/speech-sig/is2018_compare.pdf

链接:http//emotion-research.net/sigs/speech-sig/is18-compare


自闭症子挑战

自闭症子挑战基于“儿童病理语音数据库”(CPSD)。它提供了位于法国巴黎的两所大学儿童和青少年精神病学系(大学Pierre et Marie Curie / Pitie Salpetiere医院和Universite Rene Descartes / Necker医院)的录音。Sub-Challenge中使用的数据集包含来自99名6至18岁儿童的2.5 k语音录音实例

论文:http//emotion-research.net/sigs/speech-sig/is2013_compare.pdf

链接:http//emotion-research.net/sigs/speech-sig/is13-compare

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值