P4:4. Risk Stratification, Part 1 - 大佬的迷弟的粉丝 - BV1oa411c7eD
今天我们将讨论风险分层,在给你一个关于我所说的风险分层的广泛概述之后,我要给你们一个案例研究,你在阅读中读到过,今天的讲座,来自二型糖尿病的早期发现,我也不会,当然,重复你在阅读中听到的相同的材料。
相反,我会给周围一些有趣的颜色,作为机器学习的人,我们需要思考哪些问题,当我们试图将机器学习应用于这样的问题时,然后我将谈谈一些微妙之处,机器学习会出什么问题,基于风险分级的方法,最后。
今天演讲的后半部分将是一个讨论,下午三点左右,你会看到一个男人走进门,他叫伦纳德·德沃利奥,他是布里格姆妇女医院的教授,他还有一家名为Sift的创业公司,它现在正在应用风险分层,他们有很多客户。
他们对如何让这些东西发挥作用的细节非常深入,所以我们将在我和他之间进行一次采访,我们也将有机会让你们所有人提出问题,我想这就是我所希望的,今天讲座中最激动人心的部分,然后超越今天的讲座。
我们现在正处于一系列三节课的开始,这些课的主题非常相似,下周四我们将讨论生存模特,你可以把它看作是今天讲座的延伸,讨论如果数据有定心,应该怎么做,我很快就会给你定义的,虽然今天的讲座会更高水平一点。
下星期四的课是我们要讲的内容,真正开始进入数学细节,关于如何用删失数据解决机器学习问题,接下来的课程是关于生理数据的,这个讲座也将更具技术性,那么什么是高水平的风险分层。
你认为风险分层是吸收病人群体的一种方式,把你所有的病人分成两个或更多的类别,高危患者,低风险患者,也许病人在中间的某个地方,现在,我们可能想做风险分层的原因是,因为我们通常想尝试根据这些预测采取行动。
所以目标通常是将这些预测与已知的干预措施相结合,所以说,比如说,高危人群中的患者,我们会试着为这些病人做些什么来防止任何他们感兴趣的结果,防止发生,现在危险分层与诊断有很大不同,诊断经常有非常嗯。
非常严格的业绩标准,如果你误诊了可能会产生非常严重的后果,就接受治疗的病人而言,他们不需要治疗的情况,病人死亡是因为他们,现在风险分层,你认为本质上更模糊一点。
我们想尽我们最大的努力把病人推到这些类别中的每一个,高风险,低风险,等等,正如我将在今天的讲座中向你们展示的那样,我们通常关心的性能特征会有点不同,我们要多看一点,在正预测值等数量上。
我们是否发现了我们所说的高风险患者,他们中的哪一部分实际上是高风险的,在这方面,它与诊断有点不同,也是因为目标不同,在风险分层中使用的数据往往非常不同,我们经常使用非常多样化的数据,嗯。
所以你可能会带来一个病人的多个视图,您可以使用辅助数据,例如病人的人口统计,甚至可能是病人的社会经济信息,所有这些都极大地影响了他们的风险状况,但不得用于对病人的无偏见诊断。
风险分层在很大程度上是为了降低美国医疗保健环境的成本,所以我会给你们几个风险分层的例子。
其中一些以成本为主要目标,其他没有的,第一个例子,是预测婴儿患严重疾病的风险,这是早产儿,我的侄女,比如说,早产三个月,对我妹妹和我全家来说都很可怕,早产患者的结局在过去的几年里发生了巨大的变化。
在上个世纪,现在早产三个月的病人,就像我的侄女一样可以活下来并且在长期结果方面做得很好,但在许多不同的发明中,这些发明导致了这些改善的结果,他们中的一个非常了解一个特定的婴儿可能有多危险。
所以一个用来描述风险的非常常见的分数,早产儿,一般来说,被称为阿普加分数,例如,当我儿子出生的时候,我真的很兴奋,当我儿子出生几秒钟后,护士拿出一张纸,计算阿普加评分,就像,哦,我研究得很有趣,对呀。
然后我又回到了我必须做的其他事情上,但这个分数实际上并不像它可能的那样准确,我们将讨论这篇论文,实际上在一周半的时间里,是约翰大学的教授,霍普金斯,它研究了如何使用基于机器学习的方法。
真正提高我们预测婴儿发病率的能力。
我从今天的读数中提取的另一个例子,今天的讲座,与入院的病人有关,对于带着心脏来到急诊科的病人来说,患有心脏相关疾病,试着理解,他们需要住进冠状动脉吗,还是让病人回家由他们的主治医生管理。
或者他们在医院外的心脏病专家,那张纸你们可能都注意到了那是1984年的对吧,所以这不是一个新概念。
而且,如果你看看他们在这项研究中使用的数据量,有两千多个病人,它们有大量的变量,50多个变量,他们使用了一种非平凡的机器学习算法,他们使用了逻辑回归,内置了特征选择,以防止自己过度拟合数据。
目标是以成本为导向的,所以前提是如果一个人能很快决定,这些刚来急诊室的病人风险并不高,我们可以送他们回家,然后呢,我们将能够大幅度降低成本。与那些进入冠状动脉监护室的人有关,我现在要举的最后一个例子。
是预测再住院的可能性,所以这在美国引起了很大的关注,过去几年的医疗保健空间,因为美国政府对医院实施的处罚,他们有大量出院的病人,然后在接下来的30天内重新入院,这是向基于价值的护理过渡的一部分。
皮特在以前的讲座中提到过,所以前提是有很多病人住院,但在出院时或出院后没有得到适当管理,比如说,也许这个有心脏病的病人,我真的不清楚他们回家后应该做什么,比如说,他们应该服用什么药物。
他们应该什么时候去看心脏病专家,他们应该注意哪些警告信号,他们应该回到医院或者打电话给他们的医生,由于沟通不畅,据推测,这些糟糕的结果可能会发生,所以如果我们能找出哪些病人可能会再次入院。
然后我们可以改变方式,如果我们能做到这一点,如果我们能预测当病人还在医院的时候,然后我们可以改变放电的方式,比如说,我们可以发送,我们可以派一个护士或社会工作者去和病人谈谈,慢慢地通过出院说明。
可能在病人出院后,在接下来的几周里,可以让护士在病人家里随访,通过这种方式,希望减少重新接纳的可能性,所以在高水平上,有旧的对新的,这将是一个真正的讨论,在今天剩下的课程中。
自从1984年的那篇文章以来发生了什么变化,你在今天的阅读中读到了,嗯,传统的风险分层方法是基于评分系统,几分钟前我跟你说过,Apgar评分系统如图所示,对于这些不同的标准,你会说,活动脉冲,鬼脸。
外观,呼吸,你看着孩子,你说好,没有活动,或者他们很活跃,运动,外表可能是苍白或蓝色的,这将得到零分或完全粉红色对两个点,对于这些答案中的每一个,你把相应的点相加,所以你得到的总分,你看这里,你说。
好的,嗯,如果你有零到三个点,工资有风险,那是有严重风险的,如果他们有7到10分,然后页面然后婴儿是低风险的,有数百种这样的评分规则这些规则都是通过研究非常仔细地推导出来的,和你今天读到的没有什么不同。
实际上在今天的医疗保健系统中被广泛使用,在过去的五年和十年里,时代发生了相当迅速的变化,现在大多数行业正在走向机器学习,基于方法,可以处理更高维的特征集,并解决这些早期方法的一些关键挑战。
这也许是最重要的方面,它们可以更容易地适应临床工作流,所以我之前给你看的分数通常是手工完成的,所以一个人必须考虑做配乐,人们必须弄清楚相应的输入是什么,结果往往不是你,它们没有像应该的那样频繁地被使用。
新的机器学习方法可以获得更高的精度,可能是因为他们能够使用比传统方法更多的功能,最后,他们可以更快地驾驶,所以所有传统的评分系统都有很长的研发过程,导致他们被采纳,首先你收集数据,然后你建立模型。
然后你发送检查模型,然后你在一家医院做评估,然后你在很多医院做一个透视评估,现在每一步都需要很多时间,通过这些基于机器学习的方法,它增加了一个研究助理坐在医院里的可能性,或者在计算机科学系,说哦。
我认为推导出,导出这道题的分数,你收集可用的数据,你应用你的机器学习算法,即使,或者很少发生的结果,如果您可以访问足够大的数据集,你将能够得到足够的样本来实际预测,非常狭窄的结果,因此。
它真的打开了重新思考,可以使用风险分层的方式,但结果也带来了新的危险,我们将在今天的课上讨论其中的一些,我们将在下周四的课上继续讨论这些,所以这些模型正在被广泛商业化,这里只是许多公司中的一个例子。
这些公司正在构建风险分层工具,这是Optum的,我在这里向你们展示的是他们的一个模型的输出,它预测与鳕鱼相关的住院率,所以你会看到它,这是一个人口级别的视图,所以对于医院感兴趣的所有病人。
他们会用其中一个分数给病人打分,我之前给你看过了,手动的,或者是基于机器学习的模型,它们将被归入这些不同的类别中的一个,取决于风险水平,然后可以挖得更深,例如,你可以点击其中一个桶,试着看看。
谁是风险最高的病人,对这些病人的健康有哪些潜在的影响,我给你看一个稍微不同的问题,预测高危糖尿病患者,你看,对于每个病人,我们列出了1C测试的数量,最后一次A一C测试的值,数据被执行。
这样你就可以注意到,哦嗯,这个病人患糖尿病的风险很高,但是你看,他们没有跟踪他们的A C,他们患有未控制的糖尿病,也许我们需要把他们送进诊所,去验血,看看他们是否需要改变药物等等,所以通过这种方式。
我们可以对患者群体进行分层,并思考可以为他们中的这一子集做的干预,所以我现在要进入一个早期发现2型糖尿病的案例研究。
那个,这个问题之所以重要,是因为据估计有二十个,美国未确诊的2型糖尿病患者的5%,这个数字和国际上许多其他国家一样大,所以如果我们能找到目前患有糖尿病的患者,或者将来有可能患糖尿病。
然后我们可以尝试影响他们。
所以说,比如说,我们可以开发新的干预措施,可以防止这些患者在糖尿病进展中恶化,比如说,减肥计划或让患者接受二甲双胍等一线糖尿病治疗,我今天要讲的关键问题是,你如何发现高危人群。
所以传统的方法和阿普加评分很相似,根据这里的分数,这是芬兰使用的评分系统,它提出了一系列的问题,并与每个答案相关联,病人的年龄是多少?他们的体重指数是多少?他们吃蔬菜吗,水果,他们有没有,抗高血压。
高血压药物等,你得到最后的分数,低于七分之一的人患糖尿病的风险,二型糖尿病高于二十岁是非常高的风险,在接下来的十年里,每两个人中就有一个人会患上二型糖尿病,但正如我提到的。
这些分数并没有产生我们所希望的影响,和,原因真的是因为它们还没有真正被使用过,几乎和他们应该的一样多,所以我们要考虑的是,我们能改变风险分层的方式吗,而不是必须是什么,当你想做的时候,这是手动做的。
我们现在就可以,全人口,我们可以,比如说,从健康保险公司获得的数据,使用机器学习,也许我们无法访问我之前给你展示的所有功能,就像,也许我们不知道病人的体重,但我们将在我们所做的数据上使用机器学习。
我们必须努力寻找那些我们没有的东西的其他替代品,这可能预测糖尿病风险,然后我们可以在幕后自动地为数百万不同的病人应用它,寻找高危人群并对这些患者进行干预,顺便说一句,我今天要讲的工作是,在过去的几年里。
我实验室的研究中真正产生的工作。
所以这是一个回到涉众集的示例,我们在第一节课中谈到的,这是在付款人级别进行风险分层的一个例子。
所以用于这个问题的数据是管理数据,你通常在健康保险公司找到的数据,所以我在这里给你看,一个病人的时间表,以及您希望在不同时间内为该患者提供的数据类型,你穿红衣服,它显示了他们的资格记录。
你知道他们什么时候参加了健康保险,这真的很重要,因为如果他们在某个月没有参加健康保险,那么缺乏那个病人的数据并不是因为什么都没发生,这是因为我们只是没有看到它,它不见了绿色,我在看医疗索赔。
与皮特上周谈到的诊断代码有关,程序代码,CPT代码,我们知道专家是什么,病人去看,就像心脏病专家,初级保健医生,等等,我们知道服务是在哪里进行的,我们知道它是什么时候表演的。
然后从药房我们可以获得左上角所示的药物记录,在上面我们知道医生开了什么药,我们有一个它编码到NDC代码,国家药物法规,皮特上周二又谈到了那件事,我们知道天数,药物供应,仍然可用的笔芯数量等等。
我们现在终于可以进行实验室测试了,传统上健康保险公司只知道进行了什么测试,因为他们必须为进行测试付费。
但是越来越多的健康保险公司正在与,像Quest和LabCorps这样的公司实际上获得了访问,也对那些实验室测试的结果,在我今天要告诉你们的数据集中,我们实际上也有实验室测试结果。
那么这些因素对这个群体来说是什么,这个人口来自费城,哎呀这么,如果我们看看顶级诊断代码,比如说,我们将看到十三万五千个有实验室数据的病人,有超过四十万种不同的高血压诊断代码,你会注意到这比人数还要多。
那是因为它们在时间上发生了多次,你会注意到这里实际上有很多有趣的细节,即使在诊断代码中,你会发现听起来更像是疲劳之类的症状,在这边,或者你看,哦,你有许多情况下的程序记录,就像他们接种了流感疫苗。
这里有另一个例子,这只是告诉你一些关于这个群体中实验室任务的广泛统计数据,肝酶都是最受欢迎的实验室测试,这并不奇怪,因为通常有一个叫做CBC面板的面板,这就是你在年度体检中会得到的。
它有许多顶级的实验室测试结果,但当你往下看尾巴的时候,还有许多其他实验室测试结果在性质上更专业,比如说,血红蛋白a,用于跟踪大约三个月的平均血糖,并用于了解患者的糖尿病状况。
这只是为了让你了解幕后的数据是什么,现在让我们想想我们如何真正派生,我们如何解决,我们如何将这个风险分层问题表述为机器学习问题,好今天,我将给你一个如何把它表述为机器学习问题的例子,但在周二的讲座中。
我会告诉你其他几种方法,这里我们要考虑二进制分类的简化,我们要问,我们要回到过去,我们要假装现在是1月1日,两千零九年,我们要说,假设我们在每个病人身上运行了这个风险分层算法,一月一日,两千零九年。
我们将从过去的数据中构造特征,所以这几年,但我们要预测一些关于未来的事情,你可以尝试预测未来的许多事情,我在这里向你们展示三种不同的预测任务,对应不同的缝隙,0年的差距,一年的间隔,和两年的间隔。
对于其中的每一个,它问,在那个预测窗口里,病人会新发展成二型糖尿病吗,例如,对于这个预测任务,我们将排除患有二型糖尿病的患者,在2000年到2009年到2011年之间,我们只会被认为是积极的。
2000年至2011年间新诊断为二型糖尿病的患者,和二千零一十三,和,你可能想在模型中包括一个缺口的原因之一是因为通常,有标签泄漏,通常情况下,临床医生可能有一个非常好的想法,病人可能是糖尿病患者。
但它还没有以我们的算法可以提取的方式编码,所以在2009年,在一月份,一千二百零九,初级保健医生,比如说,因为病人可能很清楚这个病人是糖尿病患者,可能已经在做基于它的干预,但我们的算法不知道。
所以那个病人,因为数据中存在的信号,将在我们的预测列表中名列前茅,我们会说这个病人是你应该去找的人,但那真的不是一个有趣的病人,因为临床医生可能已经在做与病人相关的干预措施。
而是我们想找到那些糖尿病可能更出乎意料的病人,所以这是真正出现的微妙之处之一,当您尝试使用回顾性临床数据来导出标签时,在机器学习中用于风险分层,所以在结果中我会告诉你,我要利用一年的空档。
另一个问题是数据被高度审查,所以我所说的审查是什么意思,我们经常不能充分了解,病人的数据,比如说,病人可能是在2013年才加入健康保险的,所以1999年1月,我们没有关于他们的数据。
他们甚至根本不存在于系统中,所以有两种类型的审查,一种类型的审查称为左审查,这意味着当我们没有左边的数据时,比如说,在特征构造窗口中,另一种类型的审查称为右审查,它的意思是。
这意味着当我们没有病人的数据时,在那个时间线的右边,对于我们工作中的每一个,我们用不同的方式处理它,我们会处理的,我们会说好,我们对病人的数据可能有限,但我们将使用数据,过去两年的任何数据。
为了做出我们的预测,对于可用数据较少的患者,那很好,我们有一个更稀疏的特征向量来进行正确的审查,在这种二进制还原中处理有点挑战性,因为如果你不知道标签是什么,它真的很难在里面使用,比如说。
周二讲座中的有监督机器学习方法,我会谈谈处理权利的方法,今天讲座中的审查,我们要忽略它,我们忽略它的方式,是通过改变纳入和排除标准,我们将排除不知道标签的病人,明确地说,这可能真的有问题,例如。
如果你回到这张照片,想象一下我们在这种情况下,想象我们如果一个病人,如果我们只有一个病人的数据,我们将它们从数据集中删除,好的,因为我们没有完全的能见度,到二千零一万到二千零一十二的时间窗口,好吧。
假设,就在病人将从数据集中删除的前一天,嗯,就在,数据啊为病人消失是因为,比如说,他们可能会改变健康保险公司,他们被诊断患有二型糖尿病,也许他们改变健康保险公司的原因与他们有关,被诊断患有二型糖尿病。
我们已经把那个病人排除在人群之外了,我们现在可能真的偏向了模型的结果,带走了一整套人口,这个模型在应用中非常重要,所以想想你是如何真正做到这一点的,排斥,以及这如何改变模型的通用性。
是你应该放在心上的事情,所以那篇论文中使用的机器学习算法,你读过的是一个正则回归,使用Lone常客的原因之一,Logistic回归是因为它提供了一种使用高维特征集的方法,但同时它允许人们进行特征选择。
所以我会更详细地说明这一点,就在一瞬间,i,想象一下你们大多数人都很抱歉,你们都应该熟悉制定机器学习的想法,作为一个优化问题,在这里你有一些损失函数,你有一些正则化术语,在本例中,w是线性模型的权重。
我们正在努力学习,对于那些以前见过支持向量机的人来说,支持向量机将使用所谓的L二正则化,我们将对权重向量的L 2范数进行惩罚,相反,我们在这篇论文中所做的是,我们使用了l-1正则化。
所以这个惩罚在这里定义,它在总结特征,它看的是重量的绝对值,每个,对于每个重量,把这些总结起来,所以说,一个正则化的原因之一,所谓的稀疏利益可以用这张图片来解释,所以这只是一个素描的演示。
假设我们试图解决这个优化问题,所以这是你的损失函数的级别集,它是一个二次函数,假设,而不是把正则化作为优化问题的第二项,相反,你应该施加约束,所以你可能会说我们要把损失降到最低。
以你的体重矢量小于3的L1范数为条件,嗯,那么我在这里向你们展示的是重量空间,所以我给你看两个维度,这个x轴是权重1,这个y轴是重量二,如果你把一个lone约束,比如说。
你说过权重一和权重二的绝对值之和,必须等于一,那么解空间必须沿着这个菱形,另一方面,如果你在前面放一个L 2,如果你在权重矩阵上加一个L2约束,在你的体重矢量上,那么它将对应于这个可行性空间,比如说。
这会说类似于,权重向量的L2范数必须等于1,所以它是一个球,说明半径必须总是等于1,假设你试图最小化目标函数,取决于解决方案必须是在球上,如果你优化L2范数,你就会这么做,与住在这颗钻石上。
如果你优化L1范数,就会发生这种情况,嗯,解决方案,最优解将是,本质上是沿着圆圈最近的点,最接近结束的点是,你会看到这个点有一个非零的w1和w2,这边,最近的点在这里,对呀,注意,它有一个零值w。
1和一个non,w 2的零值,因此它找到了一个比这个更稀疏的解决方案,所以这只是给你一些直觉,为什么,使用l one正则化会导致优化问题的稀疏解,这可能有两个好处。
首先防止它可以帮助防止在设置中过度安装,那里有一个非常好的风险模型,使用少量的特征,并注意到,指出,这不是一个疯狂的想法,可能存在一个风险模型,它使用了少量的特征,对因为记住。
回想一下阿普加分数或者鳍的风险,在芬兰被用来预测糖尿病,每个人只有五到二十个问题,根据这五二十个问题的答案,我们可以很好地了解病人的风险对吧,所以事实上可能有一小部分功能是在一起的。
充分实际上是一个非常合理的先验,这也是为什么,l一个正则化实际上非常适合,关于这类数据的这些类型的风险分层问题,第二个原因是可解释性,如果有人想,那就问吧,这个模型实际上使用了哪些特征来做出预测。
当你发现只有二十或几百个功能,你可以把它们都列举出来,看看它们是什么,理解所做的预测中发生了什么,这对翻译也有很大的影响,假设你用这家健康保险公司的数据建立了一个模型。
这家健康保险公司碰巧获得了大量的功能,但现在你想去别的地方应用同样的模型,如果你所学到的是一个只有几百个功能的模型,所以你可以把它缩小,那么它就提供了一个更容易部署模型的机会,你下一个去的地方。
您只需要访问这些功能就可以做出预测,我会总结下一个,我将在五分钟内完成,为了让我们和伦纳德讨论,莱纳德,但只是想回顾一下,这个模型有哪些特点,我们使用的一些评估是什么。
所以我们在这里使用的功能是为了考虑到,病人有很多缺失的数据,所以与其想清楚,我们是否将此特征,我们不把这个特征,我们只是看看,这些特征被观察到了吗,所以我们选择我们的特色空间。
为了已经考虑到有很多失踪的事实,比如说,我们想看看这位医生过去看过哪些类型的专家,过去去过,对于每一个可能的专家,我们在对应的维度里放一个1,如果病人看过那个专家,那种类型的专家,零,否则嗯。
上面的药物,我们期待看到的一千种最常见的药物,病人服药了吗?又是还是不是,零一在实验室任务的相应维度上,这就是我们做一些事情的地方,有一点点,我们看到的不同,首先是实验室测试,然后我们说好,如果给药。
结果会很低,下侧出界,这是有史以来最高的结果,结果是正常的吗,价值在增加吗,值在减少吗,价值在波动吗,并注意到这些量中的每一个都有很好的定义,即使对那些从来没有任何实验室测试结果的病人来说,对呀。
答案是零,它从来没有被管理过,零,从来都不低,零从来都不高,等等,价值在增加吗,是不是像,首先呢,如果只观察到一个值,那就是零,如果观察到至少两个值,然后你看看,有没有任何相邻的观察对。
第二个比第一个高,这就是它在这里的定义,它增加了,然后减少了,你把一个和一个,正确的是,这就是我们在这里所做的,而且非常简单,对呀,所以有很多更好的方法可以做到这一点,事实上,你知道的,这是一个例子。
下节课会讲到,然后在随后的讲座中更多,当我们谈论使用递归神经网络时,试图总结时间序列数据,因为人们可以想象使用这种方法实际上可以自动学习这些特征,这么多,喜欢是波动的,另外两个中的一个。
波动正是刚才描述的场景,它可以上升,然后下降,两者都要做,是啊,是啊,是的,第一个问题是第一个问题和其他问题结束了吗,测试是用那个进行的吗,就像任何证据都是正确的,所以这些特征之间确实有很大的相关性。
如果其中任何一个,那么这也将是,尤其是结果,是啊,是啊,但你还是想把这个包括在这里,所以想象一下所有这些都是零,你不知道他们是不是零,因为这些事情没有发生,或者因为测试从未进行过,是低是高,正常,就像。
它们只是这里的二元指示器,对呀,那么它必须进入一个类别吗,哦不,嗯,哦,你是这么说的,你的意思是,如果结果是,如果结果曾经存在,那么至少是这三个中的一个,也许它涉及到一些技术细节,我现在不记得了。
这是个好问题,然后,这是下一个最重要的细节,我刚才描述的方式,这里面没有时间的概念,但当然,当这些事情发生时,可能真的很重要,所以我们接下来要做的是,我们为不同的时间桶重新计算所有这些特性。
所以我们计算了过去六个月的历史,在过去的24个月里,然后对于过去的所有历史,我们把所有这些特征向量串联在一起,在这种情况下,你得到的是一个42000维的特征向量,顺便说一句,它是四万二千维的,不会更高。
因为我们在这篇论文中用于诊断代码的特征本质上不是时间的,人们可以很容易地使它们在本质上是暂时的,在这种情况下,它将更像六万个功能,跳过驾驶标签下次再来,我想简单地谈谈如何评估这些类型的模型。
我会给你一个关于评估的看法,很快我们就会听到一种非常不同的观点,我给你看的是,高度,是由模型选择的具有非零权重的变量,例如,你看到的空腹葡萄糖受损的顶部,这是模型使用的,这并不奇怪,因为。
我们试图预测病人就是病人,可能患上二型糖尿病,现在你可能会问病人是否有影响血糖的诊断代码,他们不是已经有糖尿病了吗?他们不应该被排除在外吗,答案是否定的,因为在这个数据集中也有糖尿病前期的患者。
被故意包括在内的人,因为,我们不知道他们中的哪一个会继续发展成二型糖尿病,所以,这是一个指标,表明病人以前被标记为前,糖尿病患者,和,它这个,这显然是有道理的,这将是预测变量的顶部。
但有很多事情不太明显,比如说,在这里我们看到,阻塞性睡眠呼吸暂停与食管反流,被模型选择来预测患者发展为2型糖尿病,我们推测这些变量,事实上,充当肥胖病人的代理人,因为肥胖很少被编码在商业健康保险索赔中。
所以有了这个变量,尽管肥胖,如果不观察到这个变量,病人可能会肥胖,那么肥胖的病人通常会有所谓的睡眠呼吸暂停。
所以他们可能会在睡眠中短暂停止呼吸,所以这将是肥胖的标志,所以说,我谈到了标准是如何,我们用来评估风险分层模型的是,与用于评估诊断模型的标准有点不同,在这里,我要告诉你我们经常使用的一种方法。
它被称为正预测值,所以我们要做的是,我们会在你学习了你的模型后再看,看看前一百个预测,前一千个预测,超过一万个预测,看看这些患者中到底有多少人患上了II型糖尿病,当然,现在这是使用保留的数据来完成的。
你可能对不同级别感兴趣的原因是,因为您可能希望根据风险和成本针对不同的干预措施,比如说,非常低成本的干预,我们做的其中一件事就是给那些,嗯,谁被怀疑有服用兴奋剂的高风险型糖尿病糖尿病。
如果他们去年没有去看眼科医生,我们给他们发短信说,也许你想去看你的眼科医生,记得你有一次免费的眼科检查,这是一种非常便宜的干预,这是一个非常微妙的干预,它之所以有效是因为发展成,二型糖尿病。
一旦糖尿病进展,它会导致糖尿病视网膜病变,这是在眼科检查中经常遇到的,所以这可能是病人被诊断的一个机制,既然这么便宜,你可以为一万个人做这件事,所以你把一万个最危险的人,你为他们申请干预。
你看看这些人中谁真的在未来患上了糖尿病,我给你看的模型,百分之十的人在一到三年后患上了二型糖尿病,我在这里给你看的比较点,这个蓝条是,如果你使用一个模型,它是用很少的功能派生出来的。
所以不是基于机器学习的方法,只有6%的人从上面发展成2型糖尿病,一万,另一方面,你可能想做的其他干预措施要昂贵得多,例如,你可能只能为一百个人做这种干预,因为它花了这么多钱,作为一家健康保险公司。
你的预算有限,所以对那些人来说,你可以问,什么是预测性阳性,前一百个预测的预测值,这是15%使用基于机器学习的模型。
其中不到一半使用更传统的方法,所以我就到此为止,我还有很多,我可以也会说,但我得在下星期四的课上讲到,因为我想让我们的客人下来,我们会讨论一下,这是我们第一次有这个,一种课堂互动,这就是为什么。
顺便说一句,我迟到了一点,因为我以前从来没有做过这样的事,嗯它,这是一个实验,让我们看看会发生什么,所以你说,伦纳德镜头镜头,好的,苏伦,你能自我介绍一下吗?我的名字是琳德沃,我是哈佛医学院的助理教授。
我也是一家名为Sift的公司的首席执行官和创始人,一点背景,是啊,是啊,一点点背景,我们应该在退伍军人管理局工作吗,比如说,是啊,是啊,所以我大概花了15年左右的时间试图帮助医疗保健。
以新的方式从数据中学习,在所有需要你帮助的领域中,我会说医疗保健,你知道,对于社会来说,但也只是从我们所处的位置,以我们使用数据的能力,立场是你们投入时间的好地方,我一直在学术界为政府做这件事。
作为一名研究员,发表论文,嗯,我一直在为这个国家的非营利组织做这件事,和其他一些人,嗯,但我参与的每一个项目,一直在努力引入一直存在的数据,但我们到现在还没能吸取教训,那是不是你知道的,VA。
建设他们的基因组科学基础设施,和征聘,招募一百万退伍军人献血和他们的EMR,或者在哈佛的阿里阿德内实验室,布里格姆公共卫生学院,改善印度的分娩,嗯,这一切都是关于我们如何一次又一次地变得更好,做保健。
a,你知道的,对人们来说更好的地方,所以告诉我,从你的角度来看,什么是风险分层,定义我发现是今天讲座中最困难的部分之一,嗯,谢谢你用它挑战我,所以这是一个相当通用的术语。
我认为这完全取决于你试图解决的问题,每次我这么做,你真的必须把自己放在你试图解决的问题上,风险可能是手术室里的医疗用品用完了,风险可能是阿普加分数,风险可能是从糖尿病前期到糖尿病前期。
风险可能是老年人在家里摔倒,所以这对我来说真的是什么,你知道我对工具的比喻很感兴趣,对呀,这些都是很棒的工具,一个熟练的工匠被其他有技能的人包围,可以继续解决非常具体的问题,所以这是一个锤子。
这是一个我们花了很多时间提炼和应用,解决医疗保健中的问题,那么你为什么要告诉我们贵公司一直在申请的一些领域呢,今天的风险分层水平非常高,然后我们会潜水,我们会选择其中一个深入一点,嗯,所以我们这样做。
我们描述我们所做的事情的方式是它的性能改进,我只是给你一点背景,因为它会告诉你我关注的问题,所以它的性能改进,嗯,坦率地说,我们喜欢提高性能的东西类型是,我们如何让人们远离医院,嗯。
我不打算在这件事上说太多,但我认为这很重要,你给出的你受雇帮助解决的例子,是由保险公司和保险公司,医疗保健行业可能有三十个行业,这不是一个行业,它们中的每一个都有不同的、经常相互竞争的动机。
所以这些技术最合理的应用是帮助做预防的事情,但只有大约,但取决于你的数学,8%到12%的医疗保健是财政激励的,做预防性的事情,其余的是医院和诊所,当你想到健康的时候,你可能会想到那些类型的组织。
他们通常不会付钱让你远离这些设施,而作为一家公司,你知道你必须从进入中获利,你需要关注那些有财务重点的,关于哪里有经济激励,就我而言,我想建立一家公司,经济激励与保持人们健康相一致,那么这些例子是什么。
当然可以,所以我们做了很多,老年人口,老年人口也是如此,理解变得非常重要,嗯,护理经理应该接触谁,因为他们的风险水平正在上升,很多风险分层,你描述的旧方法识别那些已经处于最敏锐状态的人。
所以它有点像滑向冰球所在的地方,你引起了注意,因为你的敏锐度正处于绝对的顶峰,我们正试图帮助护理管理组织,找到风险上升的人,即使我们这样做,我们试图得到,我是说,这些技术的力量是从一个尺寸,如此合身。
当我们想到不断上升的风险时,我们想好了,所以在行为健康的环境中,这是住院精神病入院的风险上升,这是一个非常具体的应用程序,我们可以做一些事情而不是冒险,我的意思是,如果你想想其他行业正在做的事情。
亚马逊并不认为我们都是消费者,有些人很可能在特定的时间对特定的提议做出反应,所以我们试图把,这种,嗯,更细粒度的医疗保健方法,我们和团队坐在一起,他们习惯于只有通用的风险评分。
我们试图帮助他们思考哪些老年人可能会摔倒,我们对糖尿病有效,也是,所以说,那个,患有一型糖尿病的儿童不应该每三个月就预约一次,但你现在应该去找他们,嗯,所以这些是一些例子,但主题非常一致。
它正在帮助组织远离相当通用的,宁可一刀切,哪些更有可操作性,所以即使从护理管理毕业,因为现在你应该有严重的疾病对话,因为你快到生命的尽头了,或姑息治疗转诊或临终关怀转诊,好的。
所以我想选择一个单独的潜入,我想选一个你工作时间最长的,你已经在做什么,至少是对它的评估的最初部分,所以我想当我们在电话里交谈的时候,Psyche r就是其中一个例子,是啊,是啊。
告诉我们一点关于那个的情况,是啊,是啊,所以嗯好吧,我就把要解决的问题告诉你,如此肯定,所以我们与一个大型行为保健组织合作,他们在那里,他们是由健康计划承包的,实际上是为了治疗有心理健康挑战的人。
传统的识别护理管理人员的方法又是,你得到一个风险评分,因为你知道当你根据赔率比变量对最高排名排序时,因为你已经被录取了,因为你年纪大了,因为你有更多的药物,所以他们,他们用了类似的方法,找到最尖锐的。
所以在我们所有的约定中,我们做的第一件事是理解,哪里是最大的机会,这与机器学习关系不大,只是很好,今天发生了什么,这些事情发生在哪里,谁在关心,谁在照顾这些人,住院是有区别的,因为你没有吃药,和住院。
因为你有慢性,复杂,所以我们想先了解一下,哪里的成本最大,什么类型的事情发生得最频繁,然后你想让临床团队告诉你,这些是我们拥有的资源类型,我们有可以解决这些问题的人。
或者我们有旨在解决这些问题的干预措施,所以你把,你的投资在哪里有最大的回报,从数据的角度来看,财务观点,但我们也可以做点什么,在你这样做之后,只有到那时,在得到执行团队的完全同意后。
这是我们认为可以解决的非常狭隘的问题,然后我们开始应用机器学习来解决这个问题,那是什么,那个漏斗导致了什么,你是怎么决定的?是要解决的问题吗,是啊,是啊,它试图减少住院精神病患者的入院人数,即使这样。
减少入学人数的传统方式,仅仅因为它来自于这种传统,传统的做法一直被认为是30天,但是当我们采访团队时,他们说实际上对于这种特殊的情况,我们需要90天才能产生影响,嗯。
所以你知道临床上的理解和我们有资源解决的问题混合在一起,这就是引导,然后应用机器学习来解决一个特定的问题,好的,所以精神病住院,这些是来急诊室的病人,精神病相关问题,然后当他们在急诊室的时候。
他们住进了医院,他们在医院里呆一天到几天不等,你想你想找到,那些将来什么时候会发生,是啊,是啊,什么类型的数据对此有用,当然可以,你不必只是通过教育署,虽然这是最常见的,任何非计划急性入院,明白了。
那么什么样的数据对预测,我认为你们都应该采取的一种哲学是,无论你有什么数据,应该是你解决问题的竞争优势,这与以前的做法不同,人们在哪里,他们在别的地方做了一个算法,然后他们来告诉你嘿,只要你有索赔数据。
然后插入我的变量,我可以帮你,嗯,我们的方法,这有点源于我的兴趣,从一开始就解决问题,并试图使工具工作得更快,我们的方法是你有的任何数据,我们会把它带进来考虑,最终什么会赢取决于问题。
但你不会惊讶地发现索赔数据有一些价值,但你把实验室建起来有很大的价值,实验室有很大的价值,当谈到行为健康时,这就是你真正必须了解医疗保健的地方,嗯,令人难以置信的是,它还没有被诊断出来。
携带诊断代码是有耻辱的,这将描述你有精神健康挑战,因此,单凭索赔是不够的,嗯,我们从护理管理中找到了很大的提升,所以当你有一个护理经理,护理经理正在评估你,你在填写表格,调查你。
给你不同类型的功能评估或日常生活评估活动,这些数据证明是非常强大的,然后你知道,大多数人不习惯使用的黑马,我们从临床医生那里得到了很多提升,不管是精神病学家还是精神病学家,或护理经理的笔记。
所以对护士的书面描述是有价值的,或者护理经理的,对错的印象,做了什么,还没做的事,等等,告诉我一些发展情况,进程,所以你知道你想预测什么,你至少有那个,换句话说,你的数据在一个地方,然后呢,是啊,是啊。
嗯,嗯,我的意思是,你不会感到惊讶,我们要做的第一件事就是试着对它进行逻辑回归,看看你知道什么,我们想要数据,我们希望这个故事一开始就有意义,我们总是在寻找问题的最简单的解决办法,然后团队来回迭代。
你知道的,嗯,基于这些数据的外观和特征,密度,稀疏,根据我们对这些数据的了解,这些家伙在计划中进进出出,所以我们可能在数据上有问题,不存在于您描述的时间窗口中,然后他们通过算法和特征选择方法。
似乎符合我们所掌握的数据,但是您为哪些错误度量进行优化,你得问他们,已经太久了,好的,我十年后才被允许写代码,但是是的,所以但是这是一个迭代的过程,在那里嗯,我们必须,这是件大事。
我们必须能够将我们所做的转化为积极的预测价值,很明显,我喜欢你描述的方式,因为很多受过医学统计学训练的人,不管是流行病学还是类似的,总是在寻找R平方,或中华民国之下的地区,我们必须帮助他们理解。
为了你只能照顾这么多人,所以你并不真的在乎,你知道为了这个客户,三十万,嗯,在我们服务的一个计划中,你真的很在乎顶部,一两百,实际上,这个数字应该根据你的能力得出。
是的如果我能以100英镑的价格给你10分中的7分,你可能会去敲他们的门,但让我们说,在一千到两千之间这个数字下降到十分之四,也许你应该去一个更便宜的干预,嗯,巨大的教育组成部分。
帮助人们理解他们所看到的,以及如何解释,并帮助他们将它与他们将要做的事情联系起来,然后我想你可能在学习课程,你将用可解释性和诸如此类的东西来迎接所有的挑战,但它们都存在,所以说。
所以告诉我它是如何部署的,所以一旦你建立了一个模型,你如何让你的客户开始使用它,让他们准备好,当模型准备好的时候,我吃了不少苦头才明白,让他们参与这个过程已经太晚了,事实上,你在这里的一颗子弹。
我并不完全同意,这些方法更容易插入工作流的想法是吗,在电子健康记录中输入一个数字可能会更容易,但当我想到工作流,不仅仅是这样,数字出现在正确的时间,这是这样说的文化,这些护理经理花了你知道的最后一年。
二三十年的学习,谁需要他们的帮助,以及他们训练的一切,他们的经验是照顾最敏锐的人,所有的危险信号都在熄灭,来了一堆,你知道的,书呆子与计算机科学,建议不的人,而不是你三十年的直觉和经验。
你应该相信电脑说的,所以有两个部分,我想更好地理解,当然可以,2。你是怎样处理这个问题的,是的,第二,我其实很好奇技术细节,你会在一张纸上给他们预测吗,你有,你使用API吗,是啊,是啊,是啊,是啊。
所有的权利,所以让我先回答技术上的问题,因为这是一个更快的答案,记得在这个开始的时候,我说从技术的角度来看,医疗保健是相当不成熟的,是啊,是啊,所以我们有,它从来不是一张纸。
但它可以是一个Excel电子表格,每月通过安全FTP交付一次,因为这就是他们现在所能承受的,根据他们的事态,它可以是对API的实时调用,我们学会做什么,通知一家提供医疗保健服务的公司不要创建新的界面。
不要创建新的日志,以适应他们已经到位的任何工作流和系统,所以为灵活性而构建,而不是给他们其他东西来登录,因为所有的原因,我敢肯定人们来自,我是说你的时间很少,另一件事是临床医生讨厌他们的信息技术。
他们喜欢他们的手机,但他们讨厌他们的组织强迫他们使用的东西,现在,这可能是一个粗略的概括,但我不认为太远了,所以数据是一个四个字母的单词,在过去的一周里,学生们一直在学习像火这样的东西,以此类推。
这些是您使用的API吗,否,是啊,是啊,那是一个,否,所以那些是,这些都是具有巨大潜力的技术,嗯,你发表了一篇论文,描述了一种风险分层算法,从1984年开始,我敢肯定,这篇论文得到了证据的支持。
证明它可以产生很大的影响,嗯,我又快站在肥皂盒上了,但你必须明白,医疗保健是基于提供护理来支付的,护理越复杂,你得到的报酬就越多,我不会告诉你这些,我有点分享它,是啊,是啊,你知道的,嗯。
所以像火这样的技术会打开Ehrs的想法,允许人们把东西进进出出,从而消除了电子健康记录的垄断,嗯,对于电子健康记录供应商来说,这些都是艰难的投资,他们是被联邦政府强迫的,他们看到墙上的文字。
所以他们在前进,孩子们身上有很好的例子,之类的,取得了一些进展,但我现在住在,我必须在今天的医疗保健中完成这件事,很少有组织不仅与我们合作,但甚至会和,准备好开火了,我认为这会,你知道五年后。
我希望我会告诉你一些不同的事情,是啊,是啊,那么你能简单地回答关于文化的第一个问题吗,关于那种,对于一个预测,你必须给出什么,以便有效地采取行动,是呀,所以你要做的第一件事是。
所以我们邀请临床团队参与这个项目,从一开始,只是真的很重要,如果你带着预测出现,你输了,我们嗯,现在他们,他们不只是,他们是团队的一员,我记得我说过我们在三角定位,他们能做什么,不能做什么,重要的是。
什么可能不喜欢,他们实际上是团队的一员,当我们穿过,一个人如何评价,不管这是否有效,我们给他们看,这些是我们找到的一些人,哦,是啊,是啊,那是有道理的,我知道,史密斯先生。
所以从一开始就是一个真正的展示和讲述过程,嗯,所以一旦你靠近,开发阶段完成后,那么开发阶段之后呢,如果你做得很好,你离我远点,在每个病人的基础上,什么变量是重要的,这样你就可以向人们展示,几率有多大。
模型上的比率很容易产生,你可以向人们展示,这些是重要的特征,模型级别的事项,这变得更难,所有的医疗保健都是用来获得APGAR分数的吗,基于五件事,我们都知道他们是什么,和机器学习的结果。
你知道我们在行为健康中一直在谈论的模型,我想我们现在使用的模型有三千七百个变量,至少有一点点贡献,是啊,是啊,那么你如何将五到七个变量的文化平方,事实上,我给了你变量。
你运行假设检验算法而不是更多的归纳方法,成千上万的变量实际上在增量地贡献,这是一把双刃剑,因为你永远无法向某人展示三千七百个变量,但如果你给他们看三四个,然后答案是好的,那很明显,我就知道是的,对呀。
就像空腹葡萄糖受损的一个,是呀,确实如此真的,我付钱让你告诉我,已经被录取的人可能会重新录取,那是,你知道吗,这就是挑战,嗯如此惊人,两者之间的平衡,教育比什么都重要。
因为我不认为一个算法使用了三千七百个变量,我不认为它可以变成决策支持,它可以给你两三个,你可以依靠,然后做出明智的决定,教育过程的一部分是,我们也说忘记数字,如果我给你这个人,你下一步会做什么。
答案总是好的,我会看他们的图表,所以如果你要看图表,那么我们使用的类比是有帮助的,这是GPS对吗这不是GPS,不会给你一条神奇的地下公路,我们不知道的,它会,它会提示你熟悉的道路。
它的优势在于不像你在车里,当你开车的时候,它只是意识到比你更多,它的数学运算比你快一点,所以它会给你一个建议,它会经常告诉你,在你的情况下,我现在要为你节省几分钟,你还是司机。
你仍然可以决定走93号公路向南,就这样吧,可能是GPS没有意识到,你真的喜欢纪念大道的景色而不是彻底的,所以你要这么做,所以我们试图帮助人们理解它只是知道一点,它只是比你有更多的机会。
它会让你更快地到达那里,所有的权利,我要在这里打断你,是啊,是啊,因为我想给观众留点时间问一些问题,所以我要问你以下问题,我提出以下要求,尽量保持快速反应,这样我们就可以得到尽可能多的问题。
有多少人担心某些人口群体的诊断不足,获得护理的机会较少,然后会有一个较低的风险分层,然后可能在,你觉得怎么调整一下,是啊,是啊,所以这是一个很好的问题,我会试着很快地回答它,嗯,如果有什么。
你能重复一下问题吗?也要尽快,是啊,是啊,你担心,我是说,模型可能会因经验而有偏差,你是否担心较小的人口被忽视,这么说公平吗,问题也是关于,因为你用得很好的训练数据,这就是我的意思,是呀,好的,好的。
所以好吧,我们在行为健康方面所做的工作,我们在其他一些环境中也这样做过,如果有不同的人群,你会做不同的事情,他们可能会在洗牌中迷失,我们确实提请他们注意这一点,下一个问题,后面有东西。
我记得你开得太快了,好的,你如何评估,你喜欢列队,就像你愿意牺牲一点,你似乎真的提高了三十岁,我再重复一遍问题,是啊,是啊,你说过如何,这真的是,无论如何,这就像阅读茶叶一样,只是为了展示几个顶级功能。
从A从线性模型,是的,所以为什么不把所有的可解释性都去掉呢,它是否为你打开了可能性的大门,啊你是说,去掉所有的可解释性,我想问题是,你愿意用性能来换取可解释性吗,是呀,这可能是答案,把它扔了,是啊。
是啊,所以嗯,你知道吗,如果我能得到,如果我能让我们的合作伙伴,他们真正理解我们在这里做什么,他们一直是评估模型的一部分,成功是在他们不需要的时候,所以在每个需要我帮助的病人的基础上,看到三千个变量。
但这确实意味着当你建立模型时,你会给他们看病人,你会给他们看变量,所以这就是我试着带他们去的地方,这是关于建立信任,当你走的时候,在某些情况下绝对是这样说的,取决于临床上是否合适,我是说。
如果我在这里是百分之一,我就像,但可解释性能让我走得很远,我愿意做这笔交易,这就是像这样的区别,别爱上锤子对吧,爱上了建造家园,然后你很容易就把它换成下一个问题,是啊,是啊,在开始建模之前。
你花了多少时间与医生接触,他们实际上是第一个,我们花时间和首席执行官和首席财务官在一起,首席营销官首席医疗首席财务,因为如果没有至少五比一的财务回报,为了解决这个问题,你永远不会一直做一些重要的事情。
所以我学到的是数学很棒,我们可以模拟各种有趣的东西,但如果我不知道它是如何制造或拯救他们的,我们也有,我们有500万美元的大关适合我们公司的规模,如果我不能帮你赚五百万,我知道你不会付钱给我,所以说。
所以我们从那里开始,一旦我们发现有钱可以赚或存钱,在正确的时间给这些人正确的照顾,那么是的,临床医生是我们的团队,我们有一个所谓的工作组,项目经理,临床铅,与数据有联系的人。
就像我们有一个团队和一个沟通结构,嵌入临床医生,我们团队中有临床医生,我想我想你会在许多不同的环境中找到,这就是实现机器学习的真正需要,你必须你必须,你必须有行政工作组,临床医生。
用户、工程师和这里的其他人,有一个问题,实际上是你们两个的问题,所以关于数据收集,所以我知道这喜欢的人,我们尝试,我们试着收集各种各样的,他们必须训练成机器学习模型,但当你有一些前置记忆。
你能有一些见解来指导你喜欢吗,针对某些数据,这样你就知道这些新信息对预测任务非常有用,甚至设计更好的实验来重复这个问题,有时我们还没有我们想要的数据,我们能否使用数据驱动的方法来找到我们应该获得的数据。
是啊,是啊,所以我们现在就在做这个,所以在医疗行业有一个流行的事情,每个人都对健康的社会决定因素非常感兴趣,因此,它已经被品牌化、营销和销售,所以现在顾客对我们说,嗯,嘿嘿。
你有健康数据的社会决定因素吗,嗯,这对我来说很有趣,因为他们只看索赔,现在他们建议去买一个第三方数据集,这可能不会比简单地拥有邮政编码增加更多的价值,我们说,是啊,是啊,当然我们可以带来新的数据。
我们输入天气模式,我们带来了各种有趣的数据,当问题需要的时候,那是容易的部分,真正的挑战是,它会增加价值吗,1。我们该不该花时间和精力去做这件事呢?所以如果你有各种奇妙的数据,我们会用它运行。
然后看看你在哪里做得不够,不仅仅是数据,只是现在不告诉你,出去获取不同类型的数据,如果性能较低,临床上和基于直觉,另一个数据源可能会增强,那我们就试试看,如果是免费的,我们会试得更快,如果要花钱。
我们会和客户谈谈的,对我们俩来说都很紧张,我会给你我对那个问题的答案,如果你有一个足够高维的起点,通常这会给你下一步去哪里的提示,在我给你们看的例子中,你知道吗,尽管肥胖很少被编码在索赔数据中。
我们看到它仍然是一个有用的功能,对呀,这样就很好地暗示了我们,也许如果我们有更高质量的肥胖数据,这将是一个更好的模型,所以有时你可以用这种技巧,嗯,这里有个问题,通过计算多少来提高以前的成本效益。
我们从,好的,所以这将是我们要结束的最后一个问题,这真的与评估和思考有关,关于干预的影响,根据预测,在你形式化问题的两种方式中,事实的原因在多大程度上表现出来,然后评估你干预的事实,你的预测,是啊。
是啊,所以最重要的是要知道,没有客户会因为一个积极的预测值而付钱给你,他们不在乎他们在乎,你会帮他们存钱还是赚钱解决问题,所以成本效益从一开始就开始了,但是正预测值方法的好处是。
有这么多的文献可以告诉你,某些事情发生的平均成本是多少,所以对我们来说,任何订婚的第一部分都是好的,你们来了,这就是在那里的代价,如果你提高10%,如果我们能得到批准,然后我们开始建模,我们说,嗯。
前一百人的样子,他们中的七十个是合适的人,乘以潜在成本,那值这么多钱,所以成本效益很高,数据在开始,它还在建模阶段,最后我们从来没有向他们展示我们在预测方面做得有多好,我们给他们看了基线。
我们说基线活动结果,1。你上哪儿去了?你在干什么,然后它有什么不同吗,这总是在最后一部分,总是用美元和美分,现在也是,虽然Len在这里没有提到,当他试图思考时,他也做了相当多的工作,这种因果有效性。
我们讨论了如何使用倾向匹配,比如说,在你的工作中,我们不能在今天的讨论中讨论这个问题,但我们会回到这些问题上,当我们在几周后谈论因果推断时,今天就到这里。
P5:5. Risk Stratification, Part 2 - 大佬的迷弟的粉丝 - BV1oa411c7eD
今天我们将继续讨论风险分层的主题,我将用今天讲座的前半部分到三分之二的时间,继续我们上周讨论前停止的地方,我会谈谈怎么做,在有监督的机器学习方法中,如何驱动标签,我将继续讨论如何评估风险分层模型。
然后我将谈论一些出现的微妙之处,当你想把机器学习用于医疗保健时,专门用于风险分层,我想这将是,今天讲座中最有趣的部分之一,在今天讲座的最后三分之一,我将讨论如何重新思考有监督的机器学习问题。
不是分类问题,而是更接近回归问题,一个人现在想的不是,会不会有人,比如说,从现在起一到三年内患糖尿病,但他们到底什么时候会患糖尿病,所以活动的时间,然后呢,一个人必须开始,仔细想想我上周提到的审查问题。
所以我将用生存建模的语言将这些概念形式化,和,我将讨论如何在这种情况下进行最大似然估计,以及在这种情况下应该如何进行评估,好的,在我们上周的课上,我给你举了一个二型糖尿病风险分层的例子,只是为了提醒你。
目标如下,美国有百分之二十五的人患有未确诊的二型糖尿病,如果我们能接受健康保险索赔,每个有健康保险的人都可以获得的数据,并用它来预测短期内谁,未来一到三年很可能新诊断出二型糖尿病。
然后我们可以用它来冒险分层,分层病人群体,我们可以利用这一点来找出谁的风险最大,对这些病人进行干预,试图让他们得到诊断,并让他们开始治疗,如果相关,好的,但我没怎么说的是,那些标签是从哪里来的。
我们怎么知道有人在那个窗口得了糖尿病,我出现在上面,那么答案是什么,我是说,你们所有人都应该读过Roavian的报纸,所以你应该有一些想法,思想,补充材料中的暗示。
我们如何在那篇论文中定义一个积极的案例,他们服用的药物,开着的水壶,好的,是啊,是啊,例如,二甲双胍,葡萄糖,对不起胰岛素,我想这是一种格式的输入,二甲双胍是个棘手的案子。
因为二甲双胍经常用于替代适应症,但是有很多药物,比如胰岛素,专门用于治疗糖尿病,所以你可以看看,病人是否有服用这些糖尿病药物的记录,在我们用来定义结果的窗口中,如果你看到药物的记录,你可能会猜测。
这个病人可能有糖尿病,但是如果他们没有在那个时间窗口中列出的任何药物呢,你能得出什么结论,那么有什么想法,如果你看看呃,e,b和c w,你知道正常的,你经常看到它是关于,所以你给了我一个替代的方法。
不看药物,但是看实验室测试结果,看看他们的HBA One C结果,它测量了大约三个月的平均葡萄糖值,如果超出了范围,那他们是糖尿病患者,事实上,这通常被用作糖尿病的定义,但这并没有回答我最初的问题。
为什么只看糖尿病药物,不够,一些糖尿病药物可以用来治疗其他,有时糖尿病药物有歧义,但我们已经处理好了,已经通过试图选择一个明确的集合,还有什么其他原因,从糖尿病发病时的药物开始将在,哦。
这是一个非常有趣的观点,不是我在想的那个,但我喜欢,一个病人可能被诊断为2型糖尿病,但无论出于什么原因,他们在提供者和病人之间的沟通中,他们决定我们还不开始治疗,对呀,所以他们可能还没有接受糖尿病治疗。
然而,整个医疗保健系统可能非常清楚病人是糖尿病患者,在这种情况下,为病人做任何这些干预可能都是无关紧要的,是的,另一个原因,所以很多人只是糖尿病,所以他们有,所以一个标签意味着他们有糖尿病。
另一个标签是拥有新的,没有糖尿病,所以关键是你可能不会被诊断为糖尿病,不幸的是,这不是我们能够解决的问题,这里,这是个问题,但我们没有解决办法,不,更确切地说,我想说的是一个不同的观点。
就是这个数据有偏差,所以即使病人因为任何原因服用糖尿病药物,也许他们是用现金支付这些药物,如果他们付现金买那些药,那么病人就不会有任何记录了,在健康保险索赔中服用这些药物,对呀。
因为健康保险公司不必为此买单,但是你给出的理由也是一个非常有趣的理由,而且它们都是有效的,所以出于所有这些原因,仅仅看药物是不够的,正如刚才所建议的,查看其他指标,如,比如说,患者血糖值是否异常。
一个1C值也会提供信息,所以这不是微不足道的,对,也是你在下一个问题中要做的一部分,习题集第二集将仔细考虑,一个人实际上是如何进行队列构建的,不仅仅是你的包含排除标准是什么。
还有你现在如何从数据集中获得这些标签,传统上,对此的传统答案有两个步骤,第一步,实际手动标记一些病人,所以你拿了几百个病人,你检查他们的数据,你实际上看看他们的数据,并决定这个病人是糖尿病患者。
或者他们不是糖尿病,你必须这么做的原因是因为通常,你可能会想到的是显而易见的,哦,如果他们在服用糖尿病药物,他们有糖尿病,它有缺陷,直到你真正挖掘并查看数据,您可能没有意识到该标准有缺陷。
所以图表回顾真的是这个过程中必不可少的一部分,那么第二步呢,你如何概括为你的人口中的每个人获得这个标签,通常有两种不同类型的方法,第一种方法是想出一些简单的规则,试着推断每个人,例如。
如果他们有糖尿病药物或异常的实验室测试结果,这将是一个规则的例子,然后你可以把它应用到每个人身上,但即使是这些规则也很难推导出来,一会儿我会给你们看一些例子,正如我们所知。
机器学习有时很好地作为提出规则的替代方案,所以现在通常有第二种方法来解决这个问题,在文学中越来越常用,就是实际上使用机器学习本身来派生标签,这有点微妙,因为这是机器学习的机器学习,所以我想把它分解一下。
当你试图推动标签,你想知道的不是时候,时间t加w及以后会发生什么,这是我们最初要解决的机器学习任务,而是考虑到你对病人的了解,包括未来的数据,我用黑色显示的那个窗户里的这个病人是新诊断出糖尿病的吗。
在t加w和继续之间,好的,例如,这个机器学习问题,这个新的机器学习问题可以作为输入,实验室测试结果和药物,和一大堆其他数据,然后你用几个例子,你在第一步中标记了你,试图预测,这个病人目前是否有糖尿病?
然后你用这个模型外推到整个人口,现在你的结果标签可能有点不完美,但希望它比你用规则得到的要好得多,然后现在使用这些结果标签,你解决了你原来的机器学习问题,清楚了吗?还有问题吗?1。你如何评价自己?
如果你有这些用机器学习产生的标签,它们是概率的,所以这就是第一步真正重要的地方,对,你必须以某种方式获得地面真相,当然,一旦你得到了基本的事实,你创建了一列火车,并验证了一组地面真相。
你运行你的机器学习算法来训练一个,你看看它的性能指标,在此基础上验证了,对于标签预测问题,这就是你对它充满信心的方式,嗯,但让我们试着把这个分解一点,所以首先,这个图表回顾步骤是什么样子的。
如果是电子健康记录系统,你经常做的就是,你会拉出史诗或塞纳,什么的,商业ehr系统是,你实际上会开始查看病人的数据,你会读到以前的医生写的关于这个病人的笔记,你会看到他们的血液测试结果。
他们正在服用的药物,从中你通常可以说出一个相当连贯的故事,病人怎么了?当然更好,获取数据的最好方法是做前瞻性研究,所以你实际上有一个研究助理站在房间里,当病人走进提供者,他们和,他们和病人交谈。
他们记下了非常非常清楚的笔记,这个病人有他们没有的东西,但这通常太贵了,无法预期,所以通常我们现在要做的是回顾一下,如果你在处理健康保险索赔数据,你通常没有看笔记的奢侈,所以在我的小组中。
我们打字通常会做什么,我们实际上是在构建一个可视化工具,顺便说一句,我是一个机器学习的人,我现在对形象化一窍不通,我也不声称自己很擅长,对呀,但你不能做机器学习的工作,除非你真正了解你的数据。
所以我们必须建立这个工具,为了查看数据,为了试着做理解的第一步,我们对糖尿病的描述正确吗,所以我不打算深入讨论,顺便说一句,你可以下载这个,它是一个开源工具,但大致如此,我给你看的是什么。
这是一个病人的数据,我给你们看的是4月到12月的x轴时间,在y轴上,我显示了发生的事件,所以橙色是为病人记录的诊断代码,绿色是程序代码,在蓝色或实验室任务中。
如果你在给定的一条线上看到沿着同一条线的多个点,意味着实验室测试,同一个实验室测试进行了多次,你可以点击它看看结果是什么,这样你就可以开始讲一个连贯的故事,病人怎么样了,所有的权利。
所以像这样的工具是你需要建造的,从健康保险索赔开始做第一步,现在数据,传统上第一步,然后它会引导您标记一些数据,然后从那里你去想出这些规则,或者做机器学习算法来获取标签,通常那本身就是一篇论文,当然啦。
通勤科学界不感兴趣,但对卫生保健界非常感兴趣,所以通常有第一篇论文,评估导出标签的这一过程的学术论文,后来有很多论文谈到了你可以用这个标签做什么,比如我们最初要解决的机器学习问题。
让我们来看看其中一个规则的例子,下面是一个从健康保险索赔数据派生的规则,病人是否患有二型糖尿病,现在这并不完全是,这和我们在那篇论文中用的不太一样,但它首先让你明白了这个想法。
病人有一型糖尿病的诊断代码吗,如果答案是否定的,如果答案是肯定的,请继续,你已经排除了,因为你说好,这个病人的血液测试异常也是因为他们患有一型糖尿病,不是二型糖尿病,一型糖尿病。
通常是你可以认为的青少年糖尿病被诊断得更早,它背后有一个不同的机制,然后你看其他的东西,好的,二型糖尿病有诊断代码吗,在病人数据的某个地方,如果是这样,你往右边走,你看着,有没有药物。
数据中1型糖尿病的RX,如果答案是否定的,你继续往这边走,如果答案是肯定的,你走这条路是的一型糖尿病药物并不孤单,排除病人,因为也许同样的药物用于1型和2型,所以你还需要做一些其他的事情。
但你可以看到这很快就变得复杂了,这些基于手动的方法最终会有相当糟糕的积极因素,所以它们通常被设计成具有相当高的积极预测值,但他们最终会有很糟糕的回忆,他们最终不会找到所有的病人。
这就是为什么基于机器学习的方法最终变得非常重要,对于这类问题,现在,这只是我所说的表型的一个例子,我称之为表型,文学上就是这么叫的,这是二型糖尿病的表型,它是表型这个词,在这个上下文中与标签完全相同。
是的,什么是不正常的,比如说,如果A一C的结果是6。5或更高,你可能会说病人有糖尿病,这是实验室的结果,不是医学正确,是啊,是啊,谢谢其他问题,你不知道,到底哪一部分是时间,整件事情,整件事情,是啊。
是啊,所以建筑,你说,你知道,你按照这个决策树,你得到一个结论,就是这种情况,意思是可以,他们是二型糖尿病患者,如果你得到,如果你没有达到这一点,那么答案是否定的,他们不是二型糖尿病患者。
这就是我的意思,所以这种标记就是我们所说的二型糖尿病的表型,在这学期的晚些时候你会发现,彼得会用表型这个词来表示其他的东西,这是一个过载的术语,但在这种情况下,这也是它的名称,现在这里有一个网站的例子。
它是KB项目的,在那里你会找到,嗯,十到,近一百种这样的表型是艰难地创造出来的,对于一系列不同的条件,好的,所以如果你点击如果你去这个网站,单击这些条件中的任何一个,像阑尾炎,自闭症,白内障。
您将看到这种类型的不同图表,我刚给你看对了,所以这是真的,这是医学界真正需要做的事情,以便尝试导出标签,然后我们可以使用,在我们的机器学习任务中,欢呼是地面真理的论点,比如如果有人有糖尿病。
你必须有更多的,他们的感觉就像他们必须很好地拥有的那些,所以说,比如说,你可能有一个异常的葡萄糖值由于各种原因,一个原因是因为你可能患有所谓的妊娠期糖尿病,也就是由于怀孕而诱发的糖尿病。
但这些病人通常很好,虽然这是一个预测因素,他们并不总是有长期的二型糖尿病,所以即使是实验室测试也不是,就是,这并不能说明全部情况,你可以不用动就能诊断出来,这在这里不太常见,是啊,是啊,我是说。
故事在未来会改变,因为将会有一系列新的诊断技术,可能会使用新的模式,就像,你知道的,基因表达,比如说,但今天通常答案是肯定的,是啊,是啊,所以如果这些是医生做的,正如我的意思,对于每一种疾病。
有一个明确的,你知道,这些通常是由健康结果研究人员做出的,他们的团队中通常有临床医生,但是经常在这些上面工作的人,往往来自流行病学领域,比如说,你的问题是什么来着,每种疾病只有一种表型吗,在理想世界中。
每一种不同的疾病都有一种表型吗,每种疾病至少有一种表型,现在可能存在的,当然你可能对它的不同方面感兴趣,就像你可能有兴趣不知道,只是病人有自闭症,但是他们在自闭症谱系中的位置,你可能没兴趣知道。
只是他们现在有了吗,但你也可能想知道他们什么时候得到的,所以这里面有很多微妙之处,但是建立这些真的很慢,并验证它们,确保它们能跨多个数据集工作真的很有挑战性,通常是负面的结果。
所以手工做这件事是一个非常缓慢的过程,这让我和其他许多人开始思考机器学习方法,了解如何自动完成,只是作为后续,所有的权利,有没有像五个自闭症的病例,你知道短信,比如说,或者多个竞争的,是呀。
所以经常有许多不同的基于规则的系统给你冲突的结果,是的,这经常发生,这些基于规则的系统能否提供一个,条件是对的,这就是我刚才提到的一个微妙之处,这些能告诉你发病时间吗,它们通常不是为了这样做而设计的。
但一个人可以想出一个来设计和做,所以尝试做到这一点的一种方法,你改变这些规则,有一个与之相关的时间段,然后你可以想象在滑动窗口中应用这些规则,到病人数据,看看它第一次触发是什么时候。
这将是试图了解发病时间的一种方法,但这也有很多微妙之处,所以我现在要继续前进了,我只是想给你一些感觉,这是什么衍生的标签,最后看起来像,现在让我们转向评估,所以说,该领域非常常用的方法。
就是计算所谓的接收器算子曲线或ROC曲线,这个首先看的是下面,这对于二进制分类问题是很好定义的,对于一个二进制分类问题,当你使用一个输出概率或某个连续值的模型时,然后你可以使用连续值预测。
如果你想做一个预测,通常是正确的阈值,所以你说,如果大于五点五,这是一个预言,如果小于零点五,摩擦力或零,这里我们可能会感兴趣,不仅仅是你知道什么能最大限度地减少零损失,但你也可能有兴趣交换。
比如说假阳性或假阴性,所以你可以选择不同的阈值,你可能想量化,这些权衡如何寻找不同的选择,在这个连续值预测的那些阈值中,这就是ROC曲线将向你展示的,所以当你沿着门槛移动时,您可以计算每一个阈值。
真正的阳性率是多少,假阳性率是多少,这给了你一个数字,你尝试所有可能的阈值,给你一个曲线,然后你可以比较两者,你可以比较不同机器学习算法的曲线,比如说,在这里,我在绿线上给你看。
通过使用我们所说的传统风险因素获得的预测模型,所以大约有八到十个不同的二型糖尿病风险因素,在文献中非常常用,与蓝色相比,它向你展示了你得到的东西,如果你用一个Lone正则化的Logistic回归模型。
没有领域知识可以扔进特性袋,你想站在上面你想站在左上角,这就是我们的目标,所以你会喜欢曲线,上面的蓝色曲线,然后一直向右,现在一种尝试用单个数字量化的方法,任何一条ROC曲线有多有用。
通过观察所谓的ROC曲线下的区域,从数学上来说,这正是你所期望的,是ROC曲线下的区域吗,所以你可以把曲线积分,你现在把那个号码拿出来,记得我告诉过你你要在左上角左上角。
所以目标是在1的ROC曲线下得到一个区域,现在,一个随机的预测,给你任何想法,所以说,如果你只是抛硬币和汽油,你觉得怎么样,点五,嗯好吧,所以我有点误导,当我说你只要抛硬币,你得抛硬币,不同的噪声率。
每一个都会让你在这条曲线上有一个不同的位置,如果你看看从这些随机猜测中得到的曲线,它将是从零到一的直线,就像你说的那样它的满分是5分,对呀,所以点5是随机的,猜一个是完美的,你的算法会介于两者之间,嗯。
现在与今天讲座的其余部分有关,将是另一个定义,计算C曲线下面积的另一种方法,所以计算它的一种方法是字面上的,正如我所说,你计算你创建的曲线,你积分得到它下面的区域,人们可以用数学来证明。
我不打算在这里给你推导,但你可以在维基百科上查一下,从数学上可以证明,计算ROC曲线下面积的等效方法,就是计算概率,算法会将标记为阳性的病人与标记为阴性的病人进行排名,从数学上来说,我所说的是以下事情。
你要把两对病人加起来,我要打电话给他们,x 1是标签为y 1等于1的病人,X2是一个标签为Y的病人,其实,我就叫它,是啊,是啊,标签x 2等于1,所以这是两个不同的病人,我想我要重写它,所有的权利。
对于i和j的所有选择,这样y i和y j就有了不同的标签,所以应该说你杰克是零,然后你会看到你想要发生什么,就像,假设你在这里使用的是一个线性模型,所以你的预测是由,第j个数据点。
记得是那个得到零号标签的,第i个数据点是得到一个标签的数据点,所以我们想要标签的分数,应该是数据点的分数,这应该高于数据点的分数,应该标为零的,只要数一数,这是一个指示器功能。
你只要数一数有多少是正确订购的,然后你就,你只需要通过你所做的比较的总数来归一化,事实证明,这正好等于ROC曲线下的面积,这清楚地表明,这是一个真正关心排名的概念,你得到排名了吗,你排名对吗。
那些应该得到更高一个的人,比那些应该得到零标签的,重要的是,整个度量实际上对标签不平衡是不变的,因此,您可能有一个非常不平衡的数据集,但是如果你要重新取样,现在使其成为一个平衡的数据集。
你的预测模型的AUC不会改变,当涉及到评估设置时,这是一个很好的属性,在那里,您可能为计算问题人为地创建了一个平衡的数据集,即使那里的真实环境不平衡,至少你知道两个设置中的数字是相同的,另一方面。
它也有很多缺点,因为你通常不关心整个曲线的性能,通常你会关心曲线上的特定部分,例如,在上周的讲座中,我争辩说真的,我们通常关心的只是特定阈值的正预测值,我们希望它尽可能高,尽可能少的人。
比如预测找到一百个最危险的人,看看他们中有多少人患上了二型糖尿病,你真正看到的是曲线的这一部分,所以事实证明有一些概念,曲线下的面积是概括的,专注于曲线的部分,这就是部分AUC的名字,比如说。
如果你从零到,让我们说,曲线的一点,那么你仍然可以得到一个数字来比较两条不同的曲线,但它有点集中在曲线的面积上,这实际上与你的预测目的有关,为了你手头的任务,关于接收者,我想说的就这些,算子,特征曲线。
有什么问题吗?我们更多地讨论了使用这个的缺点,因为平衡类是模型类,总是正的,所以问题是当你想使用这种方法的时候,你取决于你如何使用打印,你可能无法忍受8个点的假阳性率,所以在某种意义上,发生什么事了?
在曲线的这一部分可能与您的任务完全无关,所以其中一个算法,这些曲线中的一个可能看起来在这里做得非常非常好,在这里很差,但如果你看的是ROC曲线下的整个区域,你不会注意到这一点,所以这是一个大问题,是啊。
是啊,这个怎么样,你什么时候会用这个或者像一个精确的回忆,是啊,是啊,所以很多社区也对精确的回忆曲线感兴趣,及其精度回忆曲线,与接收器算子曲线相反,具有它们对类不平衡不不变的性质,在许多环境中。
这是有趣的,因为它允许你捕捉这些类型的数量,我不打算深入讨论,其中一个或另一个的原因,但这是你可以阅读的东西,我鼓励你发帖到广场,我们讨论了广场,我想说的评估量被称为校准和校准。
这里与二进制分类问题有关,在你深入了解这个数字之前,我一会儿就解释,让我给你我所说的校准的要点,假设你的模型输出一个概率,好的,所以你做逻辑回归,你得到一个概率,你的模型说这十个病人。
他们在接下来的四到八小时内死亡的可能性是七分之一,我想这就是你的模型输出的,如果你是那个结果的接收者,你听到七号了吗,你对那十个人有什么期望,在接下来的四年里,他们中有多少人应该死去,八小时。
每个人都可以大声尖叫,所以他们有七七个人,你预计在接下来的48小时内死亡的十个人中的七个,如果所有输出的概率是7点,但这就是我所说的校准,对呀,所以如果你发现只有一只死了,那么这将是一个非常奇怪的数字。
你的输出是正确的,所以这种校准的概念,我将在一秒钟内正式定义,当你输出一个概率时,当你真的不知道这个概率将如何使用时,如果你知道你是否有任务失败的想法,你知道重要的是实际的预测对1或0,那就没问题了。
但机器学习中的预测通常以一种更微妙的方式使用,比如,比如说,通常你的医生可能比你的电脑有更多的信息,他们可能经常想接受结果,你的电脑预测并与其他证据进行权衡,或者在某些情况下,它不仅仅是等待其他证据。
也许这也是关于做出决定,这个决定可能需要努力,实用工具,比如说,病人对,而不是接受可能会产生严重不良后果的治疗,皮特以后会更多地讨论这个问题,在这个学期,我想如何将这个概念形式化,但在这一点上。
我只想出去,概率本身可能很重要,让概率变得有意义是人们现在可以量化的事情,那么我们如何量化它,尝试量化它的一种方法是创建以下图T,实际上称之为直方图,所以在x轴上是预测的概率。
这就是我所说的y轴上的p帽,是真正的概率,这就是我的意思,当我说有预测概率的人中真正得到积极结果的比例时,这将是y轴,所以我称之为真正的概率,我们想看到的是,这是一条线,直线,在我举的例子中。
记得我说过有一群人有七种可能性预测,但对他们来说,只有一个人真正得到了积极的事件,所以应该是在这里,而你会期望它在那边,所以你可能会问,如何从有限数据中创建这样的图,嗯,一种常见的方法是绑定数据。
所以你会说你会创造间隔,所以这个垃圾箱是从零到零点一的垃圾箱,这个垃圾箱是从一个点到第二个点的垃圾箱,以此类推,然后你看,好的,有多少预测概率在零到零点1之间的人真的死了,你会得到一个号码。
现在我可以去这里,但这正是我在这里给你看的,所以现在,忽略底部的条形图,只看这条线,所以让我们只关注这里的绿线,我给你看几种不同的型号,就目前而言,只要把注意力集中在绿线上,所以顺便说一句,绿线注意了。
看起来还不错,几乎是一条直线,那么我是怎么计算的呢,嗯,首先注意滴答的数量是一二,三四五六七八九十,好的,所以这条线上有十个点,每一个都对应于其中一个垃圾箱,所以第一点是零到零,一点垃圾箱。
第二个点是点一和点二,以此类推,所有的权利,我就是这么计算的,接下来你会注意到我有置信区间,我计算这些置信区间的原因,是因为有时候你可能没有那么多数据在这些垃圾箱里,对,例如。
假设你的算法几乎从来没有说过某人有九点九的预测概率,那么在你得到大量数据之前,你不会有,你不会知道的,这些人中有多少人真正发展了这一事件,所以你可以,你应该看看这条线的置信区间,应考虑到这一点。
用不同的方式来理解这个概念,现在看数字,这就是我在条形图上给你们看的,在条形图的底部,我给你看分数,实际得到预测概率的个人数量或个人比例,所以嗯,现在,让我们开始比较线条,所以这个,嗯,的。
这里显示的蓝线是一个机器学习算法,它预测急诊室的感染,与我们前面看到的糖尿病问题略有不同,它使用了临床文本中的一袋单词模型,主要投诉,所以它使用一个结构化数据,你在某个时间点得到的,急诊室。
所以它使用的信息很少,你可以看到两个模型都校准得很好,但是但是间隔,红线和紫线的置信区间在接近尾声时变得非常大,如果你看看这些条形图,它解释了原因,因为使用较少信息的模型,最终更加厌恶风险。
所以他们永远不会预测到很高的概率,他们总是呆在这个较低的政权里,这就是为什么我们有很大的置信区间,好的,关于评估,我想说的就这些,我现在不会回答任何关于这个的问题,因为我很想继续剩下的课,但又一次。
如果你有任何问题,请发邮件到Piazza,我很乐意与你讨论,离线,所以总而言之,我们已经讨论了如何将风险分层简化为二元分类,我已经告诉过你如何操纵标签,我给你们举了一个机器学习算法的例子。
我和你谈过如何评估它,可能会出什么问题,所以让我们看一些例子,这些只是一小部分可能出错的例子,还有很多,所以这里有一些数据,我给你看的是我们在糖尿病发作前看到的同样的问题。
我给你看的是2型糖尿病的患病率,假设跨时间的诊断代码,对呀,所以结束了,这里是1980年,这边是二千零一十二,看,现在不是一条平坦的线了,那是什么意思,这是否意味着人们的饮食越来越不健康。
从1980年到2012年,所以越来越多的人患糖尿病,这将是一个合理的答案,另一个似是而非的解释是事情发生了变化,事实上,我给你看的是这些蓝线,事实上,糖尿病的诊断标准发生了变化。
所以现在病人的数量实际上没有太大变化,假设这个时间点在那个时间点,但真正导致这一大幅上升的是,根据一种理论,是因为诊断标准改变了,所以我们所说的糖尿病患者变了,因为疾病归根结底,人为的概念。
你知道我们怎么称呼一些疾病吗,所以数据在变化,就像你在这里看到的,让我给你看另一个例子,哦顺便说一句,所以这样做的结果是自动派生的标签,比如说,如果你使用这些表型分型算法之一,我之前给你看过了。
标签派生的规则,这里可能与从这里派生的标签非常不同,尤其是如果它使用的是数据,例如多年来含义发生变化的诊断代码。
所以这是一个后果,会有其他后果,我以后再告诉你,这里有另一个例子,顺便说一句,这个概念叫做非平稳性,数据在随时间变化,它不是静止的,这里是x轴上的另一个例子,我在这里给你看时间,每列都是一个月。
从二千零五到二千零四,在y轴上,我向你展示了这张桌子的每一行,我给你看一个实验室测试,这里我们不是在看实验室测试的结果,我们只是在观察进行了多少次这种类型的实验室测试,在这个时间点,现在你可能会期望。
从广义上讲,葡萄糖测试的次数,白细胞计数测试的次数,的数量,中性粒细胞测试等可能在平均时间内相当恒定,因为你平均超过了很多人,但实际上你在这里看到的是,有大量的非平稳性,哪些测试是有序的。
随着时间的推移会发生戏剧性的变化,所以说,比如说,你看这里有一条线,全蓝的地方,意思是,在这之前没有人命令测试,当人们开始使用它的时候,“那是什么主意?”,在测试被投资之前。
然后你意识到这样测试就用得更少了,或者在这种情况下根本没有使用,然后突然被用了,为什么会发生在后面,这是一个新的测试,对呀,因为技术的变化,对呀,突然我们想出了一种新的诊断测试,一项新的实验室测试。
我们可以开始用它,以前不存在的地方,所以很明显以前没有关于它的数据,它可能突然出现的另一个原因是什么,可能是这样的,我结账,呃,强制性,或者这是医院入院测试的一部分,做一些额外的测试。
我坚持你的第一个例子,嗯,也许那个测试变成强制性的,好的,所以也许有一个临床指南,在这个时间点创建的,健康保险公司决定我们要报销这次测试的费用,在这个时间点,测试可能真的很贵,所以没有人会事先做这件事。
现在健康保险公司要为此买单,现在人们开始这么做,所以它可能事先就存在了,但如果没有人愿意付钱,没人会用它,你可能会看到这样的东西的另一个原因是什么,或者中间有这样的空隙。
中间有一个巨大的缺口,什么可以解释,坚持住,抓住这里的臀部,也许欧洲人口大多处于一定的年龄和保险范围,是啊,是啊,所以所以一个解释,我认为在这个数据集中是不可信的,但对于一些数据集来说,这是合理的。
那也许嗯,也许你在零点的病人都是完全相同的年龄,对呀,所以也许有一些对齐,突然在这个时候,你知道的,你知道的,假设人们只得到女人只得到,一旦他们到了一定的年龄,所以这可能是一个原因。
为什么你会在某个时间点之前什么也看不见,也许这也会随着时间的推移而改变,也许他们会在更年期后的某个时候停止得到它,这不是真的,但让我们说,嗯,这是一种解释,在这种情况下,这是没有意义的。
因为病人群体非常混杂,所以你可以认为它大致处于稳态,所以他们不是,你知道吗,你们这里会有各种年龄的病人,还有什么原因有人在这里举手,是啊,是啊,我只想说你可以,呃,也许EMR关闭了一段时间。
所以他们只在纸上做事情,他们只是叮叮,叮叮叮,是呀,这是正确的,所以也许EMR关闭了,或者在这种情况下,我们有数据问题,对吗,所以这些数据是获得的,不知何故,比如说。
也许是通过与Web Quest或实验室核心等公司的合同要求的,也许在那四个月的间隔里,有一个合同谈判,所以突然间我们无法获得那段时间的数据,或者我们的数据库崩溃了,我们突然丢失了那段时间的所有数据。
这种情况经常发生,不仅仅是医疗保健行业,但其他行业也是如此,由于这些系统性类型的变化,你的数据在时间上也是不稳定的对吧,所以现在我们已经看到了三四种不同的解释来解释为什么会发生这种情况。
现实是所有这些的混合体,就像上一个一样,呃,所以在前面的例子中,请注意这里真正改变的是派生标签现在可能会随着时间的推移改变含义。
机器学习模型中使用的特征的重要性会随着时间的推移而改变,这就是这样做的后果之一,特别是如果您从实验室测试值驱动功能。
这里是最后一个例子,再次在这里的访问,我在y轴上有时间,我显示的是你观察到某种诊断代码的次数,这条青色线是ICD九号码,这条红线是ICD十个代码,你可能还记得皮特在之前的一次演讲中提到。
有一个很大的转变,在某个时候从i d 9编码到i d 10编码,那是什么时候,正是这个时候,所以如果你考虑特征向量,您将为您的机器学习问题导出,你将有一个功能为所有的I D九个代码。
和所有I D十个代码的一个功能集,这九个基于特性将是,你知道在这个时期它们会被大量使用,然后突然间,在这段时间里,它们将完全稀疏,我有十个功能开始被使用,你可以想象如果你用机器学习,只是ICD九个数据。
然后你尝试在这一点上应用你的模型,及时,它会做得很糟糕,因为它期待功能,它不再能够访问,这种情况经常发生,事实上,我在这里描述的实际上是整个医疗保健行业的一个主要问题,在接下来的五年里。
每个人都要努力解决这个问题,因为他们想把他们的历史数据用于机器学习,但是他们的历史数据和他们最近的数据有很大的不同,所以现在,面对我刚才描述的所有这些非平稳性,我们在糖尿病风险分层问题上做错了什么吗。
我告诉过你以前的想法,我怎么让你知道那是我的报纸,顺便问一下,我犯了一个错误吗,别害怕,我经常错,我只是特别问一下我评估模型的方式,这不是错误,但有一件事,如果我是医生,我想去看。
是对喜欢包含标准的敏感性,如果我像阿爸一样移除,例如,像大多数人一样,他们把RAS或IS比作,我不认为我会如此理解鲁棒性,到更改数据,一点是会摄入很多的东西,我同意,但非平稳性结果并没有立即表明这一点。
或者非平稳结果所暗示的东西,我们前排的助教有个主意,是啊,是啊,让我们听听,列车和测试分布是从相同的,或者训练和测试集从相同的分布中提取,所以我们在那里做评估的方式,我们说过,好的,我们要。
我们要把它设置好,在2009年1月1日,我们在预测未来三年会发生什么,我们把我们的病人分成火车,验证和测试,但在任何时候都使用相同的设置,现在的预测时间是二万零九年一月一日,我们学习这个模型。
现在是二十八岁,我们今天想应用这个模型,我计算了ROC曲线下的一个面积,我用回顾性数据计算了阳性预测值,我把这些交给了我的搭档,他们可能希望这些数字反映了他们今天的模型会做什么,但因为这些问题。
我刚才告诉你的是对的,例如,键入它的定义的人数发生了变化。
因为这里的精心设计忽略了这一部分,那只是侥幸,但事实上由于训练期间的实验室测试,可能和现在有的不一样。
因为我们现在只有十个ICD数据,不是ICD九号,出于所有这些原因,我们的预测表现现在会非常糟糕,尤其是因为最后一个问题,我们的预测模型现在会很糟糕,如果它是根据2008年或2009年的数据训练的。
所以我们永远不会认识到,如果我们使用我们在那里做的验证设置,所以我写了那篇论文,当我年轻天真的时候,我现在头发花白了一点,所以在我们最近的工作中,比如说,这是我们现在正在写的一篇论文。
由硕士生Mind海伦·佐完成,并正在研究预测抗生素耐药性,现在我们对过度评估设置更聪明了一点,我们决定把它设置得有点不同,我现在向你们展示的是我们选择火车的方式,为我们的人群验证和测试。
所以我们分割了我们的数据,所以这里的x轴是时间,这里的y轴是人,所以你可以把每个人想象成不同的一排,你可以想象我们随机排序的行,我们所做的是把我们的数据分成这四个象限,我们用于训练和验证的前两个象限。
顺便注意一下,我们有,嗯,训练集里的不同人,就像我们在验证集中所做的那样,这对另一个数量很重要,我一会儿就会谈到,所以我们用这些数据来训练和验证,这与我们在糖尿病论文中的方法非常相似,但现在进行测试。
我们用这个未来的数据好吧,所以我们使用14世纪20年代的数据,十六和一,可以想象两个不同的象限,你可能有兴趣知道同样的病人,你在训练中为他做了预测,你的预测在测试时对这些人的影响如何,嗯。
在未来的数据中,这是假设,我们预测的是,那本质上更短视,在这种情况下,它预测,他们会对一些抗生素产生耐药性吗,但你也可以看看完全不同的病人,在训练中根本没有使用,假设这两个桶根本不用于那些病人。
我们如何再次使用未来的数据,以及这种设置的优点,它真的可以帮助你评估非平稳性,所以如果你的模型真的利用了2007年的功能,二千零八年,两千零九年,但在2014年没有。
你会看到你的表现有很大的下降看着下降的表现,从这个时间段的验证集到这个时间段的测试集,性能的下降将唯一归因于非平稳性,所以这是诊断它的好方法,只是对非平稳性的澄清,是某些数据完全丢失的事实吗。
还是它只是编码不同,所以很难得到正确的映射,这两种情况都是对的,所以我现在有一个很大的研究计划,这不仅仅是问如何,所以这就是你如何评估和识别问题,但当然有一个非常有趣的研究问题。
这就是你如何利用非平稳性权利,例如,你有九个i和十个数据,你不想就这样扔掉ICD九号数据,有办法使用它吗,所以天真的回答,这也是社区今天主要使用的是想出一个映射权,使用它来绘制从9到I的手动地图,十。
这样您就可以手动将数据转换为这种新格式,这样你从过去学到的模型在未来就有用了,这就是无聊而简单的答案,但我想我们可以做得更好,例如,我们可以学习数据的新表示,我们可以直接学习映射,为了优化您最近的性能。
我们以后还有很多可以谈的,是的,这确实是一个非平稳的变化,这会让你发现的,但这并不能保证像RO一样,你应该纠正,对呀,所以这可以让你检测到非静止发生了,它允许你说你的模型将推广到2014年,两万六。
但是,当然啦,这并不意味着你的模型会推广到2006年,二千一十八,那么你是怎么做到的,你如何对那口井有信心,这是一个非常有趣的研究问题,我们今天对此没有很好的答案,从实际的角度来看。
我能回答的最好的我能给你的最好的,今天一直在建立这些制衡,如此持续,评估你在最新数据上做得如何,如果你看到大的变化,扔红旗,在部署过程中构建更多的制衡机制,如果你看到一群病人被预测,1的概率,在过去。
你从来没有预料到,概率一,可能会告诉你一些事情,在本学期晚些时候,我们将讨论健壮的机器学习方法,比如说,旨在对抗对手的方法,这些类型的方法也会让你更健壮,到特定类型的数据集移位,其中非平稳是一个例子。
但它是一个,这是一个很大的开放研究领域,所以为了确保我有同样的,理论上,如果您能将旧数据集映射到新数据集,就像编码一样,那些还可以吗,就像你在未来数据集上得到的结果一样,嗯,如果你能做一个完美的映射。
而且是一对一的,这些东西的分布也没有改变,那么你真正需要评估的是,数据集有移位吗,你的培训分布是多少,在与您的测试分布不相同之后,冒险,是呀,你们都很好,如果你不是,你有麻烦了。
应该是什么样子的测试和训练它在这里,什么二一三的标签,所以我们只使用了2007年的数据,二千零一十三,第三只使用了21416年的数据,但在像这样的情况下,就像你关心的结果发生在2007年,观察到你可以。
是啊,是啊,所以对于糖尿病问题,这里也有包含排斥,你必须处理的,我在这里给你看的,我说的是一个场景,在哪里,嗯,你在哪里,你可能会跨时间对病人做出多种预测,所以这是一个更短视的预测任务。
但对于糖尿病的情况,人们可以想出一个类似的例子,就像,比如说,只要撑起一半的病人,对于您的训练集,使用数据高达2000和9,并仅根据20013的数据进行评估,对于您的测试集,假装是一月,一圣,二十。
13和看性能高达2千1百17,也就是说,你正在改变你的预测时间,以使用最近的数据,所以下一个微妙之处是,这是我用的名字,这不是一个标准的名字,这就是我所说的,干预,受污染的结果,好的。
这里的例子来自你今天的阅读,阅读是一篇关于可理解的医疗保健模型的论文,预测住院肺炎风险,从K到D的30天入学人数,所以在那篇论文中,他们举了一个例子,这是试图使用预测模型的一个非常古老的例子。
了解病人入院时的死亡风险,他们学到了什么,他们使用了一种基于规则的学习算法,他们发现了一条规则,如果病人有哮喘,那么他们死亡的风险就很低,所以这些都是肺炎患者,所以一个患肺炎的病人,哮喘的死亡风险较低。
比一个患肺炎的病人,并且没有哮喘史,好的,这条规则是这么说的,这篇论文认为这个习得的模型有问题,你们谁还记得,那是一个今天没说话的人,拜托了,是啊,是啊,在后面,那些患有哮喘的人有更积极的治疗。
所以这意味着他们有更高的机会患有哮喘,进行了更积极的治疗,特别是,他们可能会被送入重症监护室进行更仔细的警惕,结果他们有更好的结果,是呀,完全正确,所以这背后的真实故事是风险分层。
正如我们在过去几周所说的那样,它被用来推动干预,以及这些干预措施,如果它们发生在过去,数据会改变结果,在这种情况下,你可以想象用所学的预测模型说一个新病人进来了,这个新病人有哮喘。
所以我们要说它们是低风险的,如果我们根据这个预测采取天真的行动,我们可以说,好的,让我们送他们回家,他们死亡的风险很低,但如果我们那样做了,我们可能会杀人。
因为他们低风险的原因是因为他们过去有这些干预措施,所以这里,照片上是这样的,你有你的数据,你试图在某个时间点做出预测,比如说新兴科室分诊,你想预测一些结果,y。
让我们假设病人是否在未来的某个决定性时刻死亡,现在的挑战是,正如你在那里看到的机器学习任务中所说的那样,你能接触到的只有X和Y,协变量,特征和结果,所以你从x预测y,但你把中间发生的一切都边缘化了。
在这种情况下,治疗,所以人们幸存下来的好结果可能是由于两者之间发生的事情,但在这两者之间发生的事情甚至没有在数据中观察到,必然,我们如何解决这个问题,嗯,我想让你首先想到的是。
我们能认识到这是一个问题吗,这就是那篇文章真正建议使用一个可理解的模型,一个你可以内省并试着理解一点的模型,实际上对认识到奇怪的事情正在发生非常重要,这是一个我们将在课堂上讨论的话题,在学期结束的时候。
和更多的深度,我们将讨论解释机器学习模型的算法,所以你必须认识到发生了什么是很重要的,但我该怎么办,所以这里有一些黑客,黑客一号修改模型,这是你读到的论文中提出的解决方案,他们说,好的。
如果学习算法输出给你的是一个简单的基于规则的预测,你可以看到没有意义的规则,你可以用你的临床洞察力来识别它,没有意义,你甚至可以解释为什么会发生,然后你只要把这个规则去掉就行了。
所以你把你的你手动修改模型,使它朝着更明智的方向发展,对呀,所以这就是建议,我认为这是胡说八道,就像,我认为这在当今世界是行不通的,在当今高维模型的世界里,总会有代理人。
它们以某种方式被你的学习算法拾取,你甚至认不出,很难按照你想要的方式修改它,也许用简单的方法是不可能的,顺便说一句,另一个有趣的研究问题,你如何在高维度的环境中真正做到这一点,但就目前而言。
假设我们不知道如何在高维环境中做到这一点,你还有其他选择吗?第二个黑客是重新定义结果,来改变你的预测,例如,如果你回到这张照片,而不是试图预测死亡为什么,如果你能找个代孕者,你关心的是预处理。
你反而预测了那件事,那你就可以重操旧业了,例如,在一个可选读数中,或者实际上,我觉得,在今天这门课的第二篇必读文章中,这是一篇关于败血症风险分层的论文,这通常是由感染引起的。
他们在那篇文章中展示的是有实验室测试结果,比如乳酸盐,还有其他人,可以给大家一个提示,这个病人可能会走向临床恶化,这项测试可能会在干预措施之前试图解决这种情况,所以如果你试图,如果你改变你的结果。
预测代孕,那么你就绕过了这个问题,我刚才指出的,现在第三个黑客是,嗯,Suchi Sara和她的科学转化医学学生的这篇论文,两千零一万五,这是一篇写得很好的论文,我强烈推荐阅读它。
他们建议将这个问题正式化为审查问题,这就是我们将要讨论的,今天讲座的最后三分之一,特别是他们说的是假设,假设你看到一个病人因这种情况而接受治疗,假设他们接受了败血症治疗。
那么如果病人接受了这种情况的治疗,那我们就不知道他们会怎么样,如果他们没有接受治疗,所以我们不观察结果,未治疗死亡,所以我们将把它作为一个未知的结果,对于那些没有接受治疗但最终死于败血症的病人。
那他们就不被审查了,我要给你看的是,在课程的后半部分是如何从删失数据中学习,所以这是另一个形式化,它试图解决我们指出的这个问题,现在我称这些黑客为,因为我真的认为我们应该做的是把它正式化。
使用因果关系的语言,一旦你做了这个内省,你意识到有治疗方法,事实上,你应该重新考虑这个问题,这是一个现在有三个数量的兴趣,病人来了,你在分诊时所知道的关于他们的一切,那是x变量。
我在结果出来之前给你看了,让我们说Y,然后中间发生的一切,特别是在两者之间发生的干预,我们称之为治疗,人们想问的问题,为了找出如何最佳地照顾病人,是将进入重症监护室的人之一,这就是我们在这里考虑的干预。
这会降低病人死亡的可能性吗,现在当我说降低,我不是指相关性,我是说因果关系,它真的会降低病人死亡的风险吗,我想我们需要用,实际上在思考因果关系,试图将其适当地正式化,如果你这么做了,这将是一个解决方案。
这将推广到我们在机器学习中关心的高维设置,这将是一个主题,春假后我们将深入讨论,但我想给你这个作为一个动力,为什么它如此重要,还有很多其他原因从因果的角度来思考,好的,所以第三个微妙之处。
媒体上有大量关于深度学习和医疗保健的炒作,很多都是有充分理由的,比如说,我们在从放射学和病理学到,到ekgs的解释都被深度学习算法改变了,但我一直告诉你的问题,在过去的几周里。
我对电子健康记录数据进行了风险分层,比如笔记,例如化验结果和生命体征,诊断码,那是另一回事,事实上,如果你仔细观察所有的文件,最近几年发表的所有论文,他们一直试图将深度学习算法的挑战应用于这些问题。
事实上,收益是非常小的,所以我在这里给你们看的只是这样一篇论文的一个例子,这是一篇受到媒体广泛关注的论文。这是一篇名为《可扩展和准确》的谷歌论文,电子健康档案深度学习,如果你穿越美国,如果你去国际。
你和首席医疗信息官谈谈,他们都会告诉你这篇论文,他们都读过,他们都听说过这件事,他们都想用它,但这实际上是在做什么幕后发生了什么,嗯,这篇论文使用了我们一直在讨论的相同种类的数据,你知道需要生命体征。
溺爱,订单,药物治疗,把它当成一个时间线,总结一下,然后使用递归神经网络,它还使用注意力架构,报纸上有一些很聪明的人,你知道吗,格雷格,兰多,杰夫,院长都是这篇论文的合著者,他们知道自己做得对。
所以他们用这些算法来预测许多下游问题,再入院风险,比如说,三天的任务,就像你在本周的阅读中读到的那样,他们看到他们得到了很好的预测,但是如果你去补充材料,有点难找,但这是你们所有人的链接。
我会把它贴到我的幻灯片上,如果你看看补充材料中的最后一个数字,你会看到一些有趣的东西,这是我在病人死亡率预测中研究的三个不同的任务,三十天再入院,停留时间预测,第一行。
这些桶中的每一个都是你的深度学习算法在这里做的,他们有两家不同的医院,我想可能是芝加哥大学和斯坦福大学,他们显示了洛克曲线下的区域,我们已经谈过了,为他们的最佳模型提供这些任务中的每一个的性能。
在括号里他们给出了置信区间,让我们说,大约95%的置信区间,现在,你看到的第二行叫做填充脚全功能增强样条,它使用的是相同的数据,但它用的是非常接近,你在报纸上看到的Naravian的特征表示。
关于糖尿病的论文,我告诉过你的预测,我们一直在批评,好的,所以它使用了L一正则逻辑回归,具有一组智能功能,好的,你在这三个设置中看到了什么,结果在物理上没有显著的不同,所以让我们来看看第一家医院。
深度学习点,九十五,a c这个l,回归点,九点半,再入境点,七十七点,七十五点,八十六点,八十五,内容间隔都是重叠的,发生什么事了,所以我想你在这里看到的,首先是机器学习社区认识到,在这种情况下。
最近才认识到,更简单的方法往往能很好地处理这类数据,我不认为这是他们尝试的第一件事,他们试图,可能是深度学习算法,首先,第二,我们都抓住了这一点,就像我们都想出这些更好的算法。
但到目前为止我们做得不太好,我马上就会告诉你更多,但在我完成幻灯片之前,我想给你一个妙语,我认为这真的很重要,你可能会从这里回家,说你知道吗,也好不到哪里去,但它更好一点,九十五点至九十三点。
假设是紧置信区间,但你知道可能会有一些病人的生命你可以用它来挽救,但因为我告诉过你的所有问题,到目前为止的非静止的,比如说,这些收益在许多情况下消失了,当你实际部署这些模型时,它们甚至会逆转。
由于数据集的移位或非平稳性,它这个,因此,当您的数据发生变化时,更简单的模型往往会更好地泛化,本文对此进行了很好的探讨,来自肯尼斯·荣格和尼甘·沙阿,生物医学信息学杂志,两千零一万五。
所以这是我想让你现在考虑一下的事情,让我们试着回答为什么,我们一直看到递归神经网络做得很好的领域,在,例如语音识别,自然语言处理,是经常,比如说,如果你在预测一系列单词中的下一个单词是什么。
前面的几句话很有预见性,比如接下来我要说的是什么词对吗,你很清楚,因为很明显打破了它,所以善于预测这类数据的模型,这并不意味着它们应该很好地预测,对于不同类型的顺序数据,顺序数据,顺便说一句。
它存在于许多不同的时间尺度上,住院的病人,你当时为他们得到了大量的数据,然后你可能会几个月没有任何数据,有大量缺失数据的数据,您应该及时保存的多变量观测数据,不仅仅是那个时候的一个字。
所以这是一个不同的设置,我们不应该指望为之开发的相同架构,其他问题现在将立即概括为这些问题,我确实猜测有很多非线性吸引力,深度神经网络在预测,但我觉得他们很微妙,我不认为我们目前有足够的数据来处理。
数据凌乱的事实,非线性相互作用是微妙的,我们只是现在找不到他们,但这并不意味着我们找不到他们,几年后,我认为这是一个非常有趣的研究方向,最后一个要指出的原因,就是要进入的功能。
这些类型的模型实际上是非常巧妙地选择的,特征,实验室测试结果,就像看着你的一个C,什么是一个C对,所以它是经过几十年的研究发展起来的,你认识到观察特定的蛋白质实际上是有信息的,作为关于病人健康的事情。
对呀,所以我们在这些模型中使用的功能是设计的,首先,它们是为人类设计的,其次,它们的设计是为了帮助你做出决策,有很大程度上独立于你所掌握的关于病人的其他信息的特征,所有这些都是原因,真的。
我想我们为什么要观察这些微妙之处,好的,所以在课程的最后十分钟,我得先问几个问题,因为我想通过所有的材料,但请在最后十分钟把它们寄到广场,我想稍微改变一下,谈谈生存建模,所以说。
我们经常想谈论预测某个事件的时间,所以这里的这个红点,这个对不起,这里的黑线就是我所说的事件,那个事件可能是,比如说,垂死的病人,这可能意味着一对已婚夫妇离婚,它可能意味着你从麻省理工学院毕业的那一天。
这里的红点表示被审查的事件,所以不管出于什么原因,我们没有这个病人的数据,It’第四步,他们在中间,所以我们知道事件不是在第四步之前发生的,但我们不知道,第四步之后什么时候会发生,因为我们有缺失的数据。
所以这就是我所说的权利,删失数据,所以你可能会问,为什么不直接使用分类,类似于此设置中的二进制分类,对所以,这正是我们之前所做的,我们考虑将糖尿病风险分层问题正式化,就像看一样,一到三年会发生什么。
在预测时间之后,那是一年的间隔,有几个原因,为什么这也许不是你真正想做的,首先,在训练期间可使用的数据较少,因为你突然把病人排除在外,嗯,或者这是一个不同的,呃,如果你如果你如果你有,嗯。
如果你有病人在这段时间内被审查,你在把他们赶出去,所以你在那里有更少的数据点,这是我们纳入排除标准的一部分,当您部署这些模型时,你的模特可能会说是,这个病人会在一到三年后患上二型糖尿病。
但事实是他们在三年后患上了二型糖尿病,所以你的模型会把这算作负面,否则就是假阳性,预测将是假阳性,但实际上你的模型并没有那么糟糕,对呀,我们做得很好,但我们没有得到正确的范围。
但他们确实在那个时间窗口之外被诊断出糖尿病,所以你对表现的衡量将是悲观的,对呀,你可能,你可能做得比你想象的要好,现在你可以尝试用很多方法来解决这两个挑战,你可以想象一个多任务学习框架。
在那里你试图预测一到两年后会发生什么,两到三年后会发生什么,三到四个,以此类推,每一个都是不同的二进制分类模型,您可以尝试通过多任务学习公式将这些模型的参数联系在一起,那会让你更接近你所关心的。
但我在最后五分钟要告诉你的是,是一种更优雅的方法来挑战试图处理这个问题,这类似于回归,这就引出了我的第二点,为什么不把这当成一个回归问题呢,预测事件发生的时间,你有一些持续的有价值的结果,诊断前的时间。
糖尿病,试着做最小化均方,最小化平方误差,试图预测连续的值,嗯,首先要考虑的挑战是记住,均方误差损失函数从何而来,它来自于认为你的数据来自高斯分布,如果你对这个高斯分布做最大似然估计。
结果看起来像是最小化平方损失,所以它对一个人的结果做了很多假设,它在假设结果可能是消极的,也可能是积极的,就像高斯分布不一定是正的,但这里我们知道t总是非负的,此外。
可能会有很长的尾巴我们可能不知道病人什么时候会患上糖尿病,但我们知道这不会是,现在,会在遥远的未来的某个时候,这可能看起来也很非高斯,所以典型的回归方法并不完全是你想要的,但还有一个非常重要的问题。
就是如果你天真地去掉那些删减点,比如你对那些从不观察时间的人做了什么,他们永远不会得糖尿病吗,因为他们被审查得很好,如果你把这些从你的学习算法中删除,那你是在歪曲你的结果,例如,如果你。
如果你想想糖尿病发病的平均年龄,如果你只看那些被观察到得糖尿病的人,离现在更近了,因为很明显被审查的人,从中心时间晚得多的人,所以这是另一个严重的问题,所以我们试图从数学上形式化它的方法如下。
现在我们应该考虑拥有数据,它再次具有X结果,我们通常所说的Y代表回归的结果,但在这里,我称之为大写T,因为到通风口的时间,现在我们有了一个额外的变量,所以它不再是元组,现在是b的三倍,b是一个二元变量。
也就是说,这是这个人被审查了,是表示审查事件的时间吗,还是它表示实际发生的事件是对的,所以这是区分红色和黑色的,所以黑色是b等于零,红色是b等于一,好的,所以现在我们可以学习T的密度p。
我也称它为t的f,它是在时间t时死亡的概率,与任何密度相关联,当然是累积密度函数,也就是从零到密度的任意一点的积分,我们实际上会看到一个减去CDF,所谓的生存函数,所以它看概率t。
事件的实际时间大于某个量小T,这当然只是密度从小t到无穷大的积分,对呀,所以这是生存函数,这很有趣,对呀,你想知道,病人可以在两年或更长时间后被诊断为糖尿病,所以从图片上来说,你感兴趣的是这样的东西。
你想估计这些条件分布,所以我称之为有条件的,因为你想把协变量限制在单个x上,所以我给你看的是,这条黑线就是你的密度,T的小F,这个白色的区域,从小T到无穷大的积分,意思是所有这些白色区域都是T的大写S。
存活时间比时间长的概率小T,好的,所以你可以做的第一件事是说我们得到这些数据,这些元组,我们想试着估计函数小f,在某个时候死亡的概率,或者等效地,您可能需要估计T的生存时间资本s,这是疾控中心的版本。
这两个和另一个有关系,只是通过一些微积分,所谓卡普兰迈尔估计器的方法,是估计T的生存概率资本的一种非参数方法,好的,所以这就是个体存活超过一段时间的概率,所以首先我要给你看,我会向你解释这个情节。
那我就告诉你怎么算,所以这个图的x轴是时间,y轴是T的生存概率资本s,它是个体生命超过这个时间量的概率,我想这是在几天内,所以五十万五千五百两千,顺便说一句,这个数字是我的一个学生创造的。
谁在研究多发性骨髓瘤数据集,所以你可以问,在什么协变量下,你想计算存活率,所以这里我要告诉你的这个方法是非常好的,当你没有任何功能的时候,对呀,所以你所要做的就是估计密度本身,当然。
你可以将这样的方法应用于多个群体,我在这里向你们展示的是将它应用于两个不同的人群,对,假设只有一个二进制特征,我们要把它应用到x等于零,x等于1,这就得到了两条不同的曲线,但我们在这里。
估计量将对两个群体中的每一个独立工作,所以你在这条红线上看到的是x等于零的种群,我们看到在时间零,每个人都像你所期望的那样活着,有时一千,大致你知道,百分之六十的个体在1000年前还活着。
这种情况保持不变,现在您可以看到,对于另一个子组,x等于一个子群,嗯再次,在时间步骤零,正如你所料,每个人都活着,但它们有时存活得更久,他们中的百分之七十五还活着,当然也很有趣,这里也是置信度平衡。
我不打算告诉你如何通勤,但在一些可选读数中,顺便说一句,在这些幻灯片的底部给出了更多可选的读数,所以你可以看到在统计上有显著的差异,x等于1,x等于零,这些人似乎比这些人活得更久。
你可以从这条曲线中立即得到,那么我们如何计算,嗯,我们把这些观察到的时间,那些资本,它的,嗯,在这里我要叫他们Y,我要把它们分类,所以这些是排序时间,我在看,我不在乎,它们是否被审查,好的,为什么每次。
对于所有的病人,不管它们是否被审查,DK当我想到的是一个,它是在那个时候发生的事件的数量,对呀,所以如果每个人都有一个独特的审查或死亡的时间,那么dk总是一个k在索引这些东西中的一个。
k的n是活着的未经审查的个人的数量,到第k个时间点,那么这个估计量说的是T的s,所以在任何时间点的估计量都是由产品给你的,使得k的y小于或等于t,所以它超过了观察到的时间,直到1的小T,减去1除以。
所以我在想DK,比当时活着的不受审查的人数多一个,这有一个非常直观的定义,人们可以证明这个估计量给了你一个一致的估计,活着的人数,对不起,在任何一个时间点我想要的生存概率的数。
用于传感器数据,这很关键,这适用于传感器数据,所以我今天没时间了,所以星期二的课我要看完最后几张幻灯片。
P6:6. Physiological Time-Series - 大佬的迷弟的粉丝 - BV1oa411c7eD
那么我将开始今天的讲座,通过简要回顾风险分层,星期四我们还没谈完生存模特的事,所以我会再深入一点,我将回答我们在讨论中和在广场上提出的一些问题,然后今天讲座的绝大多数内容,我们将讨论一个新的话题。
特别是生理时间序列建模,我将给出两个生理时间序列建模的例子,第一个来自监测重症监护室的病人,第二个问了一个非常不同类型的问题,的,今天我们将更深入地研究这些论文,我会在他们周围提供更多的颜色。
所以只是简单地提醒你我们周四在哪里,我们讨论了如何将风险分层形式化,而不是作为一个分类问题会发生什么,让我们说,在某个预定义的时间段内,而不是把风险分层看作一个回归问题或回归任务。
考虑到你对零点病人的了解,预测事件发生时间,所以说,比如说,在这里,事件可能是死亡,离婚,大学,毕业,和病人一,那个事件发生在第九步的时候,二号病人,那件事及时发生了第十二步,对于四号病人。
我们不知道那个事件是什么时候发生的,因为它被特别审查了,时间之后第七步,我们再也看不到病人的任何数据了,所以我们不知道那个红点什么时候会在未来的某个时候,或者永远不会,所以这就是我们所说的权利。
删失数据,这正是生存建模旨在解决的问题,首先有关于这个设置的问题吗,是啊,是啊,我意识到我在今天的演示文稿中把X和O翻了,但那不相关,所以T的f是死亡或事件发生在时间步T的概率,虽然在这张幻灯片中。
我把它作为一个无条件的模型来展示,一般来说,你应该把它看作是一个条件密度,所以你可能会受到一些协变量或特征的影响,那个,对于生存建模非常重要,接下来我要告诉你的是生存函数,将其注明为T的大写S。
这只是1减去累积密度函数,所以它是事件发生的概率,也就是时间,它在这里表示为大写T,大于某个小T,所以这个函数是由积分简单地给你的,从密度的零到无穷大,所以在图片中,这是x轴上的密度是时间。
y轴是密度函数,这条黑色曲线就是我所表示的f of t,这个白色区域是C的大写S,生存函数的生存概率,我只想说清楚,所以如果你把整个曲线积分,你知道无限,你会像我在这里向你描述的那样,是呀。
因为我们说的是活动的时间,但通常情况下,我们可能会在事件可能永远不会发生的情况下,所以你可以用几种不同的方式来形式化它,你可以把它放在无穷大s处的点质量,或者你可以简单地说,从零到无穷大的积分是一个量。
小于1,在我引用的阅读中,在那些幻灯片的最底部,它向您展示了如何轻松地修改所有框架,我在这里告诉你是为了处理这种情况,在这种情况下,事件可能永远不会发生,但为了我的陈述。
您可以假设事件总是在某个时候发生,这是一个非常,这是一个,这是一个非常小的修改,在那里你本质上把密度除以一个常数,这解释了它不会集成到一个,否则,现在,必须解决的关键问题。
当试图使用参数化方法进行幸存者建模时,那个F应该是什么样子,密度函数应该是什么样子,我在这里给你们看的是一些非常常用的密度函数的表格,您将显示您在这两列中看到的内容,右边的列是密度函数,T本身的f。
lambda表示模型的某些参数,现在是时候了,在中间的第二列上是生存函数,因此,对于这些特定的参数形式,这是通过解析解得到的,本质上,解那个从t到无穷大的积分,这是那个的解析解,所以这些都被称为指数。
韦伯,log,正常等等,而且批判性地,所有这些都只支持正实数,因为事件可能会在负时间发生,现在我们生活在一个时代,我们不再需要对密度做出标准的参数假设,我们可以,比如说。
试图将密度形式化为某种深度神经网络的输出,如果我们不使用参数化方法,所以有两种方法可以做到这一点,这样做的一个方法是说我们要为帖子建模,T的分布f作为其中一个,其中lambda或任何分布的参数是由。
让我们说,关于协变量的深度神经网络,所以这将是一种方法,一个非常不同的方法是非参数分布,你说,好的,我将非常灵活地定义t的f,不是作为这些形式之一,一个人遇到了一个稍微不同的挑战,因为。
我会给你看下一张幻灯片,做最大可能性,从删失数据估计这些分布,一个人需要得到,一个人需要利用T的生存函数,所以如果你的f是复的,对于t的s,你没有一个很好的解析解,那你就得。
在极限过程中以某种方式使用T的s的数值近似,所以绝对有可能,但这将需要更多的努力,所以现在,这就是我要讨论最大可能性的地方,这些分布的估计,并为您定义似然函数,我要把它分成两种不同的设置。
第一个设置是未经审查的观察,这意味着我们确实观察到死亡事件,比如说,发生,在这种情况下,事件的概率很简单,这只是事件发生在首都的概率,在大写t,随机变量t等于小t,只是T的f,然而,如果对于这个数据点。
你没有观察到事件发生的时间,因为审查得很好,当然,你可以扔掉那个数据点,不要在你的估计中使用它,但这正是我们提到的,在上周讲座的一开始,我们的目标是生存建模,不要那样做。
因为我们这样做是为了在我们的估计过程中引入偏见,所以我们希望能够利用这个数据点被审查的观察,但我们能从观察中得到的唯一信息是大写T,事件发生的时间一定比观察到的时间大一段时间,这里有点T的审查时间。
好的,所以我们不知道大写T的确切时间,但我们知道它比观察到的审查时间大一点,这正是生存功能所捕捉的,所以对于一个经过审查的观察,我们将在可能的范围内使用T的大写,所以现在我们可以把这两者结合起来。
以获得删失和未删失的数据,我们得到的是以下可能性目标,这是我在这里给你看的,上周的对数似然客观回忆,i中的小b只是表示这个观察是否被审查,所以如果我是一个就是一个,这意味着给你的时间是审查事件的时间。
如果i为零,意思是给你的时间就是事件发生的时间,所以这里,我们要做什么,现在是数据集中所有数据点的总和,从小i等于1到b的小n,删失模型下概率的i乘以对数,正一减i乘以未删失模型下的概率对数。
所以这个BI会打开,对于给定的数据点,你将使用这两个中的哪一个,所以这里最大似然估计的学习目标,与您在学习分布时所习惯的非常相似,对于删失数据有很大的区别,我们将用生存函数来估计它。
它的概率,有什么问题吗?还有这个,当然啦,然后可以通过您最喜欢的算法进行优化,不管是随机梯度,下降法或二阶法,等等,是的,关于这种东西的问题,你说过我们可以用网络,是呀,与公制相结合,是呀。
我们仍然有一个参数假设,我们把输入映射到参数,准确地说,完全正确,所以考虑下面的图片,嗯,在这里是时间,T,这是T的F,你可以想象任何一个病人,你可能有一个不同的功能,你可能。
但它们可能都是相同的参数形式,所以他们可能是那样的,也可能他们移动了一点,对呀,所以你想想这三件事中的每一件事,来自相同的分布参数族,但手段不同,在这种情况下,然后平均值作为深度神经网络的输出给你。
所以这将是使用的方式,然后一个可以以通常的方式返回繁殖来进行学习,会很抱歉,b子i只是一个指标。
第1个数据点被审查或未被审查,是呀,所以对于答案,或者喜欢,因为它更像是一个合适的,密度函数,但对于累积密度函数,是啊,是啊,但对于中心来说,像一个小社区,现在来看看答案,它的概率密度函数,是呀。
所以请原谅,把这两种类型结合起来会有什么问题吗,这是个很好的问题,所以观察到这里有两种不同类型的概率,在这种情况下,我们使用的是累积密度,而这里我们用的是概率密度函数,问题是这两个在不同的尺度上。
是它是它,你知道的,以这种线性方式将它们组合在一起是没有意义的,相同权重的,我认为这是有道理的,所以说,你想一个环境,你有一个非常,非常小的时间范围,对呀,你不确定这个事件是什么时候发生的。
是在这个时间范围内的东西,在传感器数据的设置中,时间范围可能非常大,你的对数概率不知何故会更平坦,因为你覆盖了更多的概率质量,所以观察,我凭直觉认为,可能对整个学习算法有一点较小的影响,或者这些。
你知道的,这些观察,你很清楚他们在哪里,所以当你偏离这一点时。
你有,a,你知道的,您招致相应的日志,但我确实认为把它们放在同样的规模是有意义的,如果有人,在座的每个人都做过模特并且都有不同的答案,我很想听,今天不行,但也许将来会有人以不同的方式回答这个问题。
我现在要继续前进了,所以我今天想说的剩下的问题,是如何评估生存模型的,所以说,我们谈了很多二进制分类,在一开始的风险分层背景下,我们讨论了ROC曲线下的面积是如何衡量分类性能的,但在这里我们做得更多。
更类似于回归的东西,不分类,用来衡量业绩的标准尺度,被称为C统计或一致性指数,它们是一样的,它的定义如下,它有一个非常直观的定义,它对可以相互比较的数据点进行求和,上面写着,好的,什么是。
事件发生的可能性有多大,对于事件之前发生的事件,另一个事件,你想要的是通风口的可能性,平均来说,本质上应该发生在以后,应该比应该更早发生的事件大,我将首先用这张图片来说明它,然后我再算算,这是照片。
然后我们谈谈数学,所以我在这里给你看的是,你的数据集中的每一个观察,它们按审查时间或事件时间排序,所以我用Black来说明未经审查的数据点,红色表示经过审查的数据点,所以在这里我们看到这个数据点。
事件发生在此数据点的审查事件之前,因为这个数据点被审查了,这意味着这是真正的事件时间,你可以在遥远的未来考虑它,所以我们想要的是模型给出,这个事件发生的概率,大于此时此事件发生的概率。
因为这实际上是先发生的,这两个放在一起是可以比较的,另一方面,把你们两个和你们四个比较是没有意义的,因为这两个都是经过审查的数据点,我们不知道它们发生的确切时间,所以说,比如说,很可能这件事也发生了。
所以我在这里给你看的是,与这些线中的每一条线进行的成对比较实际上是可能的,可以进行成对比较,当然,在实际发生的任何一对事件之间,你可以在审查事件和之前发生的事件之间进行成对比较,现在。
如果你现在看这个公式,这个指标中的这个公式是在看一个生存函数的指标,在数据点对之间,哪对数据点正是这些对数据点,我展示了,这里有这些蓝线,所以我们要对i求和,使b等于零,记住。
这意味着它是一个未经审查的数据点,然后我们看,我们把易和其他Y J相比,这很好,它的价值大于现在的审查和未经审查,如果您的数据中没有传感器数据点,然后你可以验证这实际上是对应的,哦,所以还有一个假设。
假设你的结果是二进制的,所以如果你想知道你是如何从这个中得到二元结果的。
想象一下你的密度函数看起来有点像这样,它可能发生在,你知道吗,一次或两次,对呀,所以像这样的事情,对所以如果这个,如果事件只能发生两次,不是整个时间范围,那么这将是一个类似于二元结果的结果。
所以如果你有这样的二元结果,没有审查,那么事实上,C统计量正好等于ROC曲线下的面积,所以这和我们习惯的事情有一点联系,只是为了确保,其中一个会是,我们观察一个事件,它会是什么。
我们知道在那件事之前没有任何事件,每个点对应一个事件,审查或不审查,它们在这个图中排序,它们按审查或事件发生的时间排序,当我谈到C统计量的时候,这是衡量生存建模性能的一种方法。
但你可能还记得当我们谈到二进制分类时,我们说ROC曲线下的面积本身是非常有限的,因此,我们应该考虑其他相关的性能指标,所以这里有一些你可以做的其他事情,你可以做的一件事是你可以使用均方误差,所以再一次。
把这个看作是一个回归问题,但当然,这只对未经审查的数据点有意义,所以只关注未经审查的数据点,看看我们在预测事件发生的时间方面做得有多好,人们可以做的第二件事,因为你有能力定义观察的可能性,审查或不审查。
人们可以保存数据,查看保存的可能性或日志,数据的可能性,你可以做的第三件事是你可以,在学习使用这个生存建模框架后,然后,人们可以通过以下方法将其转化为二进制分类问题,比如说。
人为地选择超过三个月的时间范围是一个,不到三个月是零,这将是一个船员定义,然后一旦你做了一个二进制分类问题的约简,您可以使用所有现有的性能指标来考虑二进制分类,去评估那里的表现,像正预测值这样的东西。
比如说,当然,你可以选择不同的缩减,得到不同的性能统计数据,所以这只是试图评估,幸存者建模,但它是一部非常非常丰富的文学作品,在这些幻灯片的底部,我给了你几个参考资料,你可以去了解更多。
我想做的最后评论,我在今天的课上只告诉过你们一个估计量,这就是所谓的基于似然的估计器,但是生存建模有一个完全不同的估计方法,这是非常重要的了解,它们被称为偏似然估计,对于那些听说过考克斯的人来说。
比例危险,模型,我知道他们在星期五的朗诵中讨论过,这是一类模型的一个例子,这是在偏似然估计中常用的,现在,在一个非常直观的层面上,这个偏似然估计器在做什么,它是用类似C统计量的东西工作的吗。
所以请注意C统计量是如何只查看事件的相对顺序的,他们的事件发生,它并不关心事件发生的确切时间,在某种意义上,有一个,有一个,有一个常数,在这个生存功能中,可以从这个不平等的两边分开,这不会影响统计数据。
所以人们可以思考学习这些模型的其他方法,我们想学习一个生存函数,使数据点之间的顺序正确,现在,这样的生存功能不会起到很好的作用,那是不行的,没有理由,这将有助于获得肯特事件发生的准确时间。
但如果你的目标是弄清楚,按风险对患者进行排序的顺序是什么,所以你要对十个最危险的人进行干预,那么得到不正确的订单就足够了,这正是这些部分可能性背后使用的直觉,估计数,他们专注于比最初目标少一点的事情。
但这样做,他们可以有更好的统计复杂性,这意味着他们需要大量的数据来适应这个模型,一次又一次,这是一个非常丰富的话题,我想做的是给你一个指针,这样你就可以去阅读更多关于它的信息,如果你对此感兴趣,好的。
所以现在进入回顾,我们上周讨论的最重要的一点是关于非平稳性,有一个问题贴在广场上,这真的很有趣,这就是你实际上如何处理非平稳性,我说了很多关于它存在的事情,我谈到了如何测试它。
但我没说如果你有它该怎么办,所以说,所以我觉得这是一个很有趣的问题,我也会在课堂上讲一点,所以简短的答案是,如果您必须有一个明天部署的解决方案,那么这里有一个有时有效的黑客,你拿你最近的数据。
比如过去三个月的数据,你希望在过去的三个月里没有太多的非静止的,你扔掉所有的历史数据,你只需要使用最新的数据来训练,所以有点不满足,因为您现在可以学习的数据可能非常少,但你知道如果你有足够的音量。
它可能已经足够好了,但从研究的角度来看,真正有趣的问题是,如何最佳地使用历史数据,所以这里有三种不同的方法,所以一种方法与归责有关,想象一下,你的数据是非平稳的,因为有,假设某些功能不可用的时候。
我上周给你们举了一个实验室测试结果的例子,我向你展示了有时会有很大的时间块,没有实验室任务可用的地方,或者很少可用,嗯,幸运的是,我们生活在一个高维数据的世界,这意味着数据中通常有很多冗余。
所以你能想象的是,把你观察到的缺失的特征,使得缺少此属性,事实上,在归责后随时间变化不大,如果作为预处理步骤这样做,它可能允许您利用更多的历史数据,一种与,这与转换数据有关,而不是把它归咎于。
把它完全转换成另一种表示,使表示在时间上不变,这里我给你一个Ganneal的这篇论文的参考,来自机器学习研究杂志,讲述了如何进行神经网络的域学习和变体学习,这是这样做的一种方法,我认为这两者非常相似。
归算与变换,第二种方法是对数据重新加权,使其看起来像当前数据,所以想象一下你回到过去,你说你知道吗,我有十个代码,因为一些非常奇怪的原因,顺便说一句,这不是真的。
ICD代码在这个不真实的世界里的十个代码,碰巧在2003年3月至4月间使用,然后直到2015年才再次使用,所有的权利,所以与其扔掉以前的所有数据,我们将认识到十年前间隔三个月的那些。
实际上是从一个非常相似的分布中提取的,我们今天要测试的是,所以我们要把这些数据点加权,并对不太像今天的数据点进行加权,这就是这些加权方法背后的直觉,我们将更多地讨论这一点,在因果推断的背景下。
不是因为这两个要做对方,但他们有,他们最终使用了一种非常相似的技术来处理,数据集移位或协变量移位,我将提到的最后一种技术是基于在线学习算法,所以那里的想法是,可能会有切点,跨时间改变点。
所以也许数据看起来是向上的,直到这个变化点,然后突然间数据看起来真的不同,直到这个变化点,然后突然间,数据在未来看起来非常不同,就在这里,我向你展示,有两个数据集移位发生的变化点。
这些在线学习算法是做什么的,他们说,好的,假设我们被迫在这段时间内做出预测,只使用历史数据在每个时间点做出预测,我们可以以某种方式认识到可能会有这些转变,我们可以设计对这些变化鲁棒的算法。
然后人们可以试着用数学分析,根据他们必须后悔的程度来分析这些算法,比如说,一个确切知道这些变化是什么时候的算法,当然,我们不知道这些变化是什么时候发生的,所以有一个完整的算法领域试图做到这一点,在这里。
我只是给你一个最近的作品的引文,从而得出风险分层的结论,这是这里的最后一张幻灯片,我可能会问你的问题,下课后,我们已经讨论了将风险分层正式化的两种方法,首先作为二进制分类,第二次作为回归,在回归框架中。
一个人必须考虑审查,这就是为什么我们称之为生存建模,在我们的例子中排名第二,在下周的家庭作业中排名第二,我们会看到变量通常,最具预测性的特征很有意义,就在糖尿病病例中。
我们说我们看到了糖尿病合并症患者是如何,比如高血压或肥胖的病人很可能会得糖尿病,所以你可能会问自己,有什么因果关系吗,有一些特征是非常有预测性的,事实上,导致病人患上二型糖尿病的原因,比如说。
肥胖引起糖尿病,这是我想警告你的地方,你不应该用因果的方式来解释这些非常具有预测性的特征,尤其是当一个人开始处理高维数据时,就像我们在本课程中所做的那样,原因很微妙,我们会在因果推理课上讨论这个问题。
但我只是想给你一个指针,既然你不应该那样想,几周后你就会明白为什么,最后我们讨论了处理丢失数据的方法,我给了你一个糖尿病病例的特征代表,它是为了处理丢失的数据而设计的,上面说有什么诊断代码吗。
二百五十点零,一个月和最近三个月,如果有,你有一个,如果你不在零,所以它的设计是为了识别你没有信息,也许在那个窗口的很长一段时间里,丢失数据也可能是危险的,如果这种缺失本身导致了你的非平稳性。
这将导致您的测试分布看起来与您的列车分布不同,这就是基于估算的方法实际上非常有价值的地方,不是因为当一切顺利时,它们提高了你的预测准确性,而是因为当事情出错时,它们可能会提高你的预测准确性,所以。
在哪里,他们使用高斯过程模型,在病人的连续生命体征中估算出许多缺失的数据,然后他们使用递归神经网络来预测,根据估算数据,所以在这种情况下,真的有两件事在发生,首先是这种对数据集移位的鲁棒性。
但还有第二件事也在发生,这与您拥有的数据量和,通过估算预测问题的复杂性,有时你会让你的问题看起来更简单,更简单的算法可能会成功,否则他们会因为没有足够的数据而失败,这就是你在上周的阅读中看到的。
我已经完成了风险分层,我要为房间里的每个人休息一分钟,然后我们从这节课的主题开始,也就是生理时间序列建模,所以这里有一个婴儿做得不太好,这个婴儿在重症监护室,可能是个早产儿,也许是一个婴儿有一些。
慢性疾病,和,家长当然很担心,这个宝宝得到了非常密切的监控,它连接到许多不同的探针,这里有一个,它说明了一个三探针,三铅,ecg,那个,我们将讨论,更多,它在测量它的心脏,宝宝的心脏怎么样了,嗯。
在这里,在这里,这个数字三,我是附着在婴儿脚上的东西,它正在测量,它是,这是脉搏检测仪,它正在测量婴儿的氧饱和度,血液中的氧气量,第四个是一个探头,它正在测量婴儿的温度等等,所以你知道。
我们真的对这个婴儿进行了非常近距离的测量,因为我们想知道这个婴儿怎么样了,我们认识到婴儿的健康状况可能会突然发生变化,我们希望能够尽早认识到,在这个婴儿旁边的幕后,你当然会有大量的监视器。
每个监视器都显示这些不同信号的读数,这种类型的数据在重症监护室非常普遍,但你们也会在今天的课上看到,这些数据的某些方面现在也开始进入家庭,例如,ekgs现在可以在苹果和三星手表上使用,以帮助理解。
帮助诊断心律失常,即使是在家的人,因此从这种类型的数据,有许多非常重要的用例需要考虑,第一个是认识到我们经常得到非常嘈杂的数据,我们想试着推断出真正的信号,所以想象一下,比如说,像。
婴儿的真实体温可能是98。5,但无论出于什么原因,我们今天将在这里看到几个原因,嗯,也许你得到了93的观察,你不知道的是,实际上婴儿的真实温度,在这种情况下,我们会有很大的麻烦,或者这是一个异常的读数。
所以我们喜欢区分这两件事,我们感兴趣的,不一定完全理解婴儿在每一个轴上发生了什么,但我们只是想把这些数据用于预测目的,风险分层,比如说,所以,我们在这里要采用的机器学习方法的类型,将取决于以下三个因素。
首先,我们是否有标记数据可用,比如说,我们知道婴儿真实体温的真实情况吗?至少对训练中的一些婴儿来说,第二次,我们有一个好的,这些数据如何随时间演变的机制或统计模型,我们对心脏很了解,比如说。
心脏病学是医学中研究得很好的领域之一,有很好的心脏模拟器,以及它们如何穿越时间,以及这是如何影响全身的电刺激的,如果我们有这些好的机械或统计模型,没有太多的标记数据或只是没有太多的数据周期。
真的是这三点,我想在今天的讲座中说明两个极端,当你没有太多数据的时候你会做什么,你所做的,当你有大量的数据时,你能做什么,我想这对我们来说会很有帮助,当我们走向世界,我们必须解决这两个设置中的每一个。
所以这里有一个例子,两个不同的婴儿有着非常不同的轨迹,x轴上的一个是以秒为单位的时间,这里的y轴,我想秒,也许几分钟,这里的y轴是婴儿心率的每分钟跳动,你看,在某些情况下,它确实上下波动很大。
在某些情况下,它在一个方向上是类似的,在所有情况下,短期观测与长期轨迹有很大不同,所以我想让我们思考的第一个问题是试图理解,我们如何在第一个发生的事情的真相之间转移,比如说,病人的血压或氧气。
与发生在他们身上的干预措施,在底部,我展示了干预的例子,在这个氧气摄取中,我们注意到大约1000到2000秒,突然没有任何信号,这就是所谓的辍学的一个例子,在这里,我们看到了不同干预的不同类型的效果。
这是由于探针重新校准,那时有一个辍学,随之而来的是价值观的突然变化,这真的发生在重新校准的步骤上,这两起案件,随着时间的推移,个体所发生的事情可能是相对不变的,但是所观察到的东西受到这些干预的显著影响。
所以我们想问一个问题,我们能识别出这些人为过程吗,我们能确定这些干预发生在那些时间点吗,然后如果我们能识别他们,那么我们就有可能减去它们的影响,这样我们就可以,我们可以估算我们现在知道丢失的数据。
然后把这个更高质量的信号用于下游的预测目的,比如说,现在,这可能非常重要的第二个原因是解决这个问题,称为报警疲劳,警报疲劳是当今医学面临的最重要的挑战之一,随着我们在风险分层方面做得越来越好。
当我们想出越来越多,这意味着这些危险信号越来越频繁地被升起,每一个都有一些相关的假阳性率,所以你做的测试越多,假设假阳性率保持不变,你的测试越多,所有这些的结合就越有可能是一些,一些错误。
所以当你在重症监护室的时候,警报一直在响,发生的事情是护士们最终开始忽视这些警报,因为这些警报往往是假阳性,或由于,比如说,就像我在这里给你看的一样,所以如果我们有技术,比如我们现在要讨论的技术。
它可以识别什么时候,比如说,病人心率的突然下降是由于一种人工制品造成的,而不是因为病人的真实心率下降,如果我们有足够的信心区分这两件事,那么我们可能不会决定升起红旗,这可能会减少假警报的数量。
这可能会减少报警疲劳,这可能会对医疗保健产生非常大的影响,所以这个技术,我们今天要讨论的是切换线性动力系统,这里的人以前在底部的这张照片上见过这样的照片,大约一半的房间,所以对于房间的另一半。
我要给一点,概率模型的一点回顾,你们现在都熟悉了一般概率,所以你习惯了思考。
比如说,um单变量高斯分布,我们讨论了如何模拟生存,这是这种分配的一个例子,但是今天的讲座,我们现在要考虑的是多元概率分布,特别是,我们将考虑病人的状态,假设他们的真实血压随时间变化。
所以现在我们感兴趣的不仅仅是某个时间点的随机变量,但同样的随机变量在第二个时间点,第三个时间点,第四个时间点,第五个时间点以此类推,所以我在这里向你们展示的是一个图形模型,也称为贝叶斯网络。
这是说明多元概率分布的一种方法,具有特殊条件独立性的,属性,一个节点对应一个随机变量,所以这描述了x 1到x上的联合分布,所以这是十二个随机变量的多元分布,事实上,这是用阴影表示的,只是表示在测试时。
当我们使用这些模型时,通常这些y变量被观察到,而我们的目标通常是推断x变量,那些通常是不被观察到的,这意味着我们的典型任务是做后验推理,推断x是给y的,现在与这个图相关联。
我已经告诉过你节点对应于随机变量,这个图告诉我们这个联合分布是如何分解的,它将按以下方式分解,作为i随机变量概率在随机变量上的乘积,我要用z来知道一个随机变量,所以把z看作x和y的并集。
我把Z父母的价值观强加给父母,i,所以我假设这个因式分解,特别是对于这个图形模型,它被称为马尔可夫模型,它有一个非常具体的因式分解,我们将从这个定义中读出它,所以我们先按顺序来,x一,然后你一个。
然后x2,然后你们两个,以此类推,它是基于一个,到此图的子遍历的路由,所以第一个随机变量是x 1,第二个变量是y 2,Y的父母是什么,对不起,你的父母是谁?每个人都可以大声说x 1,好的。
所以在这个因式分解中,y 1只依赖于x 1,下一个,我们有x2,x 2的父母是什么,大家大声说x 1,好的,那我们就有你们两个了,你们两个的父母是谁?每个人都大声说x 2等等,好的。
所以这个联合分布将有一个特别简单的形式,这是通过这里所示的因式分解给你的,这个因式分解与特定的图一一对应,就像我刚才告诉你的那样。
就这样,我们可以定义一个非常复杂的概率分布,由许多简单得多的条件概率分布,比如说,如果每个随机变量都是二进制的,然后描述给定x 1的y 1的概率,x 1的每个值只需要两个数字,要么是零,要么是一。
我们给出y=1的概率,然后当然,等于零的概率是1减去那个右,所以我们可以用许多小得多的分布来描述非常复杂的联合分布,现在,我之所以这样画。
就是,因为我们对这个问题的时间动力学做了一些非常有力的假设,特别是,事实上,3只有一个来自x2的箭头,而不是来自x1的箭头,三条件独立于x一,如果你知道x2是值,在某种意义上,把这看作是向右切割。
如果你要从模型中取出x 2,并去除所有入射在其上的边缘,那么x1和x3现在彼此分离,现在独立的,对于那些了解图形模型的人来说,你会认识到我所做的那种独立的声明是唯一正确的,对于马尔可夫模型。
贝叶斯网络的语义有点不同,但实际上对于这个模型来说,他们是一体的,所以我们要对条件分布做以下假设,先在这里展示一下,我们将假设XT是给你的,高斯分布,记住X T,比如说,t表示时间步长。
假设在这张照片中只有三个取决于,条件分布仅依赖于前面的时间步长,值x 2或x t减一,所以你会注意到我在这里是怎么说的,xt将被分发为,但这里唯一的随机变量可以是xt-1,根据这个假设,特别是这些假设。
我们假设它是某种高斯分布,其平均值是x t减去1的某种线性变换,并且具有固定的协方差矩阵q,所以在这个过程的每一步,下一个随机变量是前一个随机变量的随机游动,你根据高斯分布移动的地方,以非常相似的方式。
我们假设y t也是高斯分布,但现在取决于,所以我想让你们把XT看作是病人的真实状态,一个汇总他们血压的矢量,他们的氧饱和度,一大堆其他参数,或者甚至只是其中之一,其中一个是你观察到的。
假设x 1是病人的真实血压,Y一是观察到的血压,你的显示器发出什么,所以一个合理的假设是,如果我们都是平等的对吧,如果这是一个真实的观察,那么y应该非常接近x,就像,所以说。
你可以假设这个协方差矩阵是协方差是,方差非常非常小,为什么一个要非常接近x一个,如果这是一个很好的观察,当然啦,如果这是一个嘈杂的观察,例如,如果探头与婴儿断开,那么Y一个应该和X一个没有关系。
对世界实际状况的依赖,我在这里用这些上标表示,T的S,我现在忽略了这一点,我会在下一张幻灯片中把它带进来,同样地,x 2和x 1之间的关系应该是1,它捕捉到了我在前面的幻灯片中展示的一些动态。
就在我展示的地方,现在这是病人跨越时间的真实心率,让我们说正确的注意如何,如果你看得很局部,看起来有一些非常,非常大的局部动力学,然而,如果你再看得更全球化,有一些平滑,但又有一些。
它看起来像是一些随时间的随机变化,所以,那些漂移必须以某种方式总结在这个模型中,随机变量,我一会儿就会更详细地讨论这一点,我刚才给你们展示的是一个线性动力系统的例子,但它假设这些事件都没有发生。
这些艺术品都没有发生,我们想要使用的实际模型,还将结合这样一个事实,即可能会有工件和建模,我们需要引入额外的随机变量来对应这些工件是否发生,这就是现在的模型,所以我要让这些,S的,这些是其他随机变量。
它们表示人为事件,它们也在随着时间的推移而进化,例如,如果在三秒钟处有一个人为事件,也许在四秒处也有一个人为事件,我们喜欢模拟这些之间的关系,这就是为什么你有这些箭。
然后我们解释我们得到的观察结果的方式取决于,病人的真正价值,以及是否有人为事件,你会注意到还有一个边缘,从人为事件到真正的价值,注意到这些干预实际上可能会影响病人,比如说。
如果你给他们一种药物来改变他们的血压,然后呢,那个程序会影响下一次,病人血压的阶跃值。
所以当一个人想学习这个模型的时候,你必须问自己你有什么类型的数据可用,很难在地面上获得数据,真理,病人怎么了?以及这些文物是否真的发生过,相反,我们实际上得到的只是这些观察结果,就像我们得到的。
我们得到这些非常嘈杂的血压随时间变化。
所以本文所做的是使用最大似然估计方法,它认识到我们将从丢失的数据中学习,我们将明确地考虑这些X和S,作为潜在变量,我们将最大限度地提高整个模型的可能性,在X和S上边缘化,所以只要最大化Y上的边际可能性。
现在对于那些以前研究过无监督学习的人来说,你可能会认识到这是一个非常困难的学习问题,事实上,可能性是非凸的,人们可以想象各种各样的学习启发式,比如渐变,血统,或者正如本文所使用的期望最大化。
因为这种不凸性,这些算法中的每一个通常只会达到可能性的局部极大值,所以这张纸用的是EM,它直观地在推断那些缺失的变量之间迭代,所以在给定当前模型的情况下,估算x和s,做后验推断来推断缺失的变量。
给定使用当前模型的观察变量,然后一旦你输入了这些变量,试图修改模型,这就是最大化的m步,它更新模型,只是在这两件事之间迭代,那是一种学习算法,也就是,保证达到局部极大值的可能性,在某些规律性假设下。
所以本文使用了这个算法,但你需要问问自己,你是否只保留了Y,这个算法能恢复任何接近真实模型的东西吗,比如说,这里可能有大量的不可识别性,你可以交换S的意思,你在Y上也会得到类似的可能性。
这就是引入领域知识变得至关重要的地方,所以这将是一个我们没有标签数据的例子,或者很少的标记数据,我们将对这个模型进行无监督学习,但我们将使用大量的领域知识,为了尽可能地约束模型。
那么这个领域的知识是什么呢?我们要利用我们知道的事实,真实的心率以一种非常好的方式进化,用自动回归过程建模,所以本文所用的自回归过程,用于模拟正常心率动力学,一会儿。
我会告诉你如何建立异常心率观察的模型,直觉上,3。我先把我的直觉告诉你,然后再给你算一算,直觉上,它所做的是,它认识到这个复杂的信号可以分解成两部分,这里显示的第一个部分称为基线信号,如果你眯着眼睛。
你忽略了非常局部的波动,这就是你得到的,然后你可以看看减去这个信号的残差,从这个信号中减去这个基线,你得到的是这样的,在零均值附近,所以有一些随机波动的零均值信号,这里的波动以更快的速度发生。
然后和原始基线,所以BT和这个残差的和是一个非常,它看起来和真实的心率完全相等,这两件事中的每一个我们都可以很好地建模,我们可以通过随机游走来建模,它走得很慢,我们可以通过随机游走来建模,它走得很快。
这正是我现在要在这里展示的,在左手边,我们将把这个基线信号建模为高斯分布,它被参数化为不仅仅是BT减一的函数,但也有英国电信减二和英国电信减三,所以我们要取一个加权平均数,前面的几个时间步骤。
我们在那里平滑,本质上观察,前面的几个观察,如果你,如果你是一个敏锐的观察者,你会注意到这不再是马尔可夫模型,比如说,如果这个,如果这个p1和p2等于2,这对应于二阶马尔可夫模型。
因为每个随机变量取决于前两个时间步长,马尔可夫链的,嗯等,呃,之后,您将通过这个过程对BT进行建模,得到这个光滑的属性,然后你用这个自动攻击的过程来建模x t减去bt,你可能会在哪里,比如说。
看看前面的几个时间步骤,你认识到你只是在做更多的随机波动,这就是人们现在如何模拟正常心率动力学,再说一遍,这是一个统计模型的例子,这里没有心脏被使用的机械知识,但我们可以很好地拟合正常心脏的数据。
但是下一个问题,最有趣的是,人们现在如何建模人工制品事件,因此,这就是一些机械知识的来源,所以一个模型是探测器退出,从婴儿身上取出探针,那就不应该再有,或者至少如果你在一小段时间后。
不应该再依赖婴儿的真正价值,比如说,血压,一旦血压探头被移除,不再与宝宝的真实血压有关,但缺乏依赖可能会推迟一些时间,所以这将被编码在一些领域知识中,例如,从婴儿身上取下温度探头时的温度探头。
它又开始升温了,或者它开始冷却,所以假设环境温度比婴儿的温度低,你把它从婴儿身上拿下来,它开始冷却,它冷却的速度有多快,你可以假设它冷却下来,婴儿的体温呈指数级下降,这是非常合理的,你可以想象。
也许如果你只标记了几个婴儿的数据,你可以试着很快地拟合指数的参数,这样我们就参数化了温度探头的条件分布,给定状态以及工件是否发生,用这个非常简单的指数衰减,在这篇论文中,他们给出了一种非常相似的类型。
他们做出相似类型的相似类型的假设,对于所有其他探针,你应该考虑一下,作为约束这些条件分布,我给你看了这里,它们不再允许是任意分布,所以当一个人现在期望最大化,试图最大化数据的边际可能性。
你现在已经约束了它,在这里学习的一切都不同了,所以所以在这篇论文中,他们的评价,我为每个婴儿做了一点微调,特别是,他们假设接近开始的前30分钟是正常的动态,所以没有人工制品,这当然是一个很大的假设。
但他们用它来微调,动态模型,为每个婴儿和他们自己微调,然后他们研究了试图识别人为过程的能力,我想慢慢地通过这个情节,因为它很有趣,所以我给你看的是,这里是一个ROC曲线。
预测四种不同类型工件中每一种的能力,例如在任何一个时间点是否有血液样本被采集,或者在任何一个时间点都没有核心温度脱节,核心温度探头的,并对其进行评估,他们假设他们有一些标记数据用于评估目的,只是。
当然你想在最远处的左上角,我们展示的是什么,这里有三条不同的曲线,非常微弱的虚线,我要用光标追踪,是基线,把它看作是一个更糟糕的算法,好的,对不起,就是那条线,大家都看到了,这个方法是另外两条线,现在。
有什么区别,另外两条线对应于特定类型的近似推理算法,用来做后验推断的,根据你嘈杂的观察来推断x的真实值,这里给出的模型实际上是一个非常难的推理问题,从数学上来说,我认为可以证明这是一个NP难计算问题。
所以他们必须以某种方式近似它,他们在这里使用了两种不同的近似值,第一次近似是基于,他们所说的高斯和近似,这是一个确定性的近似,第二种近似是基于蒙特卡罗方法,你在这里看到的是,高斯和近似实际上要好得多。
对吧,例如,在这个血样中,ROC曲线是这样的,对于高斯和近似,而对于蒙特卡罗近似,它实际上要低得多,这只是为了指出,即使在这种情况下,我们的数据很少,我们使用了大量的领域知识。
一个人如何做数学的实际细节,特别是,近似的推断可以对系统的性能产生很大的影响,所以这也是一个人应该深入思考的事情,我要去滑梯,然后简短地提到这个,这是对事件的推断,在这里。
我向你们展示了三种不同的观察结果,在底部,我展示了人工制品何时的预测,两个不同的人为事件发生了,这些预测实际上是相当好的使用这个模型,所以我做完了第一个例子,然后嗯,只是为了回顾那个例子的要点。
我们几乎没有标记的数据,我们正在使用一个巧妙选择的统计模型来解决这个问题,内置一些领域知识,这可以走得很远,所以现在,我们将换位讨论另一种类型的问题,涉及生理数据。
这是检测心房颤动,我给你看的是一个带电的核心设备,我有一个这样的,所以如果你想来我的二五五四五办公室,你可以,你可以随便玩,如果你把它贴在你的手机上,它就会,它会告诉你,它就会,它会告诉你,你的。
通过心脏的电导,通过你的两个手指触摸这个设备来测量,如图所示。
由此可以检测出病人是否患有心房颤动,那么什么是心房颤动,好问题萨纳鳄梨,这是美国心脏协会的,他们将心房颤动定义为颤抖或不规则的心跳,也称为心律失常,最大的挑战之一是它可能导致血凝块,中风,心力衰竭等。
下面是一个病人如何描述心房颤动,我的心怦怦直跳,它的节拍就像在敲打我的胸壁,尤其是当我提着东西上楼梯或弯腰的时候,让我们试着看看它的照片,好的,所以说,这是正常的心跳,和。
如果你看看正常心跳的心电图信号输出,它会是这样的,它大致对应于不同的,对应的信号,心跳的不同周期,现在对于一个患有房颤的病人来说,看起来更像这样,如此明显的不正常,至少在这个数字中。
如果你看汽车旋转的信号,看起来也很不一样,所以这只是给你一些直觉,我的意思是什么,因心房颤动,所以我们现在要做的是检测它,所以我们要把这样的数据,并试图将其分为许多不同的类别。
这是已经研究了几十年的东西,去年在二十七年,麻省理工学院的罗杰·马克教授举办了一场比赛,它试图看清楚,怎么可能,我们有多擅长找出哪些病人有不同类型的心律,基于如下所示的数据,所以这是一个正常的节律。
也叫窦性心律,这里是心房,这是一个例子,一名患有房颤的患者,这是另一种节律,不是心房颤动,但不正常,这是一个嘈杂的录音,比如说,如果一个病人,你知道,他们的两个手指不是很好,放在装置的两根引线上。
其中一个类别我们可以预测,你知道的,这些信号中的一个我们可以预测它来自哪一类,所以如果你看看这个,你可能会意识到,哦,它们看起来有点不一样,对呀,你们中的一些人能猜出什么可能是预测特征吗。
区分这些信号中的一个和后面的另一个。
其中一个山峰的存在或不存在,QRS情结就像关键波,我想说英语,对于不知道这些术语是什么意思的人来说,有一大块,我们可能可以消耗一毫伏,还有一个高峰,这有点像他们在正常节律和良好节律之间有相反的极性。
好的,你是心脏病专家吗,不,好的,哈哈哈,所以呃,学生的建议是人们可以寻找这些倒置,试着用不同的方式来描述它,嗯,所以我在这里,你在暗示,这些倒置的缺乏预示着异常的节律,另一个可能是预测性的特征呢。
是的,山峰之间的间距更不规则,随着节拍之间的间距更加不规则,随着AF的节奏,所以你看着这个,你看这个间距和这个间距有很大的不同,而在正常的节奏中,间距看起来非常有规律,所有的权利,好,好的。
所以如果我给你们看40个这样的例子,然后让你把一个新的分类,我是说,如果你不能做得相当好,我会感到惊讶的,至少在正常节律和AF之间熄灭声,因为这里似乎有一些非常明确的信号,当然啦,当你进入替代方案时。
故事变得更加复杂,但让我更深入地挖掘一下我的意思,所以让我们定义其中的一些术语,嗯,心脏病专家对此研究了很长时间,他们有我给你看的东西,这是一个心脏周期,你可以给每一座山峰起名字。
你会在正常的心脏周期中看到,这样,例如,那个非常高的峰被称为R峰,你可以看看,比如说,间隔,所以这是这是一个节拍,你可以看看间隔,在一个拍的R峰和另一个峰的R峰之间,并将其定义为RR间隔,以类似的方式。
一个人可以拿,顺便说一句,人们可以找到信号的不同独特元素,每一次每一步都对应着心脏处于不同的位置,为了健康的心脏,这些都是相对确定性的,所以你可以观察其他距离,也可以从这些距离中获得特征。
就像我们在讨论一个节拍内和跨节拍。
片段和,嗯,是啊,是啊,我不知道片段和间隔有什么区别,还有人知道吗,我是说,我想间隔可能是山峰的头部,而片段可能指区间内。
那是我的猜测,有没有人知道,更好,但为了今天上课的目的,这是足够好的理解,所有的权利,关键是这是很好理解的,对吧,我们可以从中得出一些特征,那么传统的方法,在这个问题上。
这是我从2002年的一篇论文中得出的数据,它能做的就是接收信号,它会对它进行一些过滤,然后它会运行一个峰值检测逻辑,会发现这些山峰,然后它将测量这些峰值之间的间隔以及在一个节拍内,它需要这些计算。
或者根据它做一些决定,所以这是一个传统的算法,它们工作得很合理,那么我所说的信号处理是什么意思,嗯,这就是一个例子,我鼓励你们中的任何一个人今天回家,尝试编码一个峰值查找算法,没那么难。
至少不是为了得到一个好的,你知道你可能会想象保持一个运行的标签,到目前为止你看到的最高信号是什么,然后你看看,什么是,第一次掉的时候,第二次,下一次它上升得比,假设上一个,你知道的。
假设你知道你想找的那个,当下降是最近到最大值的最大值除以2时,然后你说好,然后你重置,你可以想象用这种方式非常快速地编码一个寻峰算法,嗯,所以这只是再次给你一些背后的直觉,传统的方法是什么。
然后你可以很快看到,你知道一旦你开始观察高峰之间的一些间隔,仅这一点就足以预测,病人是否有房颤,这是2001年的一篇论文中的一个数字,我在显示一个病人的时间序列,所以x轴是针对单个病人的,他们的节拍。
心脏在时间中跳动,Y轴只是显示上一个节拍和当前节拍之间的RR间隔,在底部,病人是否被评估为必须在,有正常的节律或心房颤动,这里注意到的是这个较高的值,所以这些是AF节奏,这很正常,这又是AF。
你可以看到,RR间隔实际上让你走得很远,你注意到这里有多高吗,突然掉了下来,我们的间隔下降了一会儿,那是病人有房颤的时候,然后它又上升了,然后它又掉下来,以此类推,所以它不是确定性的,关系。
但肯定有很多信号,所以你可能会说好,嗯,下一步我们能做什么来清除信号,再多一点,所以说,向后闪,从2001年到1970年在麻省理工学院学习的,这不是麻省理工学院,这是另一个地方,对不起。
但仍然是1970年,他们使用了马尔可夫模型,与我们刚才讨论的马尔可夫模型非常相似,在上一个示例中,对正常RR间隔序列进行建模,与一系列异常的,比如说,或者我们的间隔看起来像,就这样,人们可以认识到。
对于任何一个RR间隔的观察本身可能不是,完全有预见性,但如果你看看它们的序列,对于一位房颤患者,它有一些共同的模式,你可以,人们可以通过观察该序列的可能性来检测它,在这两种不同的模型下,正常和不正常。
这做得很好,甚至比,比以前预测心房亲子关系的方法,好的,这是我想从麻省理工学院说的论文,现在是1991年,这也是罗杰·马克的小组,现在这是一种基于神经网络的方法,上面写着,好的,我们要拿一堆这些东西。
你知道我们将推导出一系列这些区间,然后我们要把它扔进一个黑匣子,有监督机器学习算法预测患者是否有房颤。
所以这些首先是,这里有一些简单的方法工作得相当好,在这个领域使用神经网络并不是什么新鲜事,但是我们作为一个领域在哪里,所以正如我提到的,去年有一场比赛,我在这里给你看的是,引文来自获奖方法之一。
这种获胜的方法真正将两种范式结合在一起,提取物,大量的专家派生特性,如图所示,这些正是你可能认为的类型,最大值是我们的不规则度量,你可以想象的一系列不同的事情,从数据手动派生。
你把所有这些特征都扔进机器学习算法,也许是一片随机的森林,也许神经网络无关紧要,你得到的是一个稍微好一点的算法,如果你自己想出了一个简单的规则,所有的权利,这就是获胜的算法,和在摘要文件中。
他们推测那口井,也许他们是一体的,他们期望卷积神经网络会赢,和,他们感到惊讶的是,没有一个获胜的解决方案涉及卷积神经网络,他们推测这可能是原因,为什么是,因为,也许有这八千个病人,他们有一个主意。
这不足以给更复杂的模型带来优势,所以现在翻转到今年,你在自然医学阅读中读到的文章,斯坦福大学小组现在展示了卷积神经网络方法,这在很多方面都是极其幼稚的,它所做的就是,它把序列数据。
没有试图理解潜在的生理学,从中预测可以做得非常非常好,所以我想强调几个不同之处,到之前的作品,首先,传感器不一样,而之前的工作使用了斯坦福大学的这篇论文中的活核心传感器。
他们使用了一种叫做ZIO贴片的不同传感器,它附着在人体上,可以想象噪音要小得多,对呀,所以这是一个很大的区别,第二个大区别是有更多的数据,而不是从现在开始训练8000个病人,他们有九万多张唱片。
从五万个不同的病人到训练第三个主要的区别是现在,而不仅仅是试图将其分为四类,正常,现在我们将试着把它们分为14个不同的类别,在哪里,本质上,分裂另一个阶级,不同类型异常节律的更精细的颗粒细节。
这里有一些其他的异常节奏,像完全的心脏传导阻滞,嗯,还有一堆我不会念的名字,他们从每一个中收集了大量的数据,然后我真的这么做了,报纸上没有描述,但我和作者谈过了,他们用一种非常有趣的方式收集了这些数据。
所以他们反复进行训练,他们看看他们的错误在哪里,然后他们去收集了更多来自该亚类患者的数据,所以这些其他类别中的许多都非常低于,在一般人口中可能代表性不足。
但他们实际上在他们的数据中收集了很多这种类型的病人,用于培训目的,所以我认为这三件事最终产生了很大的不同,那么它们的卷积网络是什么,嗯,首先,这是一个一维信号,所以它和conv网有点不同。
你通常在计算机视觉中看到,我会给你看一个例子,在下一张幻灯片中,这是一个非常深的模型,所以三四层,在这张照片中,它经过了许多层,每一层都由整流的线性单元组成,每一层都有子采样,所以你从一个非常宽的信号。
如此漫长,你知道的,我不记得一秒钟长的信号有多长,总结成许多更小的维度,然后在底部有一个完全连接的层,为你的预测做什么,然后他们还有这些快捷连接,它允许您将信息从早期的层传递到网络的最末端。
对于那些熟悉剩余网络的人来说,甚至可以进入中间层,这是同样的想法,那么什么是一维卷积,嗯,它看起来有点像这样,所以这是信号,我将只是近似它,一堆1和0,我会说这是一个,这是一个零,这是一个一,以此类推。
嗯,卷积神经网络有一个与之相关联的滤波器,然后将该筛选器应用于一维模型,它是以线性的方式应用的,它只是取过滤器的点积,值与信号在每个时间点的值,所以它看起来有点像这样,这就是你得到的。
所以这是单个滤波器与整个信号的卷积,我在那里做的计算,所以说,比如说,第一个数字来自前三个数字的点积,用过滤器一零一,所以它是,加3乘以零,加1乘1,也就是三个,好的。
接下来的每一个数字都将以相同的方式计算,我通常会让你弄清楚最后一个是什么,但我会让你在家做,这就是一次反褶积,所以他们对许多不同的过滤器都这样做,这些滤镜中的每一个都可能是一个不同的透镜。
每一个都会检测不同类型的信号模式,就这样,在有了许多层之后,人们可以自动地,提取许多早期工作中使用的相同类型的信号,但也更灵活地检测一些新的,保留你的问题,因为我需要结束,所以在你读到的报纸上。
他们谈到了他们是如何评估这一点的,所以我现在不打算深入讨论,我只想指出他们使用的两个不同的指标,所以他们使用的第一个度量是他们所说的顺序误差度量,你看到的是每个病人都有很长的序列,他们贴上了不同的标签。
该序列进入异常的一秒钟间隔,正常等等,所以你可以问,我们有多擅长沿着序列标记每个不同点,这是一个序列度量,不同的,第二个度量是集合度量,它观察病人是否有异常,1。你在哪儿发现的?所以从本质上说。
这是在每一秒钟的间隔中提取一个或一个,然后看着病人,从临床诊断的角度来看,集合度量可能是最有用的,但当你想反省并理解这发生在哪里时,那么顺序度量很重要,关键是从他们的报纸上带回家的信息。
如果你比较模型的预测,这是我认为使用F1度量,嗯,你会从心脏病专家小组那里得到什么,这些模型也做得很好,如果不是比这些心脏病专家小组更好的话,所以这是非常令人兴奋的,这是技术还是方差。
或者这是你现在将要看到部署的技术,所以对于那些购买了这些苹果手表的人来说,这些三星手表,我不知道他们到底在用什么,但如果他们使用类似的技术,我也不会感到惊讶,将来你会看到更多这样的事情。
所以这将是这门课的第一个例子,所以总而言之,我们经常处于数据不足的领域,在今天的这节课中,我们举了两个例子,你可以首先处理这个问题。
你在设置中工作,因为你没有太多的数据,和其他极端,你确实有很多数据,你可以试着忽略这一点。
P7:7.Natural Language Processing (NLP), - 大佬的迷弟的粉丝 - BV1oa411c7eD
我们谈论的是自然语言处理在医疗保健中机器学习中的作用,这将是一种异构的演示文稿,主要是今天我要谈谈发生的事情,或者利用不基于神经网络表示的方法,星期二,我要讲话了,主要是关于依赖于神经网络表示的东西。
但我不确定界限会落在哪里,我还邀请了那边的凯瑟琳·廖医生,他们将和我一起参加问答和采访,就像我们几周前做的那样,和大卫·凯特在一起,是伴侣医疗保健系统中的风湿病学家,你会听到我们一起做的一些工作。
在过去,在我们去面试之前,大概,这两节课的大纲是,我想谈谈为什么。
我们关心临床文本,然后我要谈谈一些,概念上很有吸引力,但实际上不是非常可行的方法涉及到分析这些叙事文本,作为语言实体,作为语言对象,以语言学家接近它们的方式,然后我们将讨论经常做的事情。
这是一种术语定位方法,可以说,我们可能无法准确理解叙述中发生的一切,但我们可以识别出某些单词和短语,这些单词和短语具有高度的指示性,病人有某种疾病,某种症状,对他们做了什么特别的事情。
所以这是很多面包和黄油,当今临床研究是如何进行的,然后我会继续一些其他的技巧,所以这里有一个例子,这是来自Mimic的出院总结,当你玩拟态的时候,你注意到它被识别了,所以名字和东西都被方括号取代了。
明星明星明星之类的东西,在这里我已经取代了,我们用合成名字代替了那些,所以瞎子先生,真的不是瞎子先生吗?等等,但我想要一些读起来像真实文本的东西,所以如果你看这样的东西。
你看盲人先生是一个79岁的白人白人男性,所以有人重复了一个有糖尿病和下MI病史的词,他在11月13日接受了扩大的憩室的开放修复,又在某个地方,那不是实际地方的名字,然后他发展了Hebretamesis。
所以他在吐血,因呼吸窘迫被插管,所以他呼吸不好,所以关于盲人先生的遭遇,这些都是非常重要的事情,所以我们希望能够利用这一点,事实上,为了给你一个稍微量化的版本,我在2010年左右做了一个项目。
我们在看的地方,试图理解,类风湿性关节炎的遗传相关性有哪些。
所以我们去了马萨诸塞州综合医院的研究病人数据库,和布里格姆,伴侣的医疗保健,我们说好,病人是谁,他们因类风湿性关节炎就诊而被收费,有成千上万的人,然后我们随机选择了一组,我想有四百个病人。
我们把它们给了风湿病医生,我们说这些人中谁真的患有类风湿性关节炎,所以这些是基于账单代码,那么你会猜到什么,是积极的,具有计费代码的预测值,本数据集中的类风湿性关节炎,我是说,有多少人认为超过50%。
好的,那就太好了,但不是有多少人认为不止两个,百分之五,神啊,你们变得很悲观,嗯,也不是,结果发现,在这个队列中,大约有19%的人,在你打电话之前,你知道的,欺诈调查员,你得问问自己。
为什么这个数据这么差,因为这些账单代码不是创建的,以便具体说明病人的问题所在,它们是为了告诉保险公司或医疗保险,或者某个人,照顾他们的医生应该得到多少报酬,所以这意味着,比如说,如果我抓住我的胸膛。
一辆救护车把我送到麻省总医院,他们做了一大堆测试,他们决定我没有心脏病发作,那次访问的正确账单代码是心肌梗塞,因为,当然啦,他们必须做的工作,为了弄清楚我没有心脏病发作,与他们必须做的工作相同。
发现我心脏病发作了,所以我们以前讨论过的账单代码,但它们是现实的一个非常不完美的表现,所以我们说好,好的,什么,如果我们坚持你有三个账单代码,治疗类风湿性关节炎而不仅仅是一个,这提高了积极的预测值。
高达2。7%,好的,所以你去,真的,你怎么能得到三次正确的账单,嗯,答案是你会收到账单,你知道的,你在医院吃的每一片阿司匹林,例如,为同样的事情积累三个账单代码是很容易的,因为你去看医生。
医生给你开了类风湿性关节炎的账单,他,或者她送你去看放射科医生,给你的手指和关节拍X光片,该账单是,医生还送你去实验室抽血,这是类风湿性关节炎的另一个账单代码,可能所有这些都是负面的。
你实际上没有这种疾病,所以这是一件非常重要的事情,当你分析这些数据时,要记住,所以我们开始了这个项目,说好,我们需要得到一个正的预测值,大约90,百分之五。
因为我们想要一个真正患有这种疾病的人的非常纯净的样本,因为我们要从那些病人身上提取血样,付一大笔钱给那个女人分析他们,然后呢,希望能更好地了解他们的基因和疾病之间的关系,当然还有。
如果你和生物统计学家交谈,就像我们做的那样,他们告诉我们,如果我们有超过5%的数据库损坏,那么我们将从中得到毫无意义的结果,所以这就是这里的目标,所以我们所做的是说好,如果你训练一个数据集。
它试图告诉你,某人是否真的患有类风湿性关节炎,基于刚刚编纂的数据,所以编码的数据是像实验室值和处方这样的东西,人口统计数据和表格形式的东西,然后我们得到了大约88%的积极预测值。
他说我们能做得多好而不是看那些编码的数据,看叙事文本,在护理笔记中,医生的笔记,出院摘要,各种其他来源,1。我们能不能做得更好,答案是我们得到了大约89,大约89%,只使用自然语言处理这些音符。
毫不奇怪,当你把它们放在一起的时候,联合模型给了我们大约94%的,好的,所以这绝对是一个进步,这是2010年出版的,所以这不是板凳上最新的热门结果,但对我来说,这是一个非常引人注目的故事。
这些临床叙述有真正的价值,好吧那么,我们是怎么做好这件事的,我们在EMR中接受了大约400万病人,要求他们至少有一个icd,类风湿性关节炎九码,然后我们,哦,是五百不是四百。
所以我们看了500个我们有金本位读数的案例,然后我们训练了一个算法来预测这个病人是否真的患有风湿性关节炎,这预测了大约35个井,三千五百八十五例,然后,我们对其中的400个验证集进行了采样。
我们用身体伤害威胁我们的风湿病医生,如果他们没有阅读所有这些案件并给我们一个金本位的判决,否,我开玩笑的,我是说,他们真的很合作,这里有一些细节,你可以在幻灯片中看到,我有一个指向原始论文的指针。
如果你对细节感兴趣的话,但我们在看类风湿的ICD九号代码,关节炎及相关疾病,我们排除了一些ICD九号代码,对我们感兴趣的样品是正确的,我们处理了这个多重编码,忽略一周内发生的代码。
这样我们就不会在同一次访问中遇到多张账单的问题,然后我们寻找各种各样的电子处方,我们寻找实验室测试,主要是射频,类风湿因子与抗环柑橘肽,如果我发音正确,我们不仅在这项研究中发现了另一件事。
但在其他一些情况下,计算一下数据库中有多少事实是很有帮助的,关于一个特定的病人,这是一个不错的代理,他们有多病是对的,如果你不是病得很重,你往往有一点点数据,如果你病得更重,你往往有更多的数据。
所以这些是队列选择,然后从叙述性文本,我们使用了一个由张清建立的系统,她的同事当时被称为高科技,今天绝对不是最先进的,但这是一个从叙事文本中提取实体的系统,并为其时代做了出色的工作。
我们从医疗保健提供者的笔记中做到了这一点,放射学和病理学报告,出院摘要,执行情况报告,我们还提取了疾病诊断笔记,来自相同数据的提及,药物实验室数据,放射学检查结果,等等,然后我们扩大了该工具附带的列表。
用手工策划的不同方式说同样的话,为了扩大我们的覆盖面,我们玩否定检测是因为,当然啦,如果一张纸条说病人没有X,那么你不想说病人有X,因为提到了X,我一会儿再多说几句。
所以如果你看看我们用逻辑回归建立的模型,这是一种很常见的方法,你发现有积极和消极的预测因素,预测器实际上是基于自然语言处理的有趣组合,和那些被编纂的,例如,你有类风湿性关节炎。
如果一张纸条说病人患有类风湿性关节炎,这很好地证明了他们有,这又是一个很好的证据,然后是侵蚀等等,但它们也被编纂成法典,比如,如果你在实验室测试中看到类风湿因子呈阴性,那么嗯,实际上是什么。
我不知道为什么,那是,哦不,这对,好的,然后各种排除,所以这些是我们选择的东西,我之前给你看了结果,所以我们能够得到一个积极的预测值,大约是9点,四,是啊,是啊,上一张幻灯片,你说标准化回归系数。
那么你为什么要标准化,也许我说错了,但就在之前,我觉得,所以逻辑回归中的回归系数通常只是赔率,比率,对呀,所以他们告诉你诊断的可能性是大还是小,哪里写着,标准化,我不知道为什么这是一个标准化的。
你知道为什么这是一个标准吗,所以有几件事,一个是当你在数据集上运行一个算法时,你不能用同样的系数,因为每个人都不一样,所以我们不想让人们觉得他们可以,在另一件事上,当你标准化的时候。
可以看到系数的相对权重,一种措施,不是每个系数有多重要,所以这是我们的方式,如果你能看到我们用标准回归系数对它进行了排名,所以NLP在一个上面,一个是你知道的重量最高的,而其他DD,你知道。
再借给它一点点。
好的,所以是的,变量,像nlp a这样的词,上面写着,类风湿性关节炎在文中用这些类似的礼物是值得的,是啊,是啊,如果假设它的现在,所以否定算法希望能找到,如果它说它不在,你不会得到那个功能,所有的权利。
所以这里有一件有趣的事情,这个小组我没有参与这个特定的项目。
说得好,我们能在范德比尔特和西北大学复制这项研究吗,所以我们在那些地方有同事,他们也有电子病历系统,他们也对识别类风湿性关节炎患者感兴趣,所以合作伙伴有大约400万病人,西北大学得了两分二。
范德比尔特得了1分7秒,我们不能运行完全相同的东西,因为,当然这些是不同的系统,所以药物,例如,从他们当地的EMR中以非常不同的方式提取,自然语言查询也以不同的方式提取,因为范德比尔特,比如说。
已经有了一个工具,他们会试着把笔记中的任何文本翻译成ummls概念,我们一会儿再讨论,所以当我听说这项研究时,我的期望是这将是一场灾难,它根本行不通,因为有局部影响,地方因素,人们描述病人的地方方式。
我认为这将是非常不同的,令我惊讶的是,他们发现事实上这很有效所以模型的性能,即使考虑到从笔记中提取数据的方式,和临床系统不同,现在相当相似,令人担忧的是我们算法在数据上的ppv,我们计算PPV的方式。
比我们发现它时的方式要低,所以这是有技术原因的,但我们得到了不同的结果,这仍然令人不安,这里描述了这里的技术原因,PPV是从数据的五倍交叉验证中估计出来的,而在我们的研究中,我们有一个数据集。
从中我们计算了正预测值,所以这是一个不同的分析,不是我们犯了什么算术错误,但这很有趣,你看到的是,如果你在,或者如果你画ROC曲线,你看到的是,西北数据培训,对合作伙伴或范德比尔特数据的测试都不太好。
但是在合作伙伴或范德比尔特数据上进行培训,在其他任何一个身上测试都很不错,所以算法有一定的通用性,所有的权利,我要换一下档,这是十九年前巴罗斯的一篇旧论文,在电子病历系统中,他想出了一张纸条。
上面的文字就在左手边,在护理笔记中,只是它没有很好地分成单独的线条,都是一起运行的,那么这意味着什么呢,有人有线索吗,当我看着它的时候,我没有,所以解释是这样的,那是个约会,注意:
啜泣并不是你所想的那样,它是指呼吸急促,母鹿用力时呼吸困难,所以当你用力时,这是呼吸困难,但这可能比以前的一些评估有所下降,病人生命体征稳定,所以VSS和病人是一个发热的AF。
这可能不是任何人都可以读的,除了写它的人,或者他们的直系亲属和同事,所以这是一个真正的问题,我们现在还没有一个很好的解决方案,你用什么,用于井的nlp,我提到过,嗯,那个,我们想做的事情之一。
出现在音符中的东西,所以如果上面说类风湿性关节炎,我们想说好,这相当于一个特定的ICD9代码,我们可能希望使用自然语言处理来去识别数据,在你知道模仿之前我提到过。
罗杰·马克的团队获得许可发布数据的唯一方法,并让像你这样的人使用它是通过说服IRB,我们已经很好地处理掉了所有的识别信息,在所有这些记录中,所以从技术上来说,这可能不是不可能的。
但很难弄清楚病人到底是谁,在那群人中,在那个数据库里,我们要求你签署数据的原因,使用协议是为了处理剩余的,你知道很难,但不一定不可能,由于与其他数据的相关性,然后你有小问题。
就像亨廷顿先生患有亨廷顿病一样,其中第一个亨廷顿受到保护,健康信息,因为这是病人的名字,第二个亨廷顿实际上是一个重要的医学事实,所以你不会想摆脱那个,您希望确定每个实体的方面,它的时间,它的位置。
它的确定性,您希望查找文本中标识的不同实体之间的关系,比如说,一个在,另一个,是不是,因为它,它治疗它吗,防止它,表示一下,等等,所以有一大堆这样的关系我们很感兴趣,然后也适用于某些类型的应用。
你真正想做的是识别文本记录的哪一部分,解决了一个问题,所以即使你不知道答案是什么,你应该能够指着一张唱片说,哦,这告诉我,在这种情况下,病人的运动方案,总结也是一个非常真实的挑战,尤其是因为切割和粘贴。
由于这些电子病历系统,当护士在写一张新纸条时,它很有诱惑力,并得到了系统的支持,他或她只是拿着旧纸条,把它复制到新的音符上,然后也许做一些改变,但这意味着它是非常重复的。
同样的东西被一遍又一遍地记录下来,有时这甚至不合适,因为他们可能没有改变所有需要改变的东西,另一件要记住的事情是有两个非常不同的任务,例如,如果我在做身份识别,基本上,我必须仔细阅读叙述中的每一个字。
以便查看它是否受保护的健康信息,但我经常需要做出总体判断,其中许多词没有任何区别,例如,我们在2006年参加的第一个挑战之一,是我们给人们的地方,医疗记录,叙述性文本,一堆病人的记录,然后说。
这个人抽烟吗?你可以想象有些词很有帮助,像吸烟者或烟草使用者,或者类似的东西。
但即使是这些有时也会误导人,例如,他不是吸烟者,然后你有有趣的案例,比如病人两天前戒烟了,他们到底是不是吸烟者,还有综合判断,比如队列选择。
不是你需要知道的关于这个病人的每一件事。
你只需要知道它们是否符合某种模式,所以让我给你一个小小的历史笔记,所以这碰巧是我的博士论文导师做的工作,那边幻灯片上的那位先生,他在1966年发表了这篇论文,称为计算机英语。
在秋季联合计算机会议的会议记录中,这是20世纪60年代的大型计算机会议,他的想法是做英语的方法,加工英语的方法,就是假设有一个语法和任何你遇到的英语文本,您根据这个语法进行解析。
每个解析规则对应于某个语义函数,所以出现的图片是这样的。
如果你有两个短语,它们之间有一些句法关系,然后您可以将每个短语映射到它的含义,以及这两个意思之间的语义关系,是由句法关系决定的,这似乎是一个相当明显的想法,但显然以前没有人在电脑上尝试过这个。
所以弗雷德在接下来的二十年里建立了计算机系统,其中一些是我做的,尝试遵循这种方法,事实上,他能够建立研究人员使用的系统,在人类学等领域,在那里你没有很好的编码数据,在叙事文本中有很多东西,然而。
他能够帮助一位人类学家,我在加州理工学院共事过,分析他所做的大约八万次采访的数据库,与古米安加部落成员,他们住在现在被赞比西河水库淹没的山谷里,在赞比亚和津巴布韦边境,太迷人了,他因一些研究而闻名。
在二十世纪八十年代,我很高兴看到那个SRI,它不代表任何东西,但过去代表斯坦福研究所,建立了一个叫做菱形图的系统,这是为了帮助,嗯,当他们不知道计算机的命令语言时,他们会与计算机系统交互。
这样他们就可以用英语表达他们想做的事情,英语会被翻译成一些语义表示,由此,正确的事情在计算机中被触发,这些家伙走来走去霍布斯说得很好,我们为什么不把这个想法应用到自然语言中呢,获取医学文本。
所以他们建立了一个不太好用的系统,但它试图通过基本上翻译英语来做到这一点,它读入了他们所看到的一些正式的谓词演算表示,这是为那些天真的电脑用户建造的,他们不知道,命令语言实际上有一个非常严格的语法。
所以人们发现人的适应能力比计算机强,他们可以,他们可以适应这种严格的语法,你们中有多少人有谷歌主页,或者亚马逊,回声或苹果,你处理得很好的事情,所以它在训练你,因为它不太擅长让你训练它。
但你你的适应能力更强,所以你很快就会明白,如果你用一种方式来表达事情,它理解你,如果你用不同的方式表达事情,它不理解你,你学会了如何表达它,所以这就是这些家伙所依赖的。
他们可以让人们采用计算机能够理解的惯例,最激进的版本是一个叫德霍尔姆的人,他是我1983年在巴黎认识的,他是医院的医生,这是巴黎的中世纪医院之一,这是一个美妙的地方,尽管当他们建造它的时候。
它只是一个死亡的地方,因为他们真的不能为你做什么,所以家庭说服了医院的心脏科主任,他将开发一种人工语言来记录心脏病患者,他会把这个教给所有的研究员和初级医生,在医院的心脏科,他们会被酋长要求。
在法国用这种人工语言写笔记是非常强大的,而不是用法语写笔记,他们实际上这样做了一个月,当我遇到德·霍姆,他正在分析他收集的数据,他发现语言不够表达,有些事情人们想说。
他们不能用他创造的这种人工语言说出来,所以他回去创建了第二个版本,然后他回到心脏病专家那里说,嗯,我们再来一次,然后他们威胁要杀了他,所以实验,实验没有重复,传统上,如果你试图这样做。
你会和一群医学专家坐下来,你会说好吧,告诉我,你认为可能出现在音符中的所有单词,这表明了我感兴趣的某种情况,他们会给你一长串名单,然后你会做grep,你会在注释中搜索这些术语,如果你想让它变得非常复杂。
您将使用像NEX这样的算法,它是一个否定表达检测器,这有助于摆脱不真实的事情,当人们这样做的时候,他们说好,一定有更复杂的方法来做到这一点,所以整个行业都是由人们发展起来的。
说我们不仅应该使用我们得到的术语,最初来自对做这些查询感兴趣的医生,但是我们可以定义一个机器学习问题,这就是我们如何学习我们实际上应该使用的术语集,这会给我们带来比我们开始的条款更好的结果。
所以我要谈谈这种方法,首先是否定,温迪·查普曼,现在在犹他州,但当时匹兹堡在2001年发表了这篇论文,称为识别门控发现和疾病的简单算法,和出院摘要,它确实是一个非常简单的算法,它是这样工作的。
您可以在出院摘要的每个句子中找到所有的ummls术语,所以我会谈谈这个,但基本上是查字典,你在这个非常大的医学术语数据库中查找,并把它们翻译成某种表达,代表这个术语的含义,然后你会发现两种模式。
一个模式是否定短语,在五个单词后面跟着这些ummls术语中的一个,另一个是五个字以内的一个词,后面跟着一个否定短语,不同的否定短语集,所以如果你没有看到任何迹象,这意味着它不存在。
或者如果你看到排除了不太可能的东西,那它就不存在了,未证明的,未证明的,否认等和后修饰符,如果你说什么东西谢绝了,或者一些不太可能的东西,也表明它不存在,然后他们砍了一堆例外,比如说。
如果你说革兰氏阴性,这并不意味着它对随之而来的任何事情都是负面的,或者之前的任何东西,对呀,等等,所以有很多例外,他们发现这个,实际上考虑到它有多简单,做得相当好,所以如果你看不包含否定短语的句子。
看了五百个,你会发现你得到了88和5的敏感性和特异性,不包含这些短语的百分之二,当然啦,灵敏度为零,特异性为百分之百,和在基线上,如果你使用NX,你发现你可以显著提高基线的特异性,所有的权利,什么。
你最终得到了一个,尽管不是在所有计划中,所以这意味着非常简单的技术实际上可以很好地工作,有时,那么我们如何做这个推广,一种方法是利用相关的术语,如Hypo或Hyperyms。
是一个词的子范畴或超范畴的东西,你可能会寻找其他相关的术语,比如说,如果你想看看病人是否患有某种疾病,然后你可以做一点诊断推理,然后说,如果我看到很多提到的那种疾病的症状,那么也许这种疾病也存在,所以。
递归机器学习问题是如何最好地识别与术语相关的东西,这通常被称为表型分型,你们中有多少人用过ummls,就几个,所以在十九,八十五还是八十四,新任命的国家医学图书馆馆长,这是国家卫生研究院的一个研究所。
决定投入巨资创建这个统一的医学语言系统,这是一次尝试,把各种医学专业协会发展起来的所有术语,并将它们统一为一个单一的,他们所说的方法龙,所以它不是真正的词库,因为它没有完全整合好。
但它确实包括了所有这些术语,然后他们花费了大量的人力和机器资源,以识别来自不同术语的两种不同表达的情况,真的意味着同样的事情,例如,心肌梗塞和心脏病发作其实是一回事,在某些术语中,它被称为急性。
心肌梗塞或急性梗塞或急性,你知道,随便啦,他们付钱给人们,他们付钱给机器来搜索整个数据库,并绘制出一张地图,上面写着,好的,我们会有一些概念,你知道吗,看三九八七五,二。
我只是编造了一个与那个特定概念相对应的概念,然后他们把所有这些都映射在一起,所以这是一个巨大的帮助,在两个方面,它帮助你,来自不同地方、描述不同的规范化数据库,它还告诉你自然语言处理是如何。
它为你提供了一个表达相同概念的方式的宝库,然后呢,你可以用那些,为了扩展你要找的短语的种类,有一些,截至目前,其中大约有370万个不同的概念,在这个,在这个概念中,也有等级制度和关系。
从所有这些不同的术语来源导入的,但那些是一个相当混乱的烂摊子,然后在整个过程中,他们创建了一个语义网络,说有五个,四种关系和一百二十七种类型,每个概念唯一标识符被分配至少一个语义类型。
所以这对翻这些东西很有用,所以你可以看到最常见的语义类型是t zero 61,它代表治疗或预防程序,在分类词表里有二十六万个这样的概念,有二十三万三千项发现,十七万二千种,有机化学品,药理物质。
氨基酸肽或蛋白质无脊椎动物,所以数据不仅仅来自人类医学,也来自兽医学和生物信息学研究以及各地,但是您可以看到这些是一个有用的列表,然后可以在这样的数据库中查找的语义类型,并且类型是分层组织的,因此。
比如说,关系是有组织的,所以有一个影响关系,它有子关系,管理,零食,扰乱,使情况复杂化,与,或者阻止生物功能之类的东西,可以是生理功能,也可以是病理功能,一次又一次,每一个都有子类别。
所以这个想法是每个概念,每一个独特的概念,用这些语义类型中的至少一种标记,当你浏览数据时,这有助于识别东西,也有一些工具来处理典型的语言问题,如果我想说流血,流血,流血,这些都是相同的概念。
所以有这些词汇变体生成器帮助我们规范,然后是规范化函数,它接受一些语句,就像亨廷顿先生被录取一样,废话,废话,废话,并将其规范化为小写,按字母顺序排列,其他潜在含义,该文本的语言意义,例如。
注意这个上面写着,但它的一个翻译是。
因为was z只是b的一种形式,这也会给你带来麻烦。
我遇到了一个问题,我在每个人的医疗记录中都发现了铍,因为它也知道B是铍的缩写,所以你必须小心使用这些东西,有一个在线工具,你可以在那里输入一些东西,上面写着上肢无力,上面写着,哦,你的意思是,概念。
近端无力,上肢,然后它与各种上下文有关系,它有兄弟姐妹,它有各种各样的其他东西,人们可以查阅。
几年前我做了一个工具,如果你用其中一个填充它,这个简短的总结,它尝试颜色代码,嗯,它在总结中发现的东西类型,所以这是使用一个叫做元地图的工具,它又来自国家医学图书馆,和本地构建的ummls查找工具。
在这个特殊的情况下,发现完全相同的,文本中的相同映射,所以你可以浏览课文,然后说啊,好的,所以没有表示否定,尿量是这些概念中的一种,如果你把鼠标放在上面,它会告诉你,我想我今天要做的就是到此为止。
这样我就可以邀请凯特加入我们,谈论一个,自2010年以来发生了什么事,临床医生和临床医生实际上是如何使用这些东西的,临床研究人员,好吧,好吧,欢迎凯特很高兴再次见到你,是呀,所以说。
是九年前那篇论文中所代表的技术,今天仍在研究环境中使用,是啊,是啊,所以我会答应,平台的裸露骨骼,我想说管道正在被使用,但现在我想说我们在第五版,我们其实是你,但从那以后我们做了很多改进。
使事情更加自动化,所以表型分型的速率限制因素总是,临床医生,总是得到那个标签,做图表回顾,想出那个术语清单,所以我不知道,如果你想让我谈谈我们一直在做的一些细节,但是是的,如果你能把它插上。
所以如果你回忆起那张图表,从EMR开始有几个步骤,有一个带有ICD代码的过滤器,然后你得到这个数据标记,然后你开始训练,你得随机选择500个,这是一个很大的,这是很多图表回顾要做的是很多。
所以我们的目标是减少图表审查的数量,减少这种情况的部分方法是减少特征空间,所以我们刚开始的时候不知道的一件事是,我们需要多少金本位标签,我们需要多少功能,这些特征中哪些是重要的,所以通过特征,我是说。
ICD代码,诊断代码,药物治疗,以及所有可能与条件相关的NLP术语列表,所以现在我们有方法试图削减这个列表,在我们使用那些金本位标签之前,所以让我想想,所以这是一个NLP,这里的重点是NLP。
所以我们有几种方法来做这件事,所以限制利率的一个步骤是让临床医生,想出一个对某种情况很重要的术语列表,你可以想象,如果你让五个医生在一个房间里试图就一个名单达成一致,它需要永远。
所以我们试图解决这个问题,所以我们开始做的一件事是,我们拿了,嗯,网上免费提供的常见东西,维基百科,medline,有医疗信息的默克手册,我们现在实际上处理这些文章,查找医学术语,把它们拔出来。
将它们映射到概念,这就变成了术语列表,现在,而不是,如果你想想在过去,我们想出了名单,我们有ICD列表和术语列表,它被映射到一个概念,现在我们直接进入文章,我们做大多数,对条款进行表决,你拿五篇文章。
如果五分之三,提到它超过X个时间,我们说这可能很重要,这就是术语列表,让临床医生离开那一步,然后我们,其实我们还没有训练,所以现在不是马上在金本位标签上训练,我们在银标标签上训练。
大多数时候我们使用主ICD代码,但有时我们使用主要的NLP奎,因为有时我们感兴趣的表型没有代码,所以这是一种,我们已经做了一些步骤来使事情更加自动化,并将管道正式化。
所以事实上管道现在是合作伙伴生物库的一部分,这是皮特提到的伴侣医疗保健,是麻省综合医院和布里格姆妇女医院,他们在招募病人进来,你知道,拿到血样,把它和他们的笔记联系起来,所以人们可以做研究。
未链接的人力资源数据和血液样本,这就是他们用来进行表型分析的管道,现在,我在波士顿弗吉尼亚州,和提西一起,这就是我们正在铺设的管道,用于,还有百万退伍军人计划,哪个更大,有上百万的兽医。
他们有几十年前的EHR数据,所以这很令人兴奋,那么有哪些,我是说,我们今天讨论的这项研究是针对类风湿性关节炎的,但是这种表型分型方法还针对哪些疾病,所以各种疾病所以谁,所以我们学到了很多东西,虽然。
表型分型方法最适合,我们的管道,基础管道最适合,对于患病率为1%或更高的疾病,所以类风湿性关节炎在这个下限,类风湿性关节炎是一种慢性炎症性关节疾病,影响百分之一的人口,但它是最常见的自身免疫性关节疾病。
一旦你去了罕见的疾病,这些疾病是偶发的,不会发生在,你知道的,它不仅低于百分之一,但只是偶尔发生一次,这种方法不那么健壮,但大多数疾病都在一个以上,所以在弗吉尼亚州,我们已经为物态学核心奠定了这一管道。
他们正在经历急性中风,心肌梗塞,嗯,你知道,各种各样的糖尿病,我们想研究的很多常见疾病,现在你提到当你识别这样一个病人时,然后你试着取血样,这样你就可以对它们进行基因分型,这在所有这些疾病中也很常见吗。
还是有不同的方法,是啊,是啊,所以十年前很有趣,很不一样,对病人进行基因型鉴定是非常昂贵的,所以每个病人要花五七百美元,这只是为了一个核苷酸,多形的多形的,是呀,只是为了一个片段。
所以我们必须非常小心我们选择的人所以十年前,我们所做的是,我们说过,好的,我们有400万病人和合作伙伴,他们肯定,然后我们选择这些病人并对他们进行基因型,因为它太贵了。
你不想给没有风湿性关节炎的人做基因分型,它不仅会,你知道的,改变那个,它会降低我们联想研究的力量,就像浪费了一样,有趣的是,现在变化已经发生了,我们完全想到了一种不同的方法来处理事情。
现在你有了这些生物库,所以你有像VA这样的东西,MVP或英国生物银行,他们被系统地招募,抽取血样,它们是基因分型的,没有学习的想法,与EHR相连,所以现在我走进VA,这是一个完全不同的故事,你知道。
十年后,我在V,我对识别类风湿性关节炎感兴趣,有趣的是,这个算法在那里端口很好,我也是,但现在我们只是在那里测试了我们的新方法,但现在不是说,我需要识别这些病人并得到基因型,所有的基因型都已经在那里了。
所以现在这是一种完全不同的研究方法,是啊,是啊,有趣,是啊,是啊,所以另一个,在观众提问之前我想问你的另一个问题,是的,所以这一切都集中在研究上,数据的使用,有没有,人们已经采用的临床用途。
使用这种方法,你知道的,试着读纸条,我们几十年前幻想的,你知道,当你从病理学家那里得到报告,那个,机器学习算法,使用自然语言处理会卑躬屈膝,识别出重要的东西,然后将其纳入决策支持。
或者在某种引起人们注意的预警系统中,重要成果,相对于不重要的,这一切发生过吗,我想我们还没到那一步,但我觉得我们比以前亲密多了,但这可能是你几十年前的感受,挑战之一是,如你所知。
人力资源实际上直到2010年的高科技法案才被广泛采用,所以很多系统现在实际上只是得到他们的ehr,我们有幸玩弄数据的原因,是因为合作伙伴走在了前面,开发了EHR,退伍军人管理局碰巧有一个EHR,所以说。
但我想首先,因为研究和临床医学是非常不同的研究,如果你搞砸了,你错误地将某人归类为疾病,没关系对吧,你只要,你在学习中失去动力,但在临床环境中,如果你搞砸了,这真的是件大事,所以我认为标准要高得多。
所以我们所做的,我们所有这些表型分型的目标之一是让它达到那个点,在你知道的地方,我们很有信心,我们不会说某人有或没有疾病,但我们是,你知道的,实际上,塔尼和我正在考虑或一直在计划这笔赠款。
从这个算法中输出的是疾病的概率,对于我们的一些表型算法来说是相当好的,所以我们想测试的是,你想告诉临床医生的可能性是多少,嘿,如果你不是在想这个病人的类风湿性关节炎,这在他们偏远的地方特别有帮助。
没有风湿病医生的地方,你应该考虑一下,也许你知道考虑推荐他们,或者你知道,通过远程健康与风湿病学家交谈,这也是,有很多事情正在改变,他们在做这样的东西,更多,嗯,合身,更多地进入工作流,所以是的,是啊。
是啊,所以你是如此,你和我一样乐观,是啊,是啊,在二十世纪九十年代,我们走着瞧,你知道这肯定会在某个时候发生,是啊,是啊,你们谁去参加庆祝活动了吗,围绕施瓦茨曼计算学院的开幕,所以他们讨论了很多。
医疗保健确实一次又一次地出现,作为一个伟大的机会,我坚信,但另一方面,几十年来我学到了,不像我的天性那样乐观,我想在座的一些演讲者还没有学到同样的东西,同样的教训,所以事情可能需要更长的时间。
所以让我打开这个问题,地板,发言提问,所以你对概念所做的映射,在合作伙伴的系统中,还是像公开可用的东西,你能把它转移到VA上吗,或者像你工作的时候,像这样,有多少是专有的,有多少是扩展的,是啊,是啊。
所以你说的是当我们试图创建术语列表的时候,我们将术语映射到概念,你使用维基百科和其他三个来源,是啊,是啊,是啊,是啊,所以这就是外面的一切,我们作为一个学术团体,我们试图出版我们所做的一切。
我们把我们的代码放在GitHub或Cran上,让其他人玩出来测试和打破,所以说,所以说,是啊,是啊,条款真的是,你知道的,MLS中相似,我不知道你有没有看过,他们有很多关键词。
所以有一个通用的方法来映射关键字,从术语到概念,这就是我们工作的基础,可能还有一点点,但它背后没有什么花哨的东西,你可以想象,因为我们试图跨越许多表型,当我们思考映射时,它总是要自动化的,我们尽量不要。
我们的第一轮是非常手动的,难以置信的手动,但现在我们尝试使用可用的系统,例如ML和其他映射方法,那么什么地图,想必你今天不用高科技,不,所以是的,那么你使用哪些工具,很有趣,我和奥克里奇谈了两个小时。
关于这个,嗯,我们正在使用程开发的一个叫做尼罗河的系统,这与C是一个非常健壮的系统有关,只是它,太,为了表型分型的目的,我们不需要那么详细,我们需要我们真正需要的是,有没有提到,这个概念和否定是什么。
所以尼罗河是我们一直在使用的东西,随着时间的推移,用我们测试的不同方法进行了验证,所以我星期二,我将谈谈这个系统和它的一些后继者,所以你会知道这是如何工作的,我还应该提到你阅读清单上的一篇论文。
是大卫·桑塔格小组的一份文件,它使用了这个锚的概念,这是非常相似的,这是一种试图自动化的方式,就像凯特说的,你知道如果你,如果医生提到一些术语,你会发现这个术语经常与某些其他术语一起使用。
通过查看维基百科或梅奥诊所的数据,或者在你的消息来源所在的任何地方,那么这是一个很好的线索,其他术语也可能有用,所以这是这个想法的形式化,作为一个机器学习问题,所以基本上,那份文件谈到了如何采取一些。
高度表明一种疾病的非常确定的术语,然后用那些作为锚,为了训练一个机器学习模型,它识别了更多也可能有用的术语,所以这个概念和大卫在上一次演讲中谈到的类似的想法,你得到的是银本位而不是金本位。
银本位可以用一些机器学习算法从一个较小的金本位导出,然后你可以在进一步的计算中使用它,那么过程是什么,比如与学者和机器学习合作,乡亲们,就像,你找到他们了吗,他们找到你了吗。
你们在公共汽车站撞在一起了吗?但这怎么行得通呢,我真的很幸运,有一个大的研究叫做整合生物学的信息学,床边项目叫i two b two,由扎克·科哈尼领导,所以这已经到位了,皮特已经被拉了进来,坦吉。
那么他们基本上做了什么,每周五把我们所有人锁在一个房间里三个小时,就像,有什么问题?有什么问题,我们怎么去那里,所以我认为基础设施很有帮助把每个人都带到谈判桌前,因为这并不容易。
因为你不在同一个空间旋转,你思考的方式很不一样,所以嗯,我们现在就是这么做的,现在有,那是更主流的,我想当我们刚开始的时候,每个人都是我的同事,跟我开玩笑,他们就像,你在干什么,r二d二,你知道吗。
发生什么事了?你是什么,你在那边走投无路,因为你知道我们做的研究更多的是,临床试验与EPI项目的方法,但现在你知道我们有我在布里格姆经营一个核心,所以风湿科已经用完了,所以我们试图把人们联系在一起。
我确实发到了我们的核心,这里的咨询会议,但你知道如果有兴趣,有办法,可能有更多的团体在这样做,在那里我们可以更正式地进行联合会谈,或,或者你知道把人们联系在一起,是啊,是啊,是啊,是啊,但这并不容易。
我不得不说,这是非常,它需要很多时间,因为当皮特把那个东西,看起来像是不同的语言,我的意思是,只是我没有,甚至,我甚至没有想到,很难读懂,所以就像你知道你进入了这两个不同的世界。
所以你必须努力在中间相遇,而且需要时间,也需要合适的人,所以说,我不得不说,扎克可能很聪明,把合适的人带到桌子上,一次把我们锁在房间里三个小时,因为,只是你知道,她说爱,或者她已经学会说AI了。
仍然有很多统计学家,他们只是对我们所做的事情有过敏反应,很难和他们一起工作,所以有正确的人的组合也真的,我觉得,临界,就像我的一个导师说的,你必须亲吻很多青蛙,很多青蛙。
如果你能更多地说说你是如何处理警报疲劳的,你如何平衡关于你有多确定的问题,与临床问题相比,这有多重要,而不是经常发送这个的心理问题,对一定数量的人来说,他们会开始一种不同的心理,是啊,是啊。
你说到点子上了,主要障碍之一,或者几件事,但警报疲劳是其中之一,所以EMRS在2010年变得更加突出,但现在随着EMRS而来的是许多关于医生的规定,所以我们真的,然后摆脱了我们的旧系统。
对于这些现在符合政府要求的新系统,这个正在全国推广的大怪物系统是如此史诗般的,你真的有,像蛋黄酱这样的地方太复杂了,他们雇文士,所以医生坐在办公室里,还有另一个人真的在听和打字。
并单击所有需要的按钮来获得那里的信息,所以警报疲劳绝对是障碍之一,但另一个障碍是EMR现在对用户太不友好了,它们不是为临床护理而建的,他们是为账单而建造的,你知道我们必须小心我们如何推出这个。
这也是我认为事情被搁置的原因之一,其实,是啊,是啊,不一定是科学,它的实施部分将是非常困难的,所以这并不新鲜,顺便说一句,我记得大约十五年前我教的一门生物医学计算课,戴维·贝茨,他是综合内科什么的主任。
在布里格姆来做了一个客座讲座,他描述了他们的经历,他们的药物相互作用系统,他们已经实施了,他们从一个叫做第一数据库的供应商那里购买了一个数据集,他们搜索了文献,找到了人们报告的所有例子,案件。
一个同时服用这种药物和那种药物的病人出现了明显的不良事件,所以他们之间有一些互动,他们买了这个东西,他们实施了,他们发现,他们通过药房系统订购的大多数药物,一个大的红色警报会弹出,说你知道。
你有没有意识到这种药物之间有潜在的相互作用,和这个病人正在服用的其他药物,问题是,策划这个数据库的公司的动机,是为了确保他们不会错过任何东西,因为他们不想为没有报警负责,但当然,没有阻力说。
如果你每秒钟警告一次,那么没有人会注意他们中的任何一个,所以大卫的解决办法是召集一群资深医生,他们做了一些关于他们在医院经历的实际不良事件的研究,他们把成千上万种药物相互作用的列表减少到20种。
他们说好吧这些是我们唯一要报警的,是啊,是啊,然后当史诗出现时,他们把它扔掉了,所以现在当我下订单的时候,我得到了一份十个的名单,我只是,这就是问题所在,门槛将是,所以会有一整个。
我认为会有完整的发展方法,在弄清楚阈值在哪里之间必须发生的事情,警报带来的疲劳,几个问题,一个像船,我明白了,我看到九个,我看到,哦是的,比如你是怎么做到的,因为在其他上下文中谈论这个。
另一个是你怎么能,你知道,把你在这里的研究通知其他国家,因为我是说在一天结束的时候,所以全球健康问题,所有这些药物系统或不同的,即使在我们和英国之间,所以你知道,我们在这里做的所有映射。
为EHR或其他地方下注,是啊,是啊,所以让我来回答第一个,第二个是正在进行的工作,所以我10月1日来了美国,二十五,我记得它伤害了我们所有人,所以我们实际上还没有那么多关于i d ten的信息。
但这肯定影响了我们的工作,所以如果你想想,当皮特指着iC9的ICD计数时,对于那些不知道的人来说,I C9是几十年前开发的,我看到十年前,也许二十年前,但我做的是,它增加了更多的粒度。
所以对于类风湿性关节炎,我提到过,是一种全身性慢性炎症性关节疾病,我们以前有一个代码说,类风湿性关节炎,它现在说类风湿性关节炎,类风湿因子阳性,类风湿性关节炎,类风湿因子阴性。
每个类别下面都是右手腕的ARA,左手腕阿里,右膝阿里,左膝,你能想象,所以我们点击了所有这些,所以事实证明,嗯,令人惊讶的是,所以我们做了,我们实际上,我们现在即将发表一项小型研究,RA怎么会更准确。
现在,他们有所有这些颗粒,事实证明,我想我们很恼火,因为它现在实际上比i c更准确,九,所以这是一回事,但那是你知道的只有两三年的数据,我想它会变得相当相当,另一件事是你会看到ICD代码的数量激增。
所以你要考虑,10月1日之前你们是怎么处理背影的?当你有一个没有代码的时候,但是20点15分以后你知道这取决于病人什么时候来,他们可能有右手腕的RA,在左膝上的一天,前几天看起来像是不同的代码。
所以现在我们必须考虑系统的系统来卷起,我认为现在最大的挑战是地图,所以我有九个,你知道现在不是直接映射到十或回来,因为有些疾病在发展时我们不知道,存在于,十在i c,十点。
他们用九年来没有描述过的方式谈论疾病,所以当你试图协调数据时,这是弗吉尼亚州正在积极处理的事情,你现在如何计算ICD代码,你怎么认为有人有RA的ICD代码,嗯,所以这些都是现在正在开发的东西。
CMS医疗补助和医疗保险中心,这是为了计费的目的,提出了一个地图系统,我们许多人现在都在使用,鉴于我们所拥有的,顺便说一句,设计icd-11的委员会多年来一直很活跃。所以又有一个从长矛上下来。
虽然据我所知没有,但是克里斯开枪是的,我看到它很好,所以,但实际上,我有点乐观,因为,与传统的ICD系统不同,是啊,是啊,这个是以游牧民族为基础的,它有一个更合乎逻辑的结构,好的,所以说,你知道的。
我最喜欢的ICD十码是,因航天器事故造成的左股骨骨折,据我所知,我认为这是存在的,代码从未应用于任何人,但它在那里以防万一,所以是的,我肯定我应该十一岁了,你不认为那样会存在,因为这是一个更合乎逻辑的。
所以我看到了井,我不知道会是什么,因为他们还没有定义,但雪人背后的想法是,它更多的是一个组合系统,所以它更像是一种描述语法,您可以根据组件有意义的某些规则进行组装,所以这意味着你不必明确地提到某事。
就像宇宙飞船事故一号,但如果出现这种情况,那么就有一种方法来构建一些东西来描述这种情况,克里斯,我在一次会议上碰到克里斯,他说了一些类似的话,他认为它会更基于NLP,连我都不知道,它会更像一种语言吗。
好吧,你问他,我根本不知道他暗示过这件事,我就像,哦不,我想它肯定会更像一种语言,但它会更像,老人,你知道的,弗雷德·汤普森,或者菱形图之类的语言,这是一门设计好的语言,你必须学习。
为了弄清楚如何恰当地描述事物,或者至少你的收银员必须学会,是啊,是啊,接近尾声,但我只是有一个问题当临床医生试图标记数据时,比如说,训练数据,是啊,是啊,有没有什么模棱两可的地方,哦是的。
就像有时候这绝对是,这个人就是这个人,我不是很确定,你觉得怎么样,嗯,你怎么考虑到这一点,当你实际训练测试时,是的,所以我们实际上有三个类别,确定可能和不可能,所以总是有歧义。
然后你总是希望有不止一个评论者,所以在临床试验中,当你有结果时,你有我们所说的裁决,所以你有某种系统,你必须首先坐下来,你必须定义表型,因为不是每个人都有学位,即使是一种非常明显的疾病。
你如何定义这种疾病,为此必须发生的组件是什么,它们通常用于社会或研究的分类标准,所以实际上有一个是给RA的,你知道吗,用于冠状动脉疾病,然后它有这些不同的类别,和一个非常结构化的裁决系统,你知道吗。
盲目地让两个审稿人审查,你知道吗,让我们假设20个相同的音符,看看,看中间阅读器或可靠性,是啊,是啊,所以这是一个大问题,所有的权利,我想我们已经过期了,所以凯特,非常感谢。
P8:8.Natural Language Processing (NLP) - 大佬的迷弟的粉丝 - BV1oa411c7eD
所有的权利,让我们开始吧下午好,所以上次我开始谈论使用自然语言处理来处理临床数据,事情进展得有点慢,我今天会试着多赶点时间,因此,我有很多东西要涵盖,所以如果你还记得上次,我一开始就说。
NLP的很多工作都涉及到想出短语,人们可能感兴趣的,以帮助识别您想要的数据类型,然后在文本中寻找那些,所以这是一个非常简单的方法,但这是一个相当好的工作,然后Kat Liao在这里讨论了一些应用程序。
那种工作,她在队列选择中所做的,所以我今天想说的是更复杂的版本,然后转向更现代的方法,到自然语言处理,所以这是一篇给你的论文,作为上次的选读之一,这是大卫桑塔格实验室的成果,他们说,嗯。
我们如何让这个更复杂,所以他们开始的方式是一样的,他们说,好的廖医生,让我们说给我一个非常好的条件,我有合适的病人的指标,如果我在病人的笔记中找到它们,所以这些都是有很高预测价值的东西。
所以你不想用像生病这样的术语,因为那会找到太多的人,但你想找到一些非常具体的东西,但这有很高的预测值,你会找到合适的人,然后他们所做的是,他们建立了一个模型,试图预测这个词在文本中的存在。
从医疗记录中的其他一切,这是一种银标准的训练方式,一个说得很好的模型,我没有精力也没有时间去找医生,翻阅成千上万的记录,但如果我选择这些锚足够好,然后我会从那些人那里得到很高的正确答案。
然后我训练一个机器学习模型,术语或那些包含这些术语的相同记录,顺便说一句,从那开始,我们将学习一大堆其他术语,这些术语是代理,为了我们开始的那个,所以这是一种放大的方式,所以你可以找到一堆技术细节。
通过阅读报纸,他们使用了一个相对简单的表示,它本质上是一袋文字表示,然后他们掩盖了这个词周围的三个词,这实际上是他们试图预测的,只是为了摆脱,短期的,然后他们建立了一个L2正则Logistic回归模型。
预测这个词出现的特征是什么,然后他们扩展了搜索词汇表,将这些功能也包括在内,还有很多关于如何,如何离散连续值,诸如此类的事情,你可以找到,所以你从锚中建立一个表型估计器,和选择的预测器。
他们为这些其他预测器中的每一个计算了校准分数,告诉你它预测得有多好,然后您可以构建一个联合估计器,使用所有这些,底线是他们做得很好,所以他们看了看,以便评估这一点,他们观察了八种不同的表型。
他们有人类的判断数据,所以这告诉你他们得到了,对于这些不同的表型来说,在83点和95点之间。
所以这很好,嗯,事实上,他们不仅在估计这八种表型,但是四十来岁,我不记得确切的数字了–要大得多,但他们没有验证的数据来测试其他人,但人们的期望是,如果它在这些方面做得很好,它可能在其他地方也做得很好。
所以这是个很好的主意,只是为了说明,如果你从糖尿病这样的表型开始,你说,嗯,我要去找锚,这是一个代码,250糖尿病,或者我要看看糖尿病治疗的用药史,所以这些是最初的,我正在考虑的银本位目标。
而那些实际上,对队列中的某人有很高的预测价值,然后他们识别出所有这些其他特征来预测,因此反过来,预测他们感兴趣的表型的合适选择者。
如果你再看一遍报纸,你看到的是,随着时间的推移,这优于,他们与之比较的标准监督基线,在那里你会得到更高的精度,在病人就诊的早期,能够识别他们属于这个队列,我晚点再来,看看另一个类似的尝试。
用一套不同的技术从核心进行推广,所以你应该在大约4-5分钟后看到,我希望,所以如果你看像先生这样的句子,亨廷顿接受了亨廷顿病的治疗,在位于亨廷顿大道的亨廷顿医院,每一次提到亨廷顿这个词都是不同的,例如。
如果您对消除可识别个人身份的健康信息感兴趣,从这样的唱片中,那么你当然想摆脱亨廷顿先生的部分,你不想摆脱亨廷顿病,因为这是医学上相关的事实,你可能真的想摆脱亨廷顿医院,及其在亨廷顿大道的位置。
尽管这些不一定是你被禁止保留的东西,例如,如果你试图在不同的医院之间进行质量研究,那么保留医院的名称就有意义了,这不被认为是对个人的识别,所以我们我们,事实上,早在2000年中期就做了一项研究。
我们试图建立一个改进的,我们是这样做的,这是一种厨房水槽的方法,它说好吧,拿着文本,给它做个记号,看看每一个令牌,并从中派生事物,所以构成信物的文字,词性,词性,它是如何大写的,它周围是否有标点符号。
它在哪个文档部分,你知道,许多数据库都有某种传统的文档结构,如果你看过模拟出院总结,比如说,有一种典型的方式,它从头到尾流动,你可以利用这些结构信息,然后我们确定了一堆模式和词库术语。
所以我们查了MLS,单词和短语,看看它们是否与一些有临床意义的术语相匹配,我们有识别电话号码、社会安全号码和地址的模式,等等,然后我们对文本进行了解析,所以在那些日子里。
我们使用一种叫做链接语法解析器的东西,这没什么区别,什么解析器,但你要么得到一个选民,要么得到一个选区,或依赖项解析,它给了你单词之间的关系,因此,它允许您包含作为功能,你看一个词的方式。
与它周围的其他单词有关,所以我们所做的是我们说,好的,词汇上下文包括上述所有类型的信息,对于所有字面上相邻的单词,或者你所关注的原词的n个字以内,或者通过对该单词的解析通过k个链接链接。
所以这给了你一个非常大的功能集,当然还有,解析不是一个解决的问题,这是我上次给你们看的那个故事中的一个例子,如果你看到它,就会得到两个四个模棱两可的解析,关于如何处理这个问题有一些技术问题。
今天您可以使用不同的解析器,斯坦福解析器,比如说,可能比我们14年前用的那个做得更好,并至少给你更明确的答案,所以你可以用它来代替,所以如果你看看我们所做的,我们说过,嗯,这是课文先生。
以下是你可以在MLS中查找的所有方法,结果很模棱两可,所以MMR不仅代表先生,但它也代表磁共振,它代表了一大堆其他东西,所以你会得到大量的模糊性,盲人也会给你各种模棱两可的地方,所以它在这里映射到。
是可以的,七十九岁还可以,然后雄性又映射到四个五个不同的概念唯一标识符,所以从这个数据库中产生了所有这些过度生成的问题,这里还有一些,但我要跳过这一点,然后我们的学习模型是这个项目的支持向量机。
我们只是说好,把所有的,你知道是把他们都杀了,上帝会把他们整理出来的,那种方法,所以我们只是加入了所有这些功能,然后说,哦,支持向量机非常擅长准确地挑选出什么是最好的特性,所以我们只是依靠这一点,果然。
你最终得到了数百万的功能,但果然效果很好,所以统计ID是我们的程序,你可以在真正的出院总结中看到,我们正在获得精度,并在PHI上召回,大约98。5,百分之九十五又四分之一,这比以前的技术水平要好得多。
它建立在规则和词典的基础上,作为一种识别事物的方式,所以这是这种方法的一个成功例子,当然,这不仅适用于识别,但它也可用于实体识别,因为不是选择个人身份健康信息的实体,你可以训练它选择疾病或药物的实体。
或者是其他各种各样的东西,所以这是在2000年,人们处理这类问题的一种非常典型的方式,至今仍在使用,我是说,周围有工具可以让你做到这一点,它们工作得合理有效,它们目前不是最先进的。
但它们比当今许多最先进的技术更简单,所以这里有另一种方法,这是我们几年前出版的东西,在那里我们开始和一些精神病医生一起工作,然后说,我们能预测一个精神病患者30天的再入院时间吗,具有任何程度的可靠性。
那是个很难的预测,威利目前正在进行一项实验,我们要求精神病学家预测,事实证明,他们在这个预测上几乎不比偶然更好,所以这不是一件容易的事,我们所做的是,我们说过,嗯,让我们使用主题建模。
所以我们有一群病人,大约有5000个病人,其中大约10%的人在心理诊断后被重新接纳,其中近3000人因其他诊断而重新入院,所以这告诉你的一件事是,如果你在和精神病患者打交道,2。他们经常去医院。
这对医院的底线不利,因为报销,保险公司的保单等等,所以只有四十个,七百,只有一百四十人在三十天内没有被重新接纳,所以有非常频繁的反弹,所以我们说,嗯,让我们尝试从基线使用支持向量机构建基线模型。
年龄等临床特征,性别,公共健康保险是社会经济地位的代表,所以如果你有医疗补助,你可能很穷,如果你有私人保险,那么你可能是麻省理工学院的员工,过得更好,所以这是一个经常使用的代理,一个共病指数。
告诉你你的病情有多严重,除了你的精神问题之外,然后我们说好,如果我们添加到那个模型中呢,笔记中的常用词,所以我们说,让我们做一个TF IDF计算,所以这是术语频率除以文档频率的对数。
所以这是一个术语有多具体来识别一种特定的情况,我们把一千个最有信息的词,所以有很多这样的,所以如果你用这将近5000个病人的一千个最有信息的词,你最终会写出大约六万六千个字。
对一些人来说信息丰富的独特词汇,但如果你把自己限制在前十名,那它只用了一万八千字,然后它用了大约三千字,然后我们说好,而不是做个别的单词,让我们做潜在的狄利克雷分配,所以对所有的单词进行主题建模。
作为一袋文字,所以没有序列信息,只是单词的集合,所以我们在所有这些笔记上使用lda计算出了75个主题,所以只是想提醒你,LDA过程是一个模型,它说每个文档都由特定的主题混合组成。
这些主题中的每一个都可能产生某些单词,所以你可以建立一个这样的模型,然后用复杂的技术来解决它,您在本研究中的主题如下,我不知道,你能读懂这些吗,它们可能太小了,所以这些都是无人监督的话题。
如果你看第一个,上面写着,病人,酒精,撤回,一个物质使用治疗项目名称,是一个不确定的使用滥用问题号,我们让我们的专家研究了这些主题,他们说,哦,嗯,那个话题和酗酒有关。这似乎是合理的,然后你看到。
你知道在底部精神病思想特征,偏执狂,精神病,妄想症症状,精神病,等等,他们说好的,那是精神病的话题,所以回想起来,您可以为这些主题分配含义,但事实上。
它们是在没有任何关于它们应该是什么的先验概念的情况下产生的,它们只是一个统计数据,对这些文件中常见的词语的概述,但你会发现,如果你使用基线模型,它只使用了社会,人口统计学和临床变量,你说生存有什么不同。
在这种情况下,及时在这个队列中的一组和另一组之间重新接纳,答案是他们很相似,而如果你使用一个预测,基于基线和75个主题,我们确定的75个主题,你会得到更大的分离,当然,这在统计学上是显著的,和。
它告诉你,这项技术有助于提高队列的预测,那更有可能被重新接纳,从不太可能被重新接纳的队列中,这不是一个可怕的预测,所以这个模型的auc只有7个点的数量级,所以你知道这不像九点九,但它提供了有用的信息。
嗯,和我们一起工作的同一组精神病医生,也做了一项研究,队列要大得多,但数据要少得多,所以他们从两个医疗中心得到了所有的出院,在十二年期间,所以他们有八十四万五千次放电,来自四十五万八千个独特的个体。
他们在寻找这些病人的自杀或其他死亡原因,看看他们是否能预测某人是否可能试图伤害自己,或者他们是否可能意外死亡,有时无法与自杀区分开来,所以大卫谈到的审查问题在这里非常普遍,因为你失去了人们的踪迹。
这是一个高度不平衡的数据集,因为在八十四万五千名病人中,只有235人自杀,这当然可能是一件好事,从社会的角度来看,是什么使数据分析变得困难,另一方面,在九年的随访中,所有原因死亡率约为18。
所以这不是那么不平衡,然后他们所做的是,他们整理了一份3000个术语的清单,这与精神病学文献中所说的正价性相对应,所以这是像快乐、幸福和好东西这样的概念,与负价相反,像沮丧和悲伤之类的,他们说好。
我们可以使用这些类型的术语来帮助区分这些病人,他们发现,如果你绘制卡普兰·迈尔曲线,对这些病人的风险,你看,不同的四分位数之间有很大的差异,你当然可以识别出更有可能自杀的人,从不太可能做的人那里。
所以这条曲线代表自杀或意外死亡,所以这是一个更大的数据集,因此误差条更小,但你在这里看到了同样的分离,所以这些都是有用的技术,现在,切换到另一种方法,这是我的一个学生的作品,元律。
他和马萨诸塞州总医院的一些淋巴瘤病理学家一起工作,所以他们采取的方法是说,如果你读到一份关于淋巴瘤患者的病理报告,我们能从病理报告中判断出他们患的是什么类型的淋巴瘤吗,如果我们把病理报告上说我。
病理学家认为这个人有,你知道的,非亨金淋巴瘤什么的,所以从上下文的其余部分来看,我们现在能做出预测吗,你想拿一种有趣的,有点奇怪的方法,也就是把这个看作是一个无监督的学习问题。
而不是作为一个监督学习问题,所以他真的掩盖了真正的答案,说,如果我们只是把除了给出答案的东西之外的一切都当成数据,我们能用某种有趣的方式对这些数据进行聚类吗,以便我们重新识别不同类型的淋巴瘤。
现在,这之所以重要,是因为淋巴瘤,病理学家一直在争论如何对淋巴瘤进行分类,每隔几年他们就会修改分类规则,所以他的部分目标是说,让我们尝试提供一个无偏见的数据驱动方法,这可能有助于识别适当的特征。
以分类这些不同的淋巴瘤,所以他的方法是张量因式分解方法,你经常看到这样的数据集,上面写着,你知道病人的特点,所以在这种情况下,实验室测量,收缩期,舒张压,血压,钠钾,等,这是一个非常普通的数据矩阵编码。
然后如果你给它添加第三个维度,像这样是在入场的时候,三十分钟后,60分钟后或90分钟后,你有一个三维张量,就像你可以做矩阵因式分解一样。
如上图所示,我们说,我的数据矩阵,我假设是由两个矩阵的乘积生成的,尺寸较小的,你可以通过说,我想让这两个矩阵中的条目最小化重建误差,所以如果我把这些矩阵相乘,然后我得到我原来的矩阵加误差。
我想把这个错误降到最低,通常是根,均方或均方误差,或者类似的东西,你可以对张量玩同样的游戏,有一个所谓的核心张量,它标识,然后你做的是同样的游戏,你有一个对应于每个维度的矩阵。
如果你把这个核心张量乘以这些矩阵中的每一个,你重建原始张量,你可以再次训练它,以最大限度地减少重建,损失,所以还有更多的技巧,因为这是处理语言,所以这是一个典型的,一个淋巴瘤病理学家的报告说。
免疫组织化学染色显示卵泡,废话,废话,废话,废话,对呀,所以很多很多的细节,所以他需要一个可以放入矩阵张量的表示,这个张量,他所做的是说好,让我们看看这样的语句。
免疫染色显示大的非典型细胞CD30强阳性,所以这个句子告诉我们程序之间的关系,细胞类型,和免疫因素,和功能选择,我们可以用文字,或者我们可以使用ummls概念,或者我们可以找到各种各样的映射。
但他决定为了保留,他要做的是使用一个图形表示,解析所有这些句子,所以你得到的是,这创建了一个图表,讲述了,你知道的,CD强烈阳性,三十个大型非典型细胞,等等,然后你可以把它分解到子图中。
然后你还必须识别经常出现的子图,例如,大的非典型细胞出现在这里,也出现在那里,当然会出现在许多其他地方,是啊,是啊,这个解析域和语言不可知论,比如说,他们在这里结合了某种医学信息或某种语言。
所以在这个特殊的研究中,他使用了斯坦福解析器和一些技巧,所以斯坦福解析器不知道很多医学单词,所以他基本上把这些东西标记为名词短语,然后斯坦福解析器也不能很好地处理长列表,就像,免疫特征的集合。
所以他会认出这些是模式替代品,为他们编造的一个词,这使得解析器在这方面工作得更好,所以有一大堆这样的小把戏,为了适应它,但它不是专门为此训练的模型,或者类似的东西,所以是通用英语。
这些都是他手工做的事情,而不是说不,他做了他用算法做的,但他没有学会使用哪些算法,2。他是用手工缝制的,但当然这是一个很大的语料库,他在上面运行了这些程序,做了这些转变,所以他称之为两阶段解析。
这一节的第一张幻灯片上提到了他的论文,如果你对细节感兴趣的话,那里有描述,好的,所以他最终得到的是一个张量,病人在一个轴上,文本中出现在另一个轴上的单词,所以他还在用一袋单词表示。
但第三个轴是我们讨论的语言概念子图,然后他对这个做张量因式分解,有趣的是,它比我想象的要好得多,如果你看看他的技术,他称之为TF,精度和召回率约为7。02,宏观平均值为8。5,七点五,四微平均数。
比非负矩阵因式分解的结果要好得多,它只按单词使用病人或按子图使用病人,或者实际上你只是这样做,耐心地将子图和单词连接在一个维度上,这意味着这实际上是在利用三方关系,如果你读到大约15-20年前的报纸。
人们对BI聚类的想法非常兴奋,用现代术语来说,这相当于矩阵因式分解,上面写着,给定两个维度的数据,我想把事情聚类,但我想用这样的方式把它们聚集在一起,一个维度的聚类有助于另一个维度的聚类。
所以这是一种相对有效的正式方法,张量因式分解本质上是三聚类,好的,所以现在我要谈谈今天的最后一个大话题,也就是语言建模,这就是现在自然语言处理中的动作,我会说。
临床数据的自然语言处理有些落后于最先进的水平,在自然语言处理中,可用的语料库较少,做这件事的人少了,所以我们正在迎头赶上,但我要稍微温和地引导这一点,那么对语言建模意味着什么呢,我是说。
你可以想象说它提出了一套解析规则,定义语言的句法结构,或者你可以想象说,就像我们上次建议的那样,提出一套相应的语义规则,语言中的概念或术语对应于某些概念,它们在功能上结合在一起,按照语法的指示。
以便给我们一个语义表示,所以我们不知道如何把这两个都做得很好,所以电流,当代关于语言建模的想法是说,给定一系列令牌,预测下一个令牌,如果你能完美地做到这一点,大概你会有一个很好的语言模型。
所以很明显你不能做得很完美,因为我们并不总是说同一个词,当我们说话的时候,在前面的一些话之后,但很可能你可以接近它,通常有某种马尔可夫假设说,给定之前的东西,发出令牌的概率,前文,而不是在所有的历史上。
你以前说过的一切,在你的生活中,它是预测词上概率分布的熵,粗略地说,它是如果所有的,所有的可能性都是一样的,所以困惑经常被使用,比如说,在语音处理中,我们做了一项研究,我们试图建立一个语音系统。
理解医生和病人之间的对话,我们遇到了真正的问题,因为我们使用的软件是为了解释医生的口述而开发的,那是训练有素的,但事实证明,当我们开始的时候,我们并不知道这一点,医生在口述医疗记录时使用的语言非常简单。
很简单,所以它的困惑大约是九个,而对话则更自由,涵盖更多的话题,所以它的困惑大约是七十三,所以很好地解决困惑的模型,九对困惑也不起作用,所以这告诉你准确转录语音的困难,就是很难,那就难多了。
这仍然是一个没有解决的问题,现在你们可能都知道ZIPF定律了,所以如果你根据经验把所有文献中的所有词,让我们说,英语,你发现第n个单词大约是n的一比一,就像第一个词一样可能,好的,所以有一个长尾分布。
有一件事你应该意识到,当然啦,如果你从零到无穷大积分1/n,它是无限的,好的,这可能不是对语言的不准确描述,因为语言是富有成效的,人们一直在编造新词等等,所以它实际上可能是无限的,但粗略地说。
有一种像这样的下降,有趣的是,在棕色语料库中,前十个词几乎占语料库规模的四分之一,所以你写了很多U和A,二英寸,等,那么N克模型呢,请记住,如果我们做这个马尔可夫假设。
那么我们要做的就是注意最后n个代币,在我们有兴趣预测的之前,所以人们产生了这些大的印迹语料库,例如,几十年前有人拿走了莎士比亚的所有作品,我想他们试图确定他是否写了他所有的作品。
或者是某人或其他人的伯爵,实际上是写莎士比亚的人,你知道这场争论,所以这就是他们这么做的原因,但不管怎样,他们创建了这个语料库,他们说,所以莎士比亚的词汇量大约有三万字。
在八亿四千四百万个可能的bigrams中,所以九十九点,96%的人从来没有见过正确的,所以他现在的语言生产有一定的规律性,谷歌,当然莎士比亚比,他们说,嗯哼,我们可以取一个太字节的语料库。
这是在2006年,我不会感到惊讶,如果今天是一个PB字节的语料库,他们发表了这个,他们只是提供了它,所以有十三点,600万个独特的单词在这个Terra单词语料库中出现了至少200次。
有12亿个单词序列至少出现了40次,这些是统计数据,如果你有兴趣,有一个URL,这是他们数据库的一小部分,所以陶瓷收藏品收藏品,我不知道在一个太字节的文本中发生了五次,陶瓷收藏品,陶器收藏品。
烹饪逗号周期,刑期结束,和在是等等,不同次数,陶瓷来自一个发生了六百六十次,这是一个相当大的数字,与这里的一些竞争对手相比,如果你看四克,你会看到像服务作为传入的废话这样的事情,废话。
废话92次作为索引,两百二十三次作为最初的五十三次,好的,所以你有所有这些统计数据,现在考虑到这些统计数据,然后我们可以建造一个发电机,这样我们就可以说好吧,假设我从令牌开始。
它是一个句子的开头或句子之间的分隔符,我说样本一个随机的二进制,从一个句子的开头开始,根据一个单词的概率,然后从这个单词中提取下一个二元组,和所有其他的词根据它的概率,一直这样做。
直到你到达句子的结尾标记,好的,例如,这里我正在生成句子,我从,i,然后是匮乏,然后是两个,紧随其后的是get,其次是中文,然后是食物,接着是句子结束,所以我刚刚生成了,我想吃中国菜。
这听起来是个很好的句子,有趣的是,如果你再看看莎士比亚语料库,说如果我们从字母中产生莎士比亚,你把上面的东西给他,吞咽,在此忏悔,为RI设备保存踪迹和死记硬背的寿命,听起来不太好吧,它不太合乎语法。
它没有那种英语,你知道莎士比亚,英式风味,虽然你确实有像Nave和I之类的词,现在隐约让人想起,如果你去参加大型活动,开始听起来好一点,什么意思,先生,我承认她,然后各种,他是船长,对呀。
那没有任何意义,但听起来开始好一点,用三叉戟我们得到,亲爱的王子,福斯塔夫会死,蒙莫斯坟墓的哈利,等等,所以这听起来有点莎士比亚的味道,如果你去四分图,你得到亨利国王,我会去什么,寻找叛徒,格洛斯特。
擦掉一些手表,在诸如此类的地方举行的盛大宴会,你知道,我是说,当我二十年前第一次看到这个的时候,还是什么的,我惊呆了,这实际上是在产生听起来有点像莎士比亚的东西,和模糊的英语,就像。
这里有一个生成华尔街日报的例子,月玛雅和年发行的外国新交易所,是单词沙拉,但如果你去三元,他们也指向九十九点,60亿美元从两个零,四零,六,3%的利率像墨西哥和巴西一样。
所以你可以想象这是一些华尔街日报的作家在酸性写作,这篇文章,因为它有一点正确的味道,好的,所以最近人们说,我们应该能够以某种系统的方式利用这一点,帮助我们完成语言分析任务,所以对我来说,第一个。
在这个方向上的努力对VEC来说是口头上的,这是米科洛夫这样做的方法,他开发了两个模型,他说,让我们建立一个连续的单词袋,模型表明我们将使用的是共现数据,我们试图建模的文本中的一系列标记。
我们将使用神经网络模型来预测单词,从它周围的文字,在这个过程中,我们将使用神经网络模型的参数作为向量,这个向量将是这个词的表示,我们做到了,所以我们要找到的是,倾向于出现在同一上下文中的单词。
在这个高维向量中会有类似的表示,顺便说一句,高维的人通常使用三五百维的向量,所以有很多,这是一个很大的空间,文字散落在这本书中,但你得到了这种凝聚力,在同一上下文中使用的单词看起来很接近,由此推断。
如果单词在相同的上下文中使用,也许他们有共同的意义,所以另一个模型是跳克模型,你在另一个方向做预测,从一个单词中你预测它周围的单词,你又一次使用神经网络模型来做到这一点,您使用该模型的参数。
为了表示你所关注的单词,所以令我惊讶的是,他最初的论文中的这一说法,也就是说,你不仅得到了局部性的效果,对应意义,但你会得到几何学上表示的关系,这些嵌入的空间,所以你看到的是。
如果你把男人和女人两个词的编码,看看它们之间的向量差,然后将同样的向量差值应用于King,你接近女王,如果你应用它,叔叔,你靠近阿姨,所以他们展示了许多例子,然后人们研究了这个,它不能很好地支撑。
我的意思是它不喜欢,我们已经解决了语义问题,但这是一种真正的关系,它不好用的地方,当这些事情中的一些比其他事情更频繁的时候,所以经常被引用的一个例子是,如果你去,你知道伦敦之于英国,巴黎之于法国。
那个管用,但你说吉隆坡之于马来西亚,那个不太好用,然后你就像一个,你知道uu juba什么的对任何国家来说,它是…的首都。既然我们不在报纸上写非洲,这方面的数据很少,所以这不太好用。
后来范德马丁和杰夫·辛顿发表了另一篇论文,他们想出了一种可视化的方法来拍摄这些高维向量,并将它们可视化为二维,你看到的是,如果你拿一堆计数概念,所以一点半,十五,四,两个,三个,几个,有的很多,等。
它们之间有几何关系,所以它们实际上映射到了空间的同一部分,同样的部长领导,总裁,主席,主任发言人,首长等,在这个空间里形成一种集群,所以这肯定是有原因的。
好吧,我答应过你,我会回到一个不同的尝试,尝试采用你想用于术语定位的概念的核心,并开发一种自动化的方法来扩大这组概念,为了给你更丰富的词汇量,用来识别你感兴趣的案例,所以这是我的一些同事,包括凯特。
你星期二看到了谁,说得好,我们想要的是一个完全自动化和健壮的,仅利用公开医学知识来源的无监督特征选择方法,而不是EHR数据,所以大卫小组开发的方法,我们之前说过,使用电子健康记录的数据。
这意味着你搬到不同的医院,可能有不同的惯例,你可能会想象你必须重新训练这种方法,而这里的想法是从知识来源中获得这些代理特征,所以不像早期的模型,在这里他们造了一个词来惹恼。
从大约500万篇斯普林格文章中跳过Gram模型,这些是发表的医学文章,为每个单词提供500维向量,然后他们取了他们感兴趣的概念名称,及其在MLS中的定义,然后他们总结了这些单词的单词向量。
按文档频率反比加权,所以这是一种TF,IDF喜欢,然后他们出去了,他们说,好的,维基百科上提到的每一种疾病,Medscape,E医学,默克曼纽尔专业版,蛋黄酱,诊所,疾病和条件,medline。
加医学百科全书,他们使用命名实体识别技术,找到与这种表型相关的所有概念,然后他们说,嗯,这些来源有很多随机性,也许在我们的提取技术中,但如果我们坚持认为某些概念至少出现在这五个来源中的三个。
那么我们可以非常有信心这是一个相关的概念,所以他们说,好的,我们就这么做,然后他们选择了前K个概念,其嵌入向量以余弦距离最近,他们计算出的这种表型的嵌入,他们说,好的表型将是所有这些相关概念的线性组合。
所以再一次,这和我们之前看到的有点相似,但这里不是从电子病历中提取数据,他们从出版的文献中提取它,这些网络来源,专家策划了这五种表型的特征,这是一种冠状动脉疾病,类风湿性关节炎,克罗恩病,溃疡性结肠炎。
和儿科肺部,他们一开始,你知道,20到50个精心策划的特写,所以这些是医生说的,好的,这些是大卫术语中的锚,然后他们把这些扩展到一个更大的集合,使用我刚才描述的技术,然后向下选择它到顶部。
这是一个可怕的图表,总结了结果,但是,你看到的是橙色的线条是基于专家策划的特征,这是基于,尝试这样做的早期版本,说的是我刚才描述的技术,你看到的是,许多这些表型的自动技术,和手工策划的一样好,当然。
它们需要的手工策展要少得多。
因为他们使用这种自动学习的方法,回到DE标识主题的有趣示例是,我的几个学生,几年前建造了一个新的标识符,它有一个相当复杂的架构,所以它从递归开始,一种双向递归神经网络模型。
它是在医学文本中的单词字符序列上实现的,那么为什么字符序列,为什么这些可能很重要,我们考虑一下拼写错误的单词,比如说,大部分字符序列都是正确的,拼写错误就会有bug。
或者考虑到很多医学术语都是这些复合术语,在那里,它们由许多与希腊或拉丁词根相对应的片段组成,对呀,所以学习这些实际上是非常有帮助的,所以你从那个模型开始,然后将左跑和右跑的结果连接起来,递归神经网络。
并将其与VEC这个词联系起来,你把它输入另一个双向RNN层,然后对于每个单词,您将这些RNN的输出,通过前馈神经网络运行它们,为了估计概率,它就像一个软最大值,你估计这个词的概率。
属于特定类别的个人识别健康信息,所以它是一个名字吗,是地址吗,是电话号码吗,是什么,好的,然后顶层是一种条件随机场,类似层,上面写着OK,如果你见过一个名字,那么你接下来最有可能看到的事情是什么。
所以你把它和每个词的概率分布结合起来,为了识别这个词的phi或非phi的类别,按f 1分优化,我们的精确度是99点,百分之二,召回九十九点,百分之三,通过召回优化,我们大约在九十八,每人百分之九十九。
所以这个做得很好,现在,有一个非机器学习的评论要做,如果你读了HIPAA定律,HIPAA条例,他们没有说你必须摆脱90,9%的个人身份信息,为了能够共享这些数据用于研究,它说你必须把所有的东西都处理掉。
所以我们所知道的任何技术都不是百分之百完美的,所以在从事这项工作的人中有一种实际的理解,没有什么是完美的,因此,你可以逃脱一点点,所以我记得,许多年前,我妻子在法学院,我一度问她,那么人们能告你什么呢。
她说了任何话,他们可能赢不了,但如果你不得不在法庭上为自己辩护,所以这还没有结束,我们不知道,如果一个de标识符是九十,9%的敏感性和99%的特异性,将通过同意发布数据集的人的审查。
因为他们也担心上报纸,或者最终被起诉,好的,今天最后一个话题,所以如果你读了这个有趣的博客,顺便说一句,它有一个非常好的关于伯特的教程,他说,2018年是机器学习模型的转折点,处理文本,或者更准确地说。
nlp,我们对如何最好地表示单词和句子的概念理解,以一种最能捕捉潜在含义和关系的方式迅速发展,所以有一大堆新的想法,在过去的一两年里发生的事情,包括埃尔莫,它学习特定于上下文的,嵌入,变压器体系结构。
这种伯特方法,然后我将以向你展示,这个巨大的GPT模型是由Openai人开发的,它在生成语言方面比我之前展示给你的东西要好得多,所有的权利,如果你看看谷歌翻译,至少就在不久前,你发现的是这样的模型。
所以它本质上是一个LSTM模型,接受输入单词,它总结了模型所知道的关于那个句子的一切,你刚刚喂它,很明显,它必须是一个相当高的维表示,因为你的句子几乎可以是关于任何事情的,因此。
能够在这个表示中捕捉到所有这些是很重要的,但基本上在这一点上,你开始产生输出,所以如果你把英语翻译成法语,这些是进来的英语单词,这些是法语单词,以某种方式,我给你看了我们创作莎士比亚的地方。
但这里的关键特征是,在这个的最初版本中,你所学到的关于这个英语句子的一切都必须用这个向量编码,从解码器传出来的,从编码器到解码器,或者从源语言进入目标语言生成器,然后有人过来说,嗯哼,某人。
就是这些家伙走过来说,这不是很好吗?如果我们能给发电机提供一些辅助信息,你应该注意输入句子的哪一部分,当然,这个问题没有固定的答案,我是说,如果我在翻译一个任意的英语句子,变成武断的法语句子。
我不能笼统地说,看英语句子中的第三个单词,当你在法语句子中生成第三个单词时,因为这可能是真的,也可能不是真的,取决于特定的句子,但另一方面,直觉是有这样一种位置依赖,依赖于特定的英语句子是一个英语单词。
这是产生法语单词的一个重要组成部分,所以他们创造了这个想法,除了传递这个矢量,它编码整个输入的含义,以及在输出中生成的前一个单词,此外,我们传递其他信息,告诉我们应该注意哪些输入词。
我们应该给予他们多少关注,当然还有,在这些嵌入的风格中,这些都是用高维向量表示的,与其他向量组合的高维实数向量,为了产生输出,现在一个古典语言学家会看到这个,可怜的权利。
因为这看起来一点也不像古典语言学,随机梯度下降法训练的只是命理学,为了优化输出,但从工程的角度来看,效果还挺好的,所以有一段时间,这是最先进的,然后去年这些家伙瓦斯瓦尼来了,说,你知道的。
我们现在有了这个复杂的架构,我们在做旧式翻译,我们把所有的东西总结成一个向量,然后用它来生成一系列输出,我们有这个注意机制,它告诉我们在,生成输出的每个元素是实际需要的第一个元素。
所以他们发表了这篇可爱的论文,说关注是你所需要的,上面写着嘿,你知道你们添加到这个翻译模型中的东西,它不仅是一个有用的添加,但实际上它可以代替原来的模型,所以变压器是一个最热门的建筑。
因为现在切片面包说,好的,我们是这样做的,我们把输入,我们为他们计算一些嵌入,然后我们想保留这个位置,因为,当然,单词出现的顺序很重要,位置编码是一个奇怪的东西,它使用正弦波编码,所以是的。
这是一个正交基,所以它有很好的特点,然后我们把它运行到一个注意力模型中,这本质上是计算自我注意力,所以它对VEC说了什么,除了以一种更复杂的方式,所以它看句子中的所有单词,并说出这个词与哪些词最相关。
然后为了让它更复杂,他们说,嗯,我们不想要一个单一的关注概念,我们想要多种注意力的概念,这听起来像什么,对我来说,这听起来有点像你在卷积神经网络中看到的,当你用CNN处理图像时。
你不仅仅是对图像应用一个过滤器,但是你在应用一大堆不同的过滤器,因为你随机初始化它们,你希望它们会汇聚到实际检测到不同的东西上,图像的有趣性质,所以这里的想法是一样的,他们所做的是。
他们从一堆注意力矩阵开始,说我们随机初始化它们,它们将演变成对帮助我们处理整体问题最有用的东西,然后他们把这个通过一系列,我想在瓦斯万的报纸上,类似于六层的东西,只是复制,还有一些额外的东西。
比如将输入信号前馈,以便将其添加到舞台的输出信号中,然后正常化,然后重新运行它,然后通过前馈网络运行它,也有旁路,它将输入和前馈网络的输出结合在一起,然后你这样做六次或N次,然后输入发电机。
然后生成器使用非常相似的体系结构来计算输出概率,然后它从这些样本中取样,以便生成文本,所以这是一种当代的翻译方式,人们可以用这种方法来翻译,很明显,我没有时间详述所有的细节,这一切都是如何做到的。
反正我可能会做错,但你可以看看论文,它给出了很好的解释,我指向的那个博客也有一个指向另一篇博客文章的指针,同一个人很好地解释了,嗯,所以你从多头注意机制中得到的,和,比如说。
这里的颜色表示单词编码的程度,这取决于句子中的其他单词,你看到它聚焦在动物身上,这是有道理的,因为它,事实上,是指,在这个句子中,他们引入了另一种编码,而这个关注的太累了,这也很好。
因为它又指的是太累的事情,当然还有多头,他们的意思是它已经这样做很多次了,所以你很好地识别了输入句子中的各种不同关系,沿着同样的路线是这种叫做elmo的编码,人们似乎喜欢芝麻街的角色,嗯。
所以Elmo是基于双向LSTM,所以这是一种更古老的技术,但它的作用不同于文字对VEC,它为每种类型构建了编码和嵌入,所以每次垃圾这个词出现,它在这里得到了相同的嵌入,他们说的是嘿,认真对待上下文。
我们将为每个事件计算不同的嵌入,在象征性权利的背景下,事实证明这很好,因为它在一定程度上解决了词义消歧问题,所以这只是一个例子,如果你看看手套里的游戏这个词,这是VEC方法的一个稍微复杂的变体。
你得到玩游戏游戏,玩的人玩的人,玩家游戏,足球,多人游戏,这一切似乎都与游戏有关,因为可能从文献中他们得到了这个,这是游戏这个词最常见的用法,而使用这种双向语言模型,他们可以分离出基弗这样的东西。
小组里唯一的低年级学生,因他击中离合器的能力而受到称赞,以及他全方位的出色发挥,所以这大概是棒球运动员,他们是演员在一部成功的戏剧中扮演了很多角色,所以这是游戏这个词的不同含义。
所以,这种嵌入也为提高自然语言处理的质量做出了非常重要的贡献,通过能够处理单个单词有多种含义的事实,不仅用英语,但在其他语言中,所以在埃尔莫之后是伯特,因此,与其使用Elmo使用的LSTM模型。
不如使用Elmo使用的LSTM模型,这些家伙说,嗯,让我们加入这股潮流,使用基于变压器的体系结构,然后他们介绍了一些有趣的技巧,所以变压器的一个问题是,如果你把它们叠在一起。
从任何输入到任何中间节点都有许多路径,和产出,所以如果你在自我关注,你试图弄清楚输出应该关注输入的地方,答案,当然啦,就像如果你试图重建输入,如果输入存在于模型中。
您将了解到相应的单词是您输出的正确单词,所以他们必须防止这种情况发生,所以他们这样做的方法是在每一层都遮蔽,单词的一部分,或该一级的投入,所以这个做的是,它有点像Word到VEC中的跳克模型。
它试图预测某个词的可能性,除了它不知道单词的重要部分是什么,所以它不能像我刚才建议的那样太合适,所以这是个好主意,又变得复杂了,浏览详情,你得看报纸,我给了变压器纸和伯特纸作为今天的选读。
我本想按要求给他们读数,但我没有及时做,但还有一大堆其他的把戏,所以与其用文字,他们实际上使用单词片段,所以想想音节,不要,变成了,do和撇号t,等等,然后他们发现大约15%的代币被掩盖。
似乎比其他百分比更有效,所以这些是防止过度拟合的隐藏标记,做一些其他奇怪的事情,就像他们而不是掩盖一个令牌,他们会把词汇表中随机的其他单词再次注入到它的位置上,防止过装,然后他们看着不同的任务。
比如我能预测语料库中的下一个句子吗,所以我读了一个句子,而且没有翻译成另一种语言,但它在预测下一句会是什么,所以他们把它训练在8亿个单词上,这些单词来自一个叫做书籍标记的东西,书籍语料库。
大约250万字,维基百科语料库,他们发现,在许多经典任务上有了巨大的改进,这是自然语言处理的一些标准任务的列表,大多不在医学界,但是在一般的nlp域中,你看到你得到了这样的东西,呃,从。
你知道百分之八十,甚至是我一会儿要讲的GPT模型,八十六岁,百分之八十二,它们高达86%左右,所以在这个领域4%的改进真的是巨大的,我是说,经常,人们发表论文表明你知道1%的进步。
如果他们的语料库足够大,那么它在统计上是显著的,因此可以出版,但在这个术语的普通意义上并不重要,显著,如果你做得好百分之一,但提高4%就很好了,我们要出发了,你知道从60岁开始,百分之六到百分之七十二。
从早期的艺术状态,八十二对九十一,九十三到九十四,三五到六十,在可乐任务中,语言可接受性主体,所以这是在问,我觉得,生成句子的机械土耳其人,这句话,有效的英语句子,所以这是一个有趣的基准。
所以它产生了非常显著的改进,到处都是,他们训练,它的两个模型,基础模型是较小的,大型模型只是在较大的数据集上训练,在做这个训练时需要大量的计算,所以你知道,我已经忘了。
他们花了一个月的时间在一些巨大的GPU机器集群上,所以这是令人生畏的,因为你不能在笔记本电脑上启动这个,并期待它在你有生之年完成,我想告诉你的最后一件事是GPT 2,这是Openai研究所的。
这是一个慈善资助的,我想这是埃隆·马斯克的,一个研究机构来推进,爱恩,他们说的很好,这一切都很酷,但他们没有使用伯特,他们使用变压器架构,但没有和伯特一样的训练风格,他们说秘诀是我们要应用这个。
不仅仅是一个问题,但是一大堆问题,所以这是一种多任务学习的方法,上面写着,我们要建立一个更好的模型,通过试图同时解决一堆不同的任务,所以他们建造了巨大的模型,顺便说一句,任务本身是作为一系列令牌给出的。
例如,他们可能有一个任务说,翻译成法语英语文本,法文本,好的或者回答,问题文件,问答,所以这个系统,如何做它应该做的事情,但它甚至学会了一些关于它被要求工作的任务的东西,通过编码这些。
并将它们作为模型的一部分,所以他们造了四个不同的模型,看看下面这个,一分,五百万,一分,50亿,参数,这是一个大模型,这是一个非常大的模型,所以它是一个字节级模型,所以他们就说废话少说。
因为我们试着用多种语言来做这件事,所以对于中文来说,你想要字符,对英语来说,你还不如把字符也拿走,系统将在其一点上,50亿个参数,学习组成单词的字符序列,会很酷的,所以他们看到了一大堆不同的挑战。
你看到的是他们在做这个之前的技术水平,比如说,Labata数据集是,它的预测令人困惑,有了这个大模型,它的预测的困惑大约是九个,所以这意味着它减少了,下一步该预测什么的不确定性太荒谬了。
我的意思是超过一个数量级,你得到了类似的收获,准确率从百分之五十九到百分之六十三,对…的准确性,这是孩子们的东西或其他挑战,从百分之八十五到百分之九十三,如此戏剧性的改进几乎是全面的。
除了这个特定的数据集,他们做得不好的地方,真正让我震惊的是,这是他们建立的50亿字模型的应用程序,所以他们说,好的,我给你一个提示,就像一堵墙的开头段落,街头杂志文章或维基百科文章。
你用我之前展示给你的生成器的想法来完成这篇文章,它只是使用语言模型,并选择下一个最有可能出现的词,作为下一个词发出,所以这里有一个提示说,今天在辛辛那提一辆装有受管制核材料的火车车厢被盗,下落不明。
顺便说一句,这是编造的,我是说,这不是一篇真正的新闻文章,系统得出的结论是事故发生在市中心的铁路线上,从卡温顿和阿什兰车站出发,在给俄亥俄州新闻媒体的电子邮件中,美国能源部说。
它正在与联邦铁路管理局合作寻找小偷等,好的,这看起来,现在这篇文章来自的报纸,这实际上是来自一个博客,但他们也发表了一篇关于它的论文,声称这些例子甚至不是精心挑选的,如果你去那一页选择,样本一,两个。
三个,四,五个,六,等等,你会得到不同的例子,他们声称不是精心挑选的,他们每个人都很好,我是说,你可以想象这是一篇关于这个真实事件的真实文章,所以不知何故在这个巨大的模型中,有了这种变压器技术。
通过他们所做的多任务训练,他们设法捕捉到了英语的许多规律性,他们可以根据提示生成这些假新闻文章,让它们看起来难以置信的逼真,现在有趣的是,他们选择不释放那个训练有素的模型。
因为他们担心人们实际上会这样做,他们会一直生成假新闻文章,他们发布了一个小得多的型号,就其现实主义而言,这几乎没有那么好,这就是目前语言建模的最新技术,正如我所说,一般领域领先于医学领域。
但你可以打赌有很多人坐在那里,看着这些结果,说好,我们应该能利用这一点,为医学领域建立更好的语言模型,并剥削他们,为了做表型分型,为了做实体识别,为了做推理,为了做问答,为了做任何这类主题。
现在我在和帕特里克·温斯顿说话,他是一个很好的老式人工智能人,就像他描述自己一样,有点麻烦的是,这项技术实际上与我们所理解的语言无关,或者关于推理,或者关于回答问题,或者任何事情。
所以一个人留下了这种反胃的感觉,这是一个很好的工程解决方案,可以解决一系列问题,但尚不清楚它与人工智能的最初目标有何关系,那就是通过在计算机中模拟人类智力来理解人类智力的一些东西,也许我们的BCS。
朋友们会发现,事实上,深埋在我们大脑中的变压器机制,但如果事实证明确实如此,我会感到惊讶,但也许有类似的事情在发生,所以这留下了一个有趣的科学难题,我们到底从这种非常,非常成功的模型构建,好的。
P9:9.Translating Technology Into the Cli - 大佬的迷弟的粉丝 - BV1oa411c7eD
幸运的是我今天有客人,亚当·赖特博士,他们将做一个面试风格的会议,并将为你回答问题,这是亚当的面包和黄油,正是如何将这种技术转化为临床,他目前在布里格姆的合伙人制度中,我猜,但他即将成为叛徒。
把我们留在波士顿,在范德比尔特大学任职,所以我们祝他好运,但我很高兴我们在他离开夏天之前抓住了他,好的,坦白说,我希望我能给你讲一个更快乐的故事,比你要从我这里听到的那个,在我演讲的准备部分。
也许亚当会让我们振作起来,让我们更乐观,根据他的经验,所以你可能已经注意到AI很热,所以赞美诗,例如,健康信息管理系统协会,这是一个很大的,他们举行年度会议,由许多供应商和许多学者组成。
这是一个大型贸易展,各种各样的东西,气球挂在摊位上,还有很大的空地,所以,比如说,他们现在在谈论人工智能驱动的医疗保健,另一方面,记住这个图表很重要,所以这是一种技术采用图,这叫做炒作循环。
你在这里看到的是R和D,那就是我们产生了一些奇妙有趣的想法,然后突然间人们对此感到兴奋,那么谁对它最兴奋呢,是那些认为他们会从中发财的人,这些就是所谓的秃鹫,资本家,风险资本家,所以风险资本家进来了。
他们鼓励像我们这样的人出去创办公司,或者如果不是我们,然后我们的学生去找公司,想办法把这个新生的想法,现在,风险投资的秘诀在于,他们知道他们资助的公司中大约有90%会倒闭,他们会做得很糟糕,所以结果。
他们所希望的,以及他们所期望的,好的人实际上得到的是十分之一成功的人,赚这么多钱,它弥补了所有的投资,他们倒在十个做得不好的人中的九个身上,所以我真的记得,在二十世纪九十年代。
我在帮助一个小组向Kleiner Perkins推销一家公司,这是一个很大的冒险,硅谷最大的风险投资基金之一,我们走进他们的会议室,他们有一份圣何塞水星新闻,他们桌子上的硅谷当地报纸,他们只是喜气洋洋。
因为有一篇文章说在过去的一年里,硅谷最好的两项投资和最差的两项投资是,他们的公司,但这是相当好的权利,如果你是,如果你得到两个赢家和两个非常糟糕的输家,你赚了很多钱,所以他们心情很好,他们资助我们。
我们没给他们赚到钱,所以你在这条曲线上看到的是,有一种不断上升的期望,这来自这些技术的发展,你有一些早期采用者,然后报纸上写着这是一场革命,从现在开始一切都会不同,然后除了早期采用者之外。
您还有一些额外的活动,然后人们开始看着这个,进展顺利,它确实没有人们所说的那么好,然后你会急剧下降,有一些整合和一些失败,人们不得不回到风险投资,试图获得更多的钱来维持他们的公司,然后有一种低谷。
人们去那里,哦好吧,这是另一个失败的,然后渐渐地,你开始达到这位作者所说的,启蒙的斜坡,人们意识到好吧,1。事情没我们想的那么糟,当它没有达到我们崇高的期望时,然后逐渐地,如果它成功了。
然后你会得到多代产品,它确实实现了收养,领养几乎没有达到顶峰,在炒作周期的顶部,它预计会达到。
但它变得有用,它变得有利可图,它变得富有成效,现在我已经在这里呆了足够长的时间,看到了许多这样的循环,所以在二十世纪八十年代,比如说,当时被戏称为艾夏,人们在那里建立专家系统。
这些专家系统将彻底改变一切,我记得去参加一个会议,坎贝尔汤公司在那里建立了,一个基于一些即将退休的老前辈的专业知识的专家系统,这个专家系统做了什么,它告诉你怎么清洗汤缸了吗。
你知道这些巨大的百万加仑的东西,他们做汤的地方,当你从做一种汤到做另一种汤时,所以你知道,如果你在做牛肉清汤,你换成做大麦牛肉汤,你根本不需要清洗大缸,而如果你从,你知道蛤蜊浓汤配清汤。
然后你需要把它清理得很好,所以这正是他们正在做的事情,实际上有成千上万的这样的应用程序正在构建,在炒作周期的顶端,像坎贝尔汤和航空公司这样的公司,每个人都在这方面投入了大量的资金,然后是一种期望的失败。
这些并没有像人们想象的那样好,或者像人们想象的那样有价值,突然冬天来了,所以艾冬跟着艾夏,没有AI倒下,除了在秋天这个词的不同意义上,突然间资金枯竭了,整件事被宣布失败,但事实上今天,如果你出去看看。
你知道的,Microsoft Excel内部捆绑了一个基于专家系统的帮助系统,有大量这样的应用程序,只是现在它们不再被认为是人工智能的前沿应用,他们只是被认为,你知道的,日常练习,所以他们。
他们已经在没有炒作的情况下融入了现有的各种产品,他们发挥着非常有用的作用,但他们没有让那些风险投资公司,他们希望赚的大量钱,在2000年也有类似的繁荣和萧条周期,它围绕着万维网和电子商务的创建,所以E。
又是商业,有一套令人难以置信的膨胀的期望,然后在2000年左右发生了一场大崩盘,突然之间,你知道的,人,意识到这些应用程序的价值没有他们预期的那么高,然而,你知道的,亚马逊做得很好,网上有很多E。
今天运营秩序非常好的商业网站,但对这项技术的炒作已经不一样了,这已经成为你在几乎所有事情上做生意的方式中被接受的一部分,嗯,说专家系统,基于意志的系统,它们要么是基于规则的系统,要么是模式匹配系统。
有两种基本的,我想一个星期后,我要谈谈其中的一些,以及它与现代机器学习的关系,所以我们会看到一些例子,所以说,我想你们大多数人都记得,当沃森大放异彩的时候,这是在20世纪初什么的,我记不清是哪一年了。
他们有,事实上,建立了一套令人印象深刻的技术,可以阅读各种在线资源,并将它们提炼成一种表征,当他们遇到危险问题时,他们可以很快地查找东西,然后它有一套复杂的算法,他们会试图为一些问题找到最好的答案。
他们甚至有各种奇怪的特殊用途的东西,我记得有一个概率模型,每天的双方块最有可能出现在危险板上,然后他们做了一个效用理论计算,如果他们真的达到了每日双倍,根据机器的性能,下注的最佳金额是多少,为了优化。
他们认为人类通常赌注不够,当他们有机会在每日双倍,所以为此做了很多非常特殊的工作,所以这是一个巨大的宣传,bonanza和ibm决定下一步要解决医学问题,所以他们打算把这项技术应用到医学上。
他们会阅读所有的医学杂志和所有的医疗电子病历,他们可以得到他们的手,不知何故,这项技术会再次提取正确的信息,这样他们就可以回答像危险问题这样的问题,除了没有用它有趣的落后的方式来陈述,你可能会说。
对这个病人来说是可以的,最佳疗法是什么,它会出去,使用同样的技术来解决这个问题,现在这是一个完全合理的尝试,他们遇到的问题是这种炒作循环,公开这件事的人是他们的营销人员,而不是他们的技术人员。
营销人员疯狂地承诺,他们说这肯定会解决所有这些问题,我们不需要在这方面进行更多的研究,因为我们成功了,我夸大其词了,即使从营销的角度来看,所以沃森肿瘤学,使用这台基于云的超级计算机消化了大量的数据。
数据包括各种不同的东西,所以我要详细介绍一下,他们的一些问题是,这是来自《统计新闻》杂志的一篇文章,它做了一篇关于沃森发生的事情的调查文章。
所以你知道他们说我刚才说的话,气喘吁吁地宣传其招牌品牌,ibm试图抓住世界的想象力,并迅速锁定了一个高调的目标,那是癌症,所以这将解决一些病人被诊断患有癌症的问题,你想知道如何对待这个人。
所以这将使用所有的文献,以及它从以前对以前病人的治疗中收集到的所有东西,它会给你最优的解决方案,现在还没有成功,有几十家医院采用了该系统,在美国很少,他们中的更多人在国外。
外国人抱怨它的建议对美国病人有偏见,和美国人对我的态度,最大的问题是他们实际上没有出版任何东西,在科学意义上验证了,这是个好主意,它得到了正确的答案,我猜原因是,因为很多时候都没有得到正确的答案。
但这并不妨碍市场营销,另一个问题是他们和纪念斯隆·凯特林达成了协议,它是全国领先的肿瘤医院之一,我们将与你们和你们的肿瘤学家合作,为了找出真正正确的答案。
所以我认为他们试图做他们的营销所说的他们正在做的事情,就是真正推导出正确的答案,从阅读所有的文献和查看过去的案例,但我认为这不够好,所以他们最终做的是求助于真正的肿瘤学家,说着,在这种情况下你会怎么做。
所以他们最终建立了一个基于规则的系统,如果你看到以下症状,你有以下基因缺陷,那么这就是正确的治疗方法,好的,所以这将是一个机器学习系统的承诺,通过找到最佳治疗方法彻底改变了癌症护理真的不是他们提供的。
正如文章所说,这个系统并没有真正创造新的知识,所以它只是在提供一个搜索引擎的意义上,当它提出建议时,可以为您指出合理反映什么的文章,它在推荐,嗯,我就不说这些了,但你会在幻灯片上看到的,我们会把它贴在。
他们和M·D·安德森有一份大合同,这是美国另一个领先的癌症中心,安迪·安德森在这份合同上花费了大约6000万英镑来执行它,他们拔掉了插头,因为他们认为这不是,不是在做这份工作,现在,相比之下。
这不是由营销驱动的,而是由医疗需求驱动的,这里的想法是坡代表计算机化的医生订单输入,坡背后的想法是,如果你想影响临床医生的行为,在订购测试、药物或程序时,你要做的是确保它们与计算机交互。
这样当他们点菜的时候,比如说,一些非常昂贵的药物,系统可以回来说嘿,你知道有一种药的价格是,那个,根据我们记录在案的临床试验,和您点的那个一样有效,所以,比如说。
在贝斯以色列很多年前他们实施了这样的系统,第一年,他们展示了他们在药店节省了大约1600万美元,只是通过订购更便宜的药物变体,这些药物可能非常昂贵,他们还发现医生们,点菜的人对此非常满意。
因为他们不知道这些药有多贵,你知道这不是他们关注的事情之一,所以有很多这样的应用程序是由这个驱动的,一次又一次,以下是一些统计数据,可以将错误率降低一半,你可以通过以下方法减少严重的用药错误,呃,八十。
百分之八,呃,你可以减少70%的抗生素相关,药物不良事件,你可以缩短停留时间,这是人们追求的另一个大目标,至少如果你是个乐观主义者,你可以相信这些推断,嗯。
我们可以在美国的大城市医院预防300万起药物不良事件,如果每个人都使用这样的系统,所以好处是它提示了对可能的药物相互作用的警告,过敏,或过量,它可以通过某种机制保持最新,人们阅读文献并不断更新数据库。
你知道,它可以做一些机械的事情,比如消除听起来相似的药物名称的混乱,诸如此类的东西,所以跳蛙组,它做了很多元分析和研究什么是真正有效的背后,用力推,未来潜在效益,当然啦。
如果我们所说的机器学习技术被广泛使用,那么这些系统就可以自动更新,而不是手工审查,您可以获得当新信息可用时立即反馈的优势,由国家医学科学院推荐,他们希望到1999年每家医院都能使用这个,当然。
这并没有发生,所以我找不到当前的数据,但是,表明坡,比如说,药物订单,只在大约五家医院使用,当时人们在推断和说,直到20年,它的渗透率才会达到80%,二十九,所以这是一个非常缓慢的采用周期,对呀。
也许它变得更好了,另一个问题,抵抗的原因之一是它给人们带来了额外的压力,所以说,比如说,嗯,这是一项关于药剂师如何消磨时间的研究,临床时间有用,那是他们咨询医生的时候,帮助他们为病人确定合适的剂量。
或者他们在和病人说话,向他们解释如何服药,注意什么副作用等等,这些分配任务,这是一个有趣的术语,指他们所做的非临床部分,你看到的是采用C poe的医院,他们最终会花更多的时间在分配任务上。
少一点临床任务的时间,这可能不是正确的方向,就药剂师所希望的而言,在这样的系统之外,现在人们已经研究了新医疗技术的传播,我想我会给你看图表,这是在英国,但这是他汀类药物的采用,所以从他们被介绍的时候。
他汀类药物是一种保持低胆固醇的药物,从他们被介绍的时候,直到它们被使用,基本上在100%的地方大约是五年半六年,好的,如此之快,如果你看看磁共振成像技术的采用,它花了五年时间才被收养。
那是因为它贵得离谱,所以有各种各样的限制,你知道的,即使在马萨诸塞州,如果你镇上的另一家医院已经有了,然后他们会说好,你不应该买,因为你应该可以用另一家医院的核磁共振仪,CT也发生了同样的事情。
但一旦这些限制被取消,繁荣,你知道它上升了,然后继续上升,而支架,我真不明白他们为什么耽搁了那么久,但这是为冠状动脉或其他动脉堵塞的人准备的,你可以放一根网管保持动脉畅通,收养速度非常快。
所以不同的东西以不同的速度被采用,嗯,现在我想谈的最后一个话题是,我是的,那么在那些有尖峰的年份会发生什么,什么样子,怎么了?根据这些作者,在支架的情况下,有一些人支持支架的想法,他们四处走动。
说服他们的同事这是正确的技术,所以它有一个爆炸性的增长,在核磁共振的其他技术中,钱很重要,因为它们太贵了,支架相对便宜,在他汀类药物的情况下,也是比较便宜的,或者它们失去专利后变得便宜了,他们本来是。
它们要贵得多,嗯,但是仍然有收养问题,例如,有一个建议,我想大概十五个,甚至二十年前,也就是说,任何心脏病发作或冠状动脉疾病的人,应该服用受体阻滞剂,我不记得今天的采用率是多少,但只有一半的量。
为什么这是一种非常便宜的药物,出于不太明白的原因,它将第二次心脏病发作的概率降低了大约3。5%,所以这是一种非常便宜的保护人们健康的方法,然而,它并没有像人们想象的那样充满实践,它应该是,所有权利。
那么,在我们把这些技术强加给世界之前,我们如何确保它们的质量呢?这很棘手,嗯,指出大多数生物医学研究都是废话,有一些著名的出版物表明人们已经把一些生物医学领域,他们看了一群受人尊敬的人,他们去了实验室。
他们试图复制这些研究,一半或四分之三的时间他们没有做到这一点,你去,我的天啊,这太可怕了,对,太可怕了,是啊,是啊,当他们没有这样做时,它们不会复制完全相同的资源,比那更糟,所以不是说,有细微的差别。
就是那个,比如说,在一项研究中被证明具有统计学意义的结果,当他们重复的时候,这项研究不再具有统计学意义,好的,那很糟糕,如果你把政策建立在这种决定上,所以Yiddes有一个建议,这可能会有很大帮助。
这基本上是让每个人都知道的,所有失败的研究,所以问题是如果你给我一个大数据集,我开始挖掘这个数据集,我会在这些数据中找到大量有趣的相关性,好的,一旦我得到一个有很好的P值。
我的学生和我去美妙的时间发表权利,现在想想我不是唯一一个扮演这个角色的人,所以你知道,大卫的小组也在做同样的事情,约翰·古托和雷吉娜·巴齐斯,以及我们在美国其他主要大学和医院的所有同事。
所以可能有数百人在挖掘这些数据,我们每个人做这件事的方法略有不同,我们选择不同的案例,我们以不同的方式预处理数据,我们对它们应用不同的学习算法,但只是偶然,我们中的一些人会发现有趣的结果,有趣的图案。
当然,这些都是出版的,因为如果你没有找到一个有趣的结果,你不会把它提交给日记然后说,你知道,我寻找以下事实现象,我找不到它,因为杂志上说,这对任何人来说都不感兴趣,所以IDES建议,基本上。
任何人进行的每一项研究都应该注册,如果你没有得到一个应该知道的重要结果,这将使我们至少做出一些合理的估计,得到的显著结果是否只是统计上的异常值,碰巧达到p,等点,零,五个,或者不管你的门槛是什么。
还是真实的效果,因为没有多少人尝试过,是啊,是啊,你认为这是为什么,因为有些病人的体型,或者喜欢,可能是那些中的任何一个,可能是你知道你的医院有一些有偏见的数据收集,所以你发现,实际上我的医院没有。
所以我找不到它,可能我们只是随机地对人群中的不同样本进行了亚采样,所以去年很有趣,杰夫·德拉赞邀请我参加一个会议,他是新英格兰杂志的执行编辑,他在考虑还没有决定,但他在考虑新英格兰日报的政策。
这就像顶级医学杂志说他不会发表任何结果,除非它被复制在两个独立的数据集上,对呀,所以这很有趣,这是对这个问题的反击,这是一个不同的解决方案,而不是你需要的是推荐。
这是恩里科·科伊拉的一项研究,他在谈论复制意味着什么,再说一遍,我不会经历这一切,但有一个复制的概念,可能意味着精确的复制,我是,您对完全相同的数据做完全相同的事情,但在不同的数据集中,然后部分复制。
概念复制,上面说你遵循同样的程序,但在不同的环境中,然后准复制,部分的或概念性的,这些有各种各样的特征,你可以看到,这是一个有趣的框架,这不是一个新想法,这本书的第一版。
评价方法和生物医学信息学被称为医学信息学中的评价方法,作者相同,很久以前就出版了,我不记得这个是最近的,所以他们做了几百页,非常详细的评估一个人应该如何评估像这样的临床系统,它非常小心,非常谨慎。
但也很保守,例如,他们推荐的东西之一,做评估的人不应该是开发这项技术的人,因为天生就有偏见,你知道我希望我的技术成功,所以他们说,把它交给没有同样既得利益的人,然后你会得到一个更仔细的评估。
所以史蒂夫·帕克,我对他们早期的一篇论文写了回应,推荐这个说得好,太保守了,它把婴儿和洗澡水一起扔出去了,因为如果你让评估变得如此困难,你永远不会得到任何超过它的东西,所以我们提出了一种分阶段的评估。
首先说,你应该做回归测试,以便每次您使用这些敏捷开发方法时,您应该有您的程序处理过的一组案例,然后您应该自动重新运行它们,看看哪些是您做得更好的,哪些你做得更糟了,这会让你对,你所做的是否合理。
然后您还可以构建用于自动化的工具,在您正在构建的模型中寻找不一致的方法,然后你有临床医生的回顾性评估,所以你在一大堆现有数据上运行一个你喜欢的程序,就像你用Mimic或市场扫描做的那样。
然后你前瞻性地做,但实际上不会影响病人,所以当数据进来的时候,你就实时地做了,但你不告诉任何人这个项目的结果,你只要让他们回顾一下,看看这是否正确,你可能会说嗯,实时收集数据有什么区别。
并回顾性地收集数据,从历史上看,答案是有区别的,所以情况不同,收集数据的机制不同,所以这是一个重要的问题,然后你可以进行一个前瞻性对照试验,你有兴趣评估你从程序中得到的答案,以及最终对健康结果的影响。
所以如果我有一个决策支持系统,布丁的终极证明就是,如果我运行决策支持系统,我给临床医生建议,临床医生有时会改变他们的行为,病人得到了更好的结果,那么我相信这真的很有用,但你得慢慢地到达那里。
因为你不想给他们更糟糕的结果,那是,你想把这和没有帮助的医生的表现进行比较。
所以食品和药物管理局多年来一直在处理这个问题,我记得大约在1976年和他们谈过,当他们读到第一个用于诊断和治疗选择的专家系统程序时。
他们说好,我们应该如何监管这些,我当时的反应是上帝,帮我们把你的手拿开,因为如果你调节它,那你就会放慢进度,在任何情况下,这些程序都没有被使用,这些方案正在作为实验方案开发,在实验环境中。
它们根本不可能用在真正的病人身上,所以没有监管问题,大约每五年FDA就会重新审视这个问题,他们继续做出本质上相同的决定,基于,比如说,他们不规范书籍,如果我写一本解释医学的教科书。
食品和药物管理局不会看它是否正确,原因是因为预期是教科书提出了建议,所以对负责任的临床医生来说,专家自己,所以他们行为的最终责任,和他们在一起,而不是和教科书在一起,他们说我们要把这些计算机程序。
好像它们是动态的教科书,而不是现在独立行动和提供建议的同事,一旦你试图给出建议,不是对专业人士而是对病人,那么你就会立即受到食品和药物管理局的监管,因为现在没有专业的中间人可以评估建议的质量。
所以FDA在过去一年里所做的,就是,他们说我们要处理这些基于人工智能的报价,取消报价设备作为医疗设备,我们将应用与这些设备相同的监管要求,除了我们真的不知道怎么做,所以现在正在进行一种实验,他们在说。
好的,向我们提交审查这些设备的申请,我们会回顾他们,以及在组织中培养他们的所谓积极主动的文化,为了判断是否,让你继续营销这些东西之一,嗯,所以如果你看,实际上有大约十个设备,引用未引用。
这些都是到目前为止已经被FDA批准的软件,几乎都是成像设备,有些东西在这样或那样的事情上做卷积网络,这里有几个例子,伊莫金有骨检测,分析二维X线图像寻找桡骨远端骨折的迹象,所以如果你摔断了手腕。
然后这个系统会查看X光,并决定你是否做了那件事,呃,这是IDX的一个,它看着,呃,你视网膜的照片,并决定你是否患有糖尿病视网膜病变,实际上,他们发表了很多论文,表明他们也可以识别心脏病,和中风风险。
和这些照片中的各种其他东西,所以食品和药物管理局已经批准他们销售这种东西,呃,另一个是,即,那个,呃,自动分析急诊室病人的ct扫描,正在寻找主要脑血管的堵塞,所以这显然会导致中风,这是一种自动化技术。
这里还有另一个艰巨的措施,并在放射学图像中跟踪肿瘤或潜在癌症。
所以这些是已经批准的,然后我只想提醒你,实际上有很多关于这种东西的文献,所以左边的书实际上下周出版,我读了埃里克·托尔的预印本,他是写了很多关于医学未来的文章的医生之一,他实际上经历了大量的例子。
不仅是FDA批准的系统,还有正在进行的事情,他很乐观,这些将再次彻底改变医学实践,鲍勃·沃尔特,他几年前写了一本关于左边的书,稍微谨慎一点,因为他是加州大学的医学主任,旧金山,他写了这本书来回应他们。
给一个孩子服用过量的药物,差点杀死他。
他们没有很成功,杀死孩子,所以结果还可以,但他真的很担心,这项奇妙的技术导致了如此灾难性的结果,所以他花了一年时间研究这些系统是如何被使用的,并写了一个更警示性的故事,所以让我转向亚当,正如我所说的。
他是布里格姆和哈佛医学院的教授。
请过来加入我,我们可以交谈,所以我叫亚当,赖特,我是哈佛医学院的医学副教授,我领导一个研究项目,我在医学院教授生物医学信息学导论课程,如果你对皮特今天谈论的话题感兴趣,你绝对应该考虑在BMI中交叉注册。
七零一或七零二在医学院,我们当然总是需要一些更热情的人,在我们的课程中有技术头脑的机器学习专家,嗯,然后我在合伙人公司做运营工作,伙伴,是包括大众综合医院和布里格姆医院在内的卫生系统,然后一些社区医院。
我在合伙人那里工作,E护理,这是我们史诗的酷品牌名称,所以史诗是一个小时,我们使用合作伙伴,我帮助监督那里的临床决策支持,所以我们有一个决策支持团队,我是监测和评估的临床负责人。
所以我帮助确保我们的决策支持系统,皮特所说的类型工作正确,那是我在布里格姆的工作,我非常感激,谢谢,我很感激你的邀请,在这里很有趣,所以亚当,第一个明显的问题是,你们建立了什么样的决策支持系统,绝对。
所以我的意思是,你知道的,我们在布里格姆有很长的历史,合作伙伴使用决策支持,历史上,我们开发了自己的电子健康记录,这在三年前有点不寻常,我们从自己开发的系统切换到史诗。
这是一种应用非常广泛的商业电子健康记录,到了你给的地步,我们真的从很多与药物相关的决策支持开始,这就是药物相互作用,警报,所以你开了两种可能相互作用的药物,我们用一张桌子,你知道没有机器学习或复杂的。
这表明我们认为这种药物可能与这种药物相互作用,我们向医生发出警报,给药剂师,他们作为博学的中间人,利用他们的专业知识做出决定,但我们要继续开处方,让我们有一些剂量,支助,过敏,检查,诸如此类的事情。
所以我们的第一组决策支持实际上是关于药物的,然后我们转向更广泛的事情,比如预防护理提醒,或者巴氏涂片,或者他们可能从他汀类药物中受益,或者类似的东西,或者在急性心肌梗死的情况下使用受体阻滞剂。
我们向医生提出建议,或者护理小组的其他成员再次做这些事情,这些在历史上很大程度上是基于规则的,所以一些专家坐下来写布尔,如果使用患者图表中的变量进行规则,我们越来越,虽然。
开始尝试使用一些预测模型来预测像再入院这样的事情,或者病人在医院里是否有摔倒的风险,病人经常遇到的一个大问题是在医院里,你知道他们有点神志不清,医院是个奇怪的地方,天很黑,他们起身去洗手间。
他们被他们的,你知道吗,iv油管,然后他们摔倒受伤了,所以我们想防止这种情况发生,因为发生在你身上显然是件坏事,一旦你进了医院,所以我们有一些基于机器学习的工具来预测病人,有跌倒风险的人,然后有一套。
你知道的,像把床栏杆竖起来这样的干预措施,或者放一个警报器,当他们,如果他们起床,或在更极端的情况下,有保姆,就像一个真正和他们坐在房间里的人,试图阻止他们起床或帮助他们去洗手间。
或者打电话给能帮他们去洗手间的人,所以我们越来越多地开始使用这些机器学习工具,其中一些我们从第三方获得,就像我们的电子健康记录挡泥板,其中一些是我们根据自己的数据训练自己的。
但这对我们来说是一个新的追求,这种机器学习,所以当你有一个风险模型,如何决定在哪里设置阈值,你知道如果我有百分之五十三,坠落的危险,是啊,是啊,你应该找个保姆坐在我的旁边吗,这很复杂,对呀。
我的意思是我想说我们所做的是一种完整的,你知道效用分析,对呀,我们说我们每小时付给保姆这么多钱,跌倒的风险是这么大,和跌倒的代价,你知道大多数跌倒的病人都没有受伤,但有些是,所以你会计算出,你知道吗。
这些东西的成本效益,你知道,在岩石曲线的哪里,你想在实践中把自己放在适当的位置上,我想我们经常见机行事。部分原因是我们的很多东西都是为了建议,对呀,所以我们对医生说的门槛,嘿嘿,这个病人跌倒的风险很高。
认为做某事很低级,如果系统是自动的,叫保姆,我们可能会把它设置得更高,我想说这是一个研究领域,我还想说我们面临的一个挑战是,我们经常设置并忘记这类系统,对,所以有,你知道吗,特征漂移和病人随时间变化。
我们可能应该做得更好,回头看看他们实际上工作得有多好,并对阈值进行调整,这是个很好的问题,但这些当然是非常复杂的决定,我记得五十年前和空军的一些人交谈过,是啊,是啊,他们应该在安全措施上投资多少,对呀。
他们有一个效用理论模型说,好的,更换飞行员要多少钱,如果你杀了他,是啊,是啊,这并没有被宣传很多,否,我是说我们会计算质量调整寿命,和残疾调整生命年,所以在所有的医学中都有,正确的是当人们部署资源时。
这种微积分,我认为我们倾向于对病人的伤害给予很高的重视,因为病人的伤害是,如果你想想那种誓言,医生先发誓说对了,不会造成伤害,我们能做的最糟糕的事就是在医院伤害你,所以我认为我们非常厌恶这样做,但很难。
1。要估计这些东西的重量是很困难的,我认为我们经常遇到的一个挑战是不同的医生会做出不同的决定,对呀,所以如果你把同一个病人放在十个医生面前说,这个病人需要保姆吗?也许一半的人会说是,一半的人会说不是。
因此,知道如何使用决策支持系统尤其困难,如果人类不能就你在特定情况下应该做什么达成一致,我们昨天在电话里谈到的另一件事是我担心,几年前,我去了一家八月波士顿地区的医院,要求看一个。
某人与这个计算机化的医生订单输入系统交互的例子,带我四处走动的高级住院医生,走到电脑前说,嗯,我想我记得怎么用这个,我说,等一下,这是你应该每天使用的东西,但实际上,发生的事情不是高级医生。
甚至不是媒体,高级医生,实际使用系统的是实习生和初级住院医生,这是真的,我担心的是,一个很有勇气的初级住院医生才能去,你知道的,你的服务主管说,X医生,尽管你让我为这个病人订购这种药。
电脑在反驳你应该用另一个代替,是啊,是啊,它确实,事实上,在我们聊了聊之后,我更多地想到了这一点,我们从居民那里听到人们对他们说,如果你敢在半夜给我一个史诗般的建议,我再也不和你说话了。
所以你知道只要覆盖所有这些警报,所以我想你知道挑战之一是,还有一些,你知道这是我们的一栋楼,我们给出的很多警报,你知道有一个光伏喜欢,你知道百分之十或百分之二十是对的,你知道他们通常是错的。
我们认为这真的很重要,所以我们真的提出了很多这些词,但是人们会经历这种警觉疲劳,或者人们所说的警报疲劳,你在驾驶舱里也能看到这个,但是人们收到太多的警报,他们开始忽略警报,他们认为自己错了。
他们告诉居民不要呼他们,嗯,我知道,不管电脑说什么,所以我确实认为我们有责任提高这些警报的准确性,我确实认为机器学习可以帮助我们,我们实际上正在开一个关于肺炎球菌疫苗接种的会议。
意识是帮助人们记住开这种疫苗的东西,帮你不得肺炎,它考虑了四五个变量,我们开始研究人们会忽略警报的情况,它们大多是合适的,对吧,所以病人是,你知道吗,在一个非常极端的状态下,或者反过来。
病人接近生命的尽头,他们不会从疫苗接种中受益,或者病人有针头恐惧症,病人有保险问题,我们认为可能有三四十个变量,你需要考虑的因素来使其非常准确,所以问题是当你有这么多变量时,人类能发展和维护这种逻辑吗。
或者我们最好尝试使用机器学习系统来做到这一点,那真的行得通吗,那么我们离能够使用机器学习系统来做到这一点还有多远,是啊,是啊,老实说,我认为最大的挑战与现有的,我们系统中数据的准确性,如此史诗。
这是我们正在使用的人力资源和Cerner和所有脚本,大多数主要系统都有各种运行方式,甚至是复杂的机器学习模型,系统内部的任何一个都是固定在系统上的,然后将模型推断反馈给系统。
当我举肺炎球菌疫苗接种的例子时,一个主要的问题是并不总是有一个真正好的,系统中的结构化方式,我们表明一个病人在生命的尽头,只接受安慰措施,或者病人处于非常极端的状态,我们在蓝色代码的中间。
我们需要暂停一下,停止给予,你知道这些友好的预防护理建议,所以我想说真正好的基于机器学习的最大障碍,决策支持只是缺乏好的,我觉得第二个挑战,显然工作流是对的,你说过,有点,你知道的。
在医院里有时很难知道病人的医生是对的,病人入院,护理团队中有一名实习生,初级住院医生和奥赛罗,并参加了几位专家,几个护士,谁应该得到这个信息,或者谁应该得到那一页,我认为工作流程是第二位的。
这就是我想你可能会说我有些乐观的地方,我实际上认为我们EHR软件的技术能力,运行这些模型比三五年前更好,事实上,这通常不是我们所做的研究中的障碍,二十年前又有人试图,制定关于谁得到通知的正式规则。
在什么情况下,我记得,和我一起在塔夫茨医疗中心工作的一个医生快疯了,因为当他们实施一个新的实验室信息系统时,是啊,是啊,它会对每一个不正常的实验室发出警报,对呀,这太疯狂了,但有其他医院说好。
让我们更复杂一点,当需要提醒的时候,然后如果有人对警报没有反应,在很短的时间内,然后我们把它升级到更高的人或护理团队的其他人,在我看来,这是一个合理的想法,但现在有这样的东西吗。
它在住院病人和门诊环境中的作用非常不同,对呀,住院设置,我们正在向病人提供非常紧急的护理,所以我们有一些流程,人们在护理团队中签到和退出,事实上,这些自动消息的流行程度,是一种做好这件事的动机,对呀。
所以如果我回家,我最好签字离开那个病人,否则我整晚都会看到这些关于他们的页面,你知道这个系统,始终确保某人是响应提供者,在门诊环境中变得有点棘手,对呀,因为你们很多人都知道,布里格姆的学术医生只有诊所。
你知道一周半天,所以问题是,如果有异常结果回来,我应该把它送到那个医生那里吗?我应该把它发给诊所里随叫随到的人吗,我应该把它寄给诊所的负责人吗,也有一些边缘情况会搞砸很多。
对一个典型的例子是一个病人在医院里,我已经安排了一些化验,他们看起来很好,所以我让病人出院,测试当时仍悬而未决,病人出院了,现在谁会喜欢它呢,它应该去病人的初级保健医生那里吗,他们有初级保健医生吗。
它应该给下令测试的人吗,那个人现在可能在度假,如果这是一个需要几周才能回来的测试,所以我们还在纠结,我们称这些为T垫,出院前的测试,我们仍然在努力解决一些边缘情况,但我认为在核心方面我们很擅长。
所以我们谈论的一件事是我的一次经历,你可能有过,而且那个,比如说,几年前,我和麻省总医院临床实验室的负责人一起工作,他们运行着一些古老的实验室信息系统,就像你说的,可以加减,但不成倍增长。
或者你可以加乘,但不减去你的侧,是呀,它不支持负数,只有无符号整数,呃,嗯哼,呃,周围有这些奇妙的遗留系统,如果你试图建造任何东西,我是说,甚至是风险预测计算器,是啊,是啊,能够划分真的很有帮助,当然。
会成倍增长,所以我们在那个项目中苦苦挣扎,我相信你也有过类似的经历,我们如何将决策支持系统融入到这些摇摇欲坠的旧技术中,那就是不支持它,是啊,是啊,那么什么是正确的方法呢,有很多架构,他们都有利弊。
我不确定他们中是否有一个是正确的方法,我想我们经常喜欢用那种,你知道的,吱吱作响的旧技术还是新技术,对呀,所以Epic有一个内置的规则引擎,你说的那个实验室系统有一个基本的计算引擎,有一些重大的限制。
所以我们可以,我们经常会尝试使用这些系统在内部构建规则,这些往往有实时的数据可用性,向工作流程中的人推送警报的最佳能力,并在我们做不到的情况下使这些警报可采取行动,就像,比如说。
一个太复杂而无法在系统中执行的模型,我们经常做的一件事,在我们的数据仓库中运行这个模型,所以我们有一个数据仓库,每晚午夜从电子健康记录中提取数据,所以如果我们不需要实时数据,有可能运行提取,数据。
运行一个模型,然后把风险评分或标志写回病人的记录中,然后可以展示给临床医生,或者用来驾驶警报之类的东西效果很好,除了发生的很多事情,尤其是在病人环境中,比如依靠实时数据预测败血症,我们马上需要的数据。
所以我们遇到了挑战,这种特殊的方法只有效,你知道的,在24小时内,一种追溯的基础,我们还开发了依赖于信息的系统,所以有这个HL 7,是与电子健康记录交换数据的标准格式,HL 7有各种版本和简介。
但你可以在人力资源之外建立一个基础设施,从人力资源部实时获取信息并做出推断,并将信息发回EHR,越来越多的HS也支持,某种Web服务方法对吧,这样你就可以注册一个钩子,说叫我的钩子。
每当这件事发生的时候,或者你可以把HR拉出来获取数据,并使用另一个Web服务将数据写回,这对我们来说非常有效,你也可以让人力资源部把你开发的应用程序。
所以这里的人们可能听说过或者应该听说过Smart on Fire,这是一种开放的API,它允许您开发一个应用程序,并将该应用程序嵌入电子健康记录,我们越来越多地建造其中的一些,这些应用程序。
智能应用程序目前的缺点,它们真的很适合从记录中读取数据,并将其可视化或显示出来,但他们并不总是有很多能力来写入数据,返回记录或采取行动,大多数人力资源供应商也有专有的方法,就像应用商店,所以伦理要求。
那里是应用程序果园,大多数HS都有类似的东西,在那里你可以加入一个开发人员程序,并构建一个应用程序,这些通常功能更全面,它们往往是专有的,所以如果你构建一个史诗应用程序。
然后你必须构建一个cerner应用程序和一个所有脚本应用程序,你需要临床工作应用程序,参加这些项目的高额费用,尽管人力资源供应商Epic特别降低了他们的价格,和联邦政府,国家卫生协调员办公室。
就在一周半前,它发布了一些新的规定,这确实限制了供应商向应用程序开发人员收取API访问费用的速度,基本上什么都没有,除增量计算成本或特殊支持外,所以我想这可能会改变一切,既然那条例颁布了。
所以我们会看到与我悲观的开始如此相反,这实际上是让我最乐观的事情,即使在五年前,如果你看看这些系统中的许多,他们基本上把你锁在外面,绝对,我记得在2000年初,我在匹兹堡大学,他们在那里。
他们有最早的心肺移植中心之一,所以人们开发了一个特殊的应用程序来支持心肺移植患者,在他们自制的电子病历系统中,然后UPMC当时去了塞纳,我记得我在一个会议上,在那里。
负责心肺移植的医生正在和Cerner的人交谈,说你知道我们怎样才能得到一些东西来支持我们对病人的特殊需求,塞纳的回答很好,你知道商业上,我们这样做没有意义,因为当时全国有四家医院这样做。
所以它不是一个大的赚钱者,所以他们的提议很好,你多付我们三百万,在三年内,我们将为您开发合适的软件,所以这太疯狂了,对呀,我的意思是这样做是完全站不住脚的,现在有了系统的方法。
要么将自己的代码嵌入到这些系统中,或者至少有一个有据可查的,合理的数据输出方式,然后将结果反馈到系统中,使,或实验应用,或者各种新奇的东西,那太好了,这就是我们乐观的地方,我是说我认为值得补充。
你必须克服两个障碍,对呀,一个是史诗般的,不得不让你进入他们的应用程序果园,这是一种越来越低的障碍,然后你需要找医院或医疗保健提供者,想使用你的应用程序,对呀,你知道的,所以你必须清除这两个。
但我认为这越来越有可能,麻省理工学院或波士顿的医院都有聪明的人,我总是想构建这些应用程序,我想说五年前我们会告诉人们对不起,这是不可能的,今天,我们通常可以告诉人们,如果有临床兴趣,技术部分就到位了。
所以这对我们来说很令人兴奋,是啊,是啊,是啊,是啊,关于那个的问题,所以你们知道的一些应用程序,也把那些放在史诗般的果园里,或者你就一次,是啊,是啊,我们有很多不同的方式来共享这些应用程序。
所以我们很多人都是研究人员,所以我们会,你知道发布了一个开源版本的应用程序,或者你知道写一篇论文,说这是可用的,我们会和你分享的,App果园特别关注你想销售的应用程序。
所以我们医院还没有决定要出售任何应用程序,我们已经发出了很多申请,Epic也有一个叫做社区图书馆的东西,就像果园一样,但它是免费的,而不是花钱,所以我们通过社区图书馆发布了大量的东西。
到了我之前戳的地步,其中一个挑战是,如果我们构建一个智能着火应用程序,我们可以公开分享,我们可以把它发布在网上或放在GitHub上,任何人都可以用它,他们的API是专有的。
它们代表着Epic有价值的知识产权或商业秘密,所以我们只能通过,史诗般的生态系统,所以我们现在经常当我们得到资助时,我的大部分工作都是通过助学金,我们将有一个史诗般的网站,我们将通过社区图书馆分享。
我们会有一个Cerner网站,我们将通过Cerners等价物分享它,但我觉得,直到开放API的能力,就像Smart on Fire达到了与专有API相同的水平,我们仍然在某种程度上不得不建立不同版本的。
在不同的渠道分配三个小时,这是一个非常非常好的问题,所以像聪明着火这样的东西缺少什么,从本机接口获得的,所以我是说这是很有情境性的,对就这样就这样,比如说,在你知道的,在一些人力资源实现中。
火上的智能会给你病人目前的药物清单,但可能不会给你历史药物,或者它会告诉你药是订的,但它不会告诉你是否服用过,所以战斗的一半是不太完整的数据,另一个是我们大多数小时在这一点上没有实现,右后卫的能力。
或者Smart on Fire正在开发的可操作功能,这对我们来说真的是一些标准,所以如果我们想构建一个应用程序来显示病人是如何适应的,生长曲线,那很好,如果我们想构建一个建议订购药物的应用程序。
这可能真的很有挑战性,而供应商提供的内部API通常具有读和写功能,这是另一个挑战,供应商担心吗,我想有两件相关的事情,一种是认知超载,因为如果你在Fire上构建了一千个智能应用程序。
他们都开始为这些住院病人开火,你会回到同样的过度警报的情况,另一个问题是他们是否担心责任,因为如果你用他们的系统显示推荐,这些建议被证明是错误的,伤害了一些病人,然后有人会合法地联系他们。
因为他们有很多钱,他们当然担心这两个相关的,尤其是对第二个,他们也担心,你知道数据的损坏或完整性,好吧如果我可以直接把药物订单写到数据库里,它可能会绕过正常情况下进行的某些检查。
我可能会输入错误或危险的订单,我们越来越多地听到的另一件事是对,数据保护的种类,剑桥分析风格,担心对吧,所以如果我作为一个史诗般的病人,授权你知道你知道的话与朋友应用程序查看我的医疗记录。
然后他们把它发布在网上,或者以某种棘手的方式将其货币化,什么责任,如果有,我的医疗保健提供者组织或我的人力资源供应商对此有什么,新规定非常严格,对呀,他们说,如果病人要求你这样做。
并授权一个应用程序访问他们的记录,您不能阻止该访问,即使你认为我必须是一个糟糕的演员,所以我想,一个刚刚开始清理的责任领域,我认为这是一个令人担忧的原因,但同时你可以想象一个宇宙。
我认为有保守的医疗保健组织,他们会选择永远不授权任何申请,为了避免风险,所以你如何平衡这个问题还没有很好地解决,并避免泄漏,所以我记得几年前有很多不情愿,甚至在波士顿地区的医院之间共享数据。
因为他们担心另一家医院会,通过了解他们的一些情况来挑选他们最有利可图的病人,所以我相信这并没有成为一个问题,是啊,是啊,好的,我们会试着记住重复你问的问题,因为录音,很高兴,是啊,是啊。
那么第三方供应商如何,像机器学习模型一样在你的系统上部署,通过史诗来完成,就像很明显没有工作或你的那种事情,但有没有办法绕过这个直接去找合伙人,什么的,怎么样?是啊,是啊,所以问题是。
第三方供应商如何部署应用程序或机器学习模型,或者类似的东西,史诗也是如此,应用程序的供应商之间总是有关系的,和保健提供者组织,所以我们可以直接一起工作,所以如果你有一个土匪想用的应用程序,呃。
你可以通过多种方式与我们分享这个应用程序,所以Epic支持这种叫做预测建模的东西,标记语言或PML,所以如果你训练一个模特,您可以导出PML模型,我可以把它导入到Epic中,并在本地运行它。
或者您可以生成一个Web服务,我调用它,给了我一个答案,我们可以直接合作,然而,我可以告诉你的东西有一些限制,或者与您分享Epic的数据模型,史诗认为在那里,他们的知识产权,所以你加入这个项目很容易。
因为如果你加入这个项目,您可以访问否则无法访问的文档,您可以访问测试线束,或者一个测试系统,让你验证你的工作,然而,参加该计划的人,我经常认为这意味着我可以在每个客户身上运行我的应用程序,对呀。
但尤其是史诗,你得和我做个交易,在布里格姆使用它并与,你知道我在斯坦福的同事用它,其他ehr供应商开发了一种更集中的模式,在那里你可以发布它并出售它,我可以直接通过应用商店支付并集成它。
我认为最后一英里还没有真正标准化,是啊,是啊,我想我的一个问题是这个案子会发生什么,我根本不想和史诗说话,是的就像我看了你的数据就像操纵女人的东西一样,是的,我建立了一个非常好的模型。
你看它是怎么工作的,是啊,是啊,我们只想把它部署好,史诗不会阻止我们这样做,唯一真正的限制是史诗会限制我告诉你的能力,关于史诗的内脏的东西,所以你需要一个相对复杂的医疗保健提供者组织。
他可以在某种柏拉图式的数据之间映射,临床数据模型与史诗内部数据模型,但如果你有,你可以,我是说布里格姆,我们有一个iHub创新计划,我们可能会和50到100家这样的初创公司合作。
其中一些是Epic应用程序的成员,或者他们中的一些人选择不成为史诗光圈的成员,值得说的是,加入这些项目的应用程序或宪章需要与Epic分享收入,和一些复杂性可能会随着这些新规定而下降。
但现在一些组织选择不与供应商合作,直接与医疗保健提供者组织合作,所以在这个问题的质量方面,如果您确实开发了一个应用程序并在,布里格姆斯坦福大学会有兴趣接受它吗,还是他们会担心,不知何故。
你把它适合波士顿的病人群体,这将不适合他们的数据,是啊,是啊,我认为这是一个基本问题,正确的是这些模型在多大程度上推广了,对呀,你能在一个地方训练一个模型,然后把它转移到另一个地方吗。
我们通常认为他们中的许多人转移得很好,所以如果它们真的与人类的核心生理有更多的关系,这在组织之间可能非常相似,如果它们真的绑定在特定的工作流中,对他们,你知道的,他们假设你在做这项任务,这个任务。
按这个顺序完成这项任务,他们往往转移得非常非常差,所以我想说我们一般的做法是采用一个模型,有人在我们的数据仓库上追溯运行了它,看看是否准确,如果是,我们可能会继续下去,如果不是。
我们会试着根据我们的数据重新训练它,然后看看我们通过重新训练它得到了多大的改进,所以你实际上进口了这样的模型,我们有,是啊,是啊,是啊,是啊,Epic提供了五六个模型。
我们刚开始在布里格姆使用其中的一些,或者只是签署了开始使用它们的许可证,我认为史诗般的指导和我们的经历,他们,他们可以很好地开箱工作,你能更多地说说这些风险评分正在部署,你知道吗,也许他们知道。
你怎么能真正判断它们是否有效,甚至只是随着时间的推移耐心的答案,人们对分数的反应,我知道公平工作中的很多偏见就像人,如果一个分数与他们的直觉一致,如果没有,他们就忽略分数,是啊,是啊。
那么这个过程对你来说是什么样子的,部署乐谱,是的事情,然后看看它是否漂亮,是啊,是啊,绝对如此,所以问题是,我们得到一个风险评分,我们部署一个新的风险评分,它说病人跌倒或病人的风险,患败血症的风险。
或者类似的东西,嗯,你知道吗,我们倾向于做几个层次的评估,对呀,所以第一关是当我们显示分数的时候,人们做什么是对的,如果我们通常不只显示分数,我们提出一个建议,我们说,根据分数。
我们认为你应该点一份乳酸盐来看看,如果病人有败血症的风险,首先我们看看人们是否按我们说的做,所以我们认为这是个好兆头,如果人们听从建议,但最终你知道,我们认为自己是临床试验专家,对呀。
所以我们部署这个模型的意图是移动一些东西,降低败血症的发生率,或降低败血症死亡率,所以我们会试着衡量一下,如果没有别的,做一个前后研究,对呀,测量之前的费率,实施这一干预措施,并测量之后的比率。
在我们不太确定或我们真正关心结果的情况下,我们甚至会做一个随机试验,所以我们会给一半的单位会得到警报,一半的单位不会收到警报,一旦你比较了对临床结果的影响,看看我们的观点有什么不同。
除非我们能显示出对这些临床措施的影响,我们不应该打扰别人对吧,你知道竞争表明了这一点,你知道拥有的目的是什么,你知道的,如果我们有一千个警报,每个人都会不知所措,所以我们应该只开警报。
如果我们能证明他们在临床上有真正的不同,这些只是内部检查吗,还是有这些部署的文件,它是我们的,我们的意图是出版一切正确的东西,我想我们落后了,但我得说,你知道我们出版一切,我们完成了一些事情。
我们还没有出版,他们是下一个出来的东西,我猜,所以我们在讨论如何,所以模型只是用来给出建议,是啊,是啊,医生,你有什么衡量标准吗,模型推荐与医生决定匹配的频率,是啊,是啊,绝对,哦,是啊,是啊,谢谢。
所以问题是,我们有没有检查过模型推荐匹配的频率,医生做什么,所以我们有两种方法,这通常会回顾性地测试模型,所以我想,皮特分享了塞纳的一篇论文,在那里他们看到了这些建议,他们提出了订购乳酸盐。
或者做其他类型的败血症检查,他们看看他们提出的建议是否符合,医生们实际上做了什么,他们表明,在许多情况下,他们是这样做的,我们要做的第一件事就是在打开模型之前,我们将以静音模式运行它。
看看医生是否按照我们的建议去做,现在,医生不是一个完美的监督,对呀,因为医生可能会忽视做一些有益的事情,然后我们把它打开的时候,我们实际上是在看医生是否采取了我们建议的行动,如果我们在这种随机模式下做。
然后我们会看看医生是否采取了我们建议的行动,更多的是在我们显示警报的情况下,而不是在我们生成警报的情况下,但只是记录它,不要显示它,所以你提到了,有点像,有点和你有关,喜欢疲劳,就像如果你变得忧郁。
就像这些线条,对你说驾驶舱有,就像,是啊,是啊,我还有一些,我对航空非常有限的了解,如果你在飞行,就像说在一万英尺以下,然后几乎所有的警报器都被关闭了,是的,我不知道有没有气闸,是啊,是啊,是啊,是啊。
仅仅因为技术工作流程不好,果不其然,只有十岁,或者这就像皮特的问题,关于两者之间的激励,你知道的,如果你构建了一个工具,它没有标记这个东西,它就死了,然后他们可能会被起诉,所以他们只是,是啊,是啊,否。
我们尝试正确,所以我们往往不能以结构化的方式了解情况,在EHR右边,所以我们的大部分警报都被抑制在手术室里,所以在病人麻醉的时候,它们的生理机能是由医生手动控制的,所以我们经常在这些情况下抑制警报。
我想我没说那个问题,但问题是,我们试图考虑到情况,或者我们能给多少,我们以前不知道蓝色代码正在发生,因为我们过去大部分的蓝色代码文档都是在纸上完成的,我们现在使用这个代码叙述者,对呀。
这样我们就可以知道蓝色代码何时开始,当蓝色代码结束时,蓝色代码就像通过复苏病人的心脏骤停,所以我们实际上越来越多地关闭警报,在蓝色代码中,我收到一封电子邮件或一页,每当医生覆盖警报并写出暴躁的信息时。
他们经常会说,你知道的,这个病人快要死了,你现在知道心肌梗塞,你还在为接种流感疫苗的事烦扰我,然后我要做的是,我要回去,你知道吗,说真的,我昨天还以为,所以我要做的是,我回去看看记录然后说。
我有什么迹象表明这个病人处于极端状态,在那个特殊的案例中,是一个病人来到急诊室,很少有文件开始,所以几乎没有迹象表明病人处于急性状态,我想你知道,有一天我们可以通过整合监测数据和设备数据来分类。
为了弄清楚这一点,但在这一点上,我们在图表中没有一个好的结构化数据元素,据说这个病人病得很重,现在建议接种流感疫苗是令人不快的,所以有些医院已经开始尝试,比如从救护车上获取数据,当病人进来的时候。
这样ED就已经有了初步的数据,在这种情况下,你可以看出,这就是互操作性挑战,对呀,所以我们实际上得到了运行表,所有给我们的救护车数据,它是PDF格式的,从救护车应急管理系统传输到我们的EHR。
所以它不会以某种方式进来,我们可以很好地阅读它,但正是你的观点,如果我们在互操作性方面做得更好,我也和医院谈过了,你知道他们用像这样的东西,你知道吗,摄像机和人们的徽章,有五十个人在一个病人周围徘徊。
那是坏事发生的征兆,所以我们也许可以用这样的东西,是啊,是啊,我们希望在这方面做得更好,那么为什么HL 7版本3没有解决所有这些问题,这是一个很好的哲学问题,来到bmi七零一和七零二,我们将讨论标准。
HL七问题版本二是一个非常实用的标准,版本三是一个非常深刻的哲学标准,从未完全流行起来的抱负,它变成了碎片,我的意思是智能火是一个简化,所以我认为通常机器学习模型是这样的,顺便说一句,统计模型,是呀。
所以当涉及到一个特定的病人时,你应该知道可靠的模型,是啊,是啊,我是说有校准,对呀,所以我们可以说这个模型在这些病人身上特别有效,或者在这些病人中没有那么好,有一些,你知道。
我们使用的非常简单的方程或模型,比如说,我们在非裔美国人身上使用了不同的模型,相对于你知道的,非非裔美国人患者,因为有数据表明,这个模型在这个亚组的患者中比在另一个亚组的患者中校准得更好,我确实认为。
尽管对你的观点有建议,你知道一个模型的推论,这个病人有跌倒的危险,然后有一整套,你知道的,价值种类,对病人的判断、信念、知识和理解,非常人性化的环境,我想这就是为什么我们把这些建议交给医生,或者对护士。
然后人类利用这些信息,加上他们的专业知识、他们的关系和他们的经验来提出建议,而不是你知道,只要让电脑自己调整呼吸机上的旋钮,人们总是问我的一个问题,如果你问我,是威尔,我们最终不需要那个人。
我想我比一些人更乐观,在某些情况下,计算机足够好,还是人类穷到,有一个接近闭环的循环是安全的,然而,我认为这些情况不是常态,我认为会有更多的情况下,人类医生仍然非常,非常需要,所以我只是补充说。
有些任务病人是可以替代的,用我几节课前用过的话来说,例如,很多医院,病人是否会出现在他们的可选手术中,因为这样他们就可以更好地安排手术室的时间,就像航空公司过度出售座位一样。
因为从统计学上来说你可能会赢这些都是非常安全的预测,因为最糟糕的事情是你被耽搁了,但这不会对单个病人产生有害的结果,反过来,有些人正在研究给胰岛素剂量的机器学习系统,或者调整人们的呼吸机设置。
那些是一个很高的,高风险,高风险工作,所有的权利,最后一个问题,因为我们要结束,嗯,你暗示了第二个,两个,一旦你知道,实际上一个显著的变化,你做出的一些关于权衡的决定,是啊,是啊,绝对如此。
所以问题是什么样的设置和忘记权利,我们建立模型,模型可能会变得陈腐,1。我们该不该更新一下模型?我们如何决定这样做,我是说我们在用,你知道,这取决于您将什么定义为模型,我们使用表格和规则。
我们自二十世纪七十年代以来发展起来的,我想呃,我们有很高的愿望来经验性地重温这些,实践领域的这个问题,它被称为知识管理或知识工程,对呀,我们如何记住,我们的哪些知识库需要再次检查或更新,经常你知道。
就像一个标准,每六个月或每年重新训练一个模型或重新评估一个知识库,因为它对病人都有害,如果这东西过时了,也让我们看起来很蠢,对所以如果你知道,有一篇新的论文说受体阻滞剂是可怕的毒药。
然后我们一直建议他们,那么人们就不再相信这些建议了,我们做一个,也就是说,我们仍然会犯错误,对呀,我是说事情总是在发生,我的很多工作都集中在这些系统的故障上,所以作为一个例子,你知道的,如果根据经验。
药房可能会改变药物的代码或身份证号码,或者一种新药可能会上市,我们必须确保不断更新知识库,所以我们不是在建议一种老药,或者忽略病人已经被开了一种新药,所以我们试图前瞻性地或实际地这样做。
然后我们也会试着听取用户的反馈并在我们前进的过程中解决问题,对此还有一个评论,所以有些事情是实时完成的,很多年前在盐湖城的山间健康中心有一个系统,他们在实验室里观察微生物样本中长出了什么虫子。
当然这可能会在一小时一小时或每天的基础上发生变化,所以他们更新了这些系统,实时警告你这种感染的可能性,直接从实验室获取饲料,所有的权利,非常感谢。