P1:Lecture 01 - Course Intro, AI, ML - 爱可可-爱生活 - BV1wV411q7RE
好的,好,所以欢迎大家,很高兴你们这么多人在这里,我对新学期感到非常非常兴奋,所以让我潜入其中。
所以你来这里是为了生命科学的深度学习,所以这是麻省理工学院,呃,课程编号六八七四,也被称为本科生的6802,本科生2390本科生2490,然后HSD五零六,顺便说一句,是声音,好的,你们能听到我说话吗。
是呀,是的,听起来不错,太厉害了,所以我们将在基因调控的基础上进行大量的研究,以及它们如何适用于疾病,它们如何用于治疗设计,它们如何适用于病历和医学影像,计算生物学中一些最重要的问题。
所以让我们深入探讨课程后勤,所以课程最初是由大卫开发的,吉福德、大卫和我在20年春天教过这个,但是大卫今年春天休假,所以我在没有他的情况下教书,呃,尽管许多讲座实际上是建立在,呃。
大卫和我都教了很多年的课程,在机器学习和生物学的界面上,以及许多其他理论和应用课程,所以当我们走的时候,我会指出其中的许多,目标是在生命科学的任务中引入应用机器学习,所以我们将在星期二和星期四见面。
从一个p开始,I’直到下午两点半,我们的电台将在星期五下午三点,我和我们的辅导课将在星期五下午四点举行,m,大部分时间,我会给你更多的细节,这些是可选的,但他们真的很有帮助,呃。
指导大家创造出令人敬畏的最终项目,我们会在网站上公布办公时间,根据第一天或调查,这是我们的教职员工,呃,迪伦,阿章,苔丝和杰基,我想知道,如果你们能打开你们的视频,每个人都说一个快速的嗨。
也许按照你被展示的顺序,所以我只想简单地介绍一下我自己,并说我的研究是关于,的面积,嗯,我想机器学习和基因组学被广义地解释为,从对基因组的基本理解到基因组电路和表观基因组学。
应用这些知识来理解人类疾病背后的机制,呃,迪伦,快速介绍,嗯你好,每个人,我叫迪伦,我是麻省理工学院计算机科学专业的三年级博士生,好像我对很多不同的事情都感兴趣,但总的来说,我对应用计算统计学来解决。
生物学中的重要问题,通过这堂课,我真的很期待见到你们,然后嗯,我对如何将机器学习应用于生物学的许多不同方面都感兴趣,很高兴能帮你们找到不同的方法,看看你的想法是什么,呃j嗨,我是JG。
我是计算机科学专业的二年级博士生,是的,是的,我非常研究将深度学习应用于生物学,主要是尝试使用这些新的最先进的深度学习技术,从这些庞大的生物数据集中解开事情,否则你可以解开,这就是你知道的。
基本上我所做的,这门课的重点是什么,所以很期待看到,同时涵盖所有这些主题并会见你们所有人,太厉害了,呃测试嗨,我是苔丝,我是六年级的本科生,计算机科学,我以前和卡拉斯教授上过两节课。
去年秋天我也和他一起流泪,所以我真的很期待今年春天再和他一起打球,看看有什么很棒的项目,你们都想出了很高兴见到你们,全部,我觉得你很沉默,不过没关系,我想是我,我是唯一剩下的,大家好,我是杰基,你。
她的代词,我是生物工程专业的三年级研究生,我从事机器学习,应用于合成生物学和药物发现,所以真的很感兴趣,基本上任何深度学习,适用于任何与生物学有关的东西,嗯,这就是为什么这门课很适合。
我真的很兴奋能和你一起学习,也想看看你很棒的项目想法,我想就这样了,太厉害了,所以嗯,然后我们有多个课件页面,你可以看到去年的课程,所有讲座录音的链接。
所以对于那些有兴趣展望未来课程将涵盖的内容的人来说,你可以看看这个,然后可以通过这个URL到达画布网站,更容易记住,你可以用任何课程编号来代替这个,它仍然有效。
你可以通过这个电子邮件地址给我们发电子邮件,或者单独通过这里好的,所以就背景而言,对于班上的学生来说,我们基本上有几个基础,我们正在建设,其中之一是微积分和线性代数,所以只是基础,你知道的。
张量、矩阵、向量和特征值的数学与计算,等等,第二个基础是概率和统计,所以这在机器学习和深度学习中很普遍,我们将在此基础上再接再厉,然后下一个是,编程,所以我们会有习题集,都是关于编程的,我们会成为。
建造实验室,让你真正深入探索,课程中的所有主题,所以有一个坚实的基础是很重要的,然后我们还会有一个生物学入门,我们将建立的基础,就伟大的贡献而言,我们会有五个习题集,你就能放弃最糟糕的一个。
它们加起来将占你成绩的30%,我们将寻找您自己的个人贡献,呃,然后你可以通过谷歌云和Jupyter笔记本来完成它们,我们将有一个小测验,也就是一个半小时,你会有一张纸条,算两个,你成绩的百分之五。
我们将有一个最终的项目,这将由两到三名学生组成的团队进行,数到三,你成绩的百分之五,然后最后,呃,抄写和参与将占你成绩的10%,然后包括指导会议,头脑风暴,客座讲座,然后潜入初级文献。
我们会更多地讨论这个问题,嗯,所以再一次,您可以使用Piazza或员工电子邮件询问任何问题,您将很快收到您的谷歌云优惠券,在您的电子邮件中能够使用。
你知道吗,更先进的计算,所以最大的问题是为什么这门课。
你们为什么都在这里,为什么我们在生命科学中需要深度学习,所以首先,大约8%的深度学习出版物是关于生物信息学的,这是一个巨大的数额,所以呃,你知道你听说过国际象棋等等,但深度学习的最新最大新闻实际上是。
阿尔法折叠和呃,你可能听到了,它是如何解决蛋白质折叠的,这基本上意味着它对特定的比赛和实验方法一样准确,你知道这是一件大事,所以这就是我们在这里的原因,因为深度学习可以从根本上改变,呃。
你知道我们周围的生活,尤其是生物学,以及我们对生物学的理解,特别是生命科学,我们看到三个不同领域的汇合,一方面,我们有廉价、高质量的大数据集,其中包括测序,这些包括成像,医疗记录,文本数据库。
只是大量的数据,第二个是机器学习方法有了真正的基础进步,组合新数据集的多种方式,新算法,多种方法结合在一起,然后第三个呃,收敛是计算,如此高性能,图示,呃,允许机器学习实现非常快的计算单元。
你可以通过课程接触到这些,所以基本上完全改变了,嗯,你知道科学领域,因此,你知道,部分促成了这一点,我们基本上有很多计算生物学课程,许多不同的大学,正在培养像你们这样的一代又一代的学生。
出去处理这些数据集,这是这些课程的集合,所以我教了一门完整的课程,我看到很多很多人已经上过了,这也太厉害了吧,所以重叠相对很少,所以在这里,我们将真正深入到深度学习中,覆盖了很多秋天没有覆盖的区域。
所以这两门课都值得上这门入门课程主要包括基因组学,还有我们在这里不太关注的进化话题和网络,当然啦,基于IAP的深度学习课程导论,那是真正杰出的,我真的希望你们中的许多人已经或将要接受,一有机会。
大卫教授的医疗保健机器学习,桑塔格和皮特·希,生物学中有统计物理学,所以这是我们部门的三个,然后如果你跨部门看,我们基本上也是算法和计算技术的基础,在系统生物学中,然后是第七道菜中的几道菜。
定量和计算生物学,系统生物学,进化生物学,面向数学研究生的定量生物学,18块买17块,计算分子分子生物学导论,还有一八四一八,这是一个伟大的,呃,第八课生物学中的统计物理研讨会课程。
所以我真的鼓励你探索这些领域,课程有时会重叠,但在内容和精神上非常非常不同,所以我真的鼓励你多拿一个,所以我总是问我的学生为什么计算生物学,今年在聊天中做这件事很有趣,所以基本上我要做的是,呃,问你。
呃,为什么计算生物学,所以我要经历,嗯,就一轮,让我们让每个人把他们的答案打出来,或者你可以举起你的手,或者你可以大声说出来,所以我们要在这里尝试一些互动参与,这是呃,在Covid的时候很困难,但是呃。
你知道,人类需要它,所以重量类型,好的维多利亚,去吧,这么多数据,回答得好,朱娜·凯蒂同意,这么多数据,事实上,这是第一个答案,大量的数据,事实上,大量的数据,所以组合学,大量的数据,我是呃,你知道。
这里有一整块板子,潜在的答案,所以你们可以,真的很难回答问题,无需计算,规模巨大,宏观和微观,哇太棒了,对复杂生物问题的大量计算能力,辉煌的安踏、普雷斯顿和维多利亚,埃里克王实验可能需要很长时间。
太奇妙了,所以计算实际上可以帮助加快发现,Ucache就像说的那样,科学发现,没药根据现有数据推断生物行为,艾伦·科斯塔,生物学中有许多抽象的层次,很难手工掌握,我喜欢那样。
许多抽象层实际上为整个深度学习提供了信息,以及计算中的许多抽象层,维多利亚适合数学建模,找出复杂的过程,才华横溢,安德鲁情结,与生物数据和期望预测的高度非线性关系,非线性将成为深度学习的一个基础方面。
这些都是精彩的答案,可以用一个数据集提取大量知识,我喜欢那样,所以不仅仅是,假设,海量海量数据,回答是或否,而是收集大量数据,然后根据这些数据进行计算,得到比,你想要的,从生物数据中理解模式是苛刻的。
如果没有计算,持久是不可能的,这很有趣,因为很多人说计算生物学家,为什么一个计算机科学家要学习生物学,我的回答是还有别的办法吗,这有点有趣,因为生物学实际上已经改变了,呃,我们上周刚发了一篇自然论文。
描述了人类基因组计划20周年,这实际上是20年前人类基因组计划出版的今天,随着现在的到来,世界在某种程度上发生了变化,一切都是关于数据的,而不是,呃,一种假设,呃,在某个时候,马丁嗯,降维使数据可视化。
我太喜欢了,基本上,人类的大脑实际上有很大的能力通过视觉线索捕捉模式,我总是喜欢说的是规则号,基因组学的一个是看看该死的数据,所以如果你有办法可视化数据,通过这些数据集提取有意义的模式的方法。
你实际上可以走很长的路,事实上,我有第二个电脑屏幕,让我向学生们展示并排的景色,画廊辉煌,所以你实际上可以看到你的许多脸,这是美妙的,高维数据,所以批评,高维数据,它通常有基本的底层模式,我喜欢那样。
事实上,这是我的第二个,呃,是有规矩的,有模式,生物学不仅仅是一个疯狂的烂摊子,有基本的原则,驱动这一点的潜在模式,这是我们可以帮助理解的最基本的方面之一,贝拉说,假设生成,我喜欢那样,也是。
它基本上说,我们不会只是简单地测试假设,我们有时会产生假设,事实上,这使得我们现在可以从计算中驱动实验,而不是计算,只为一个假设服务塞纳,对基础生物学研究的需求增加,哦,你知道的。
从你的嘴里到创始机构的耳朵里感谢你,经常,呃,我们忽视了基础研究,而为应用研究服务,我认为这里真正的基础是,我们使用的计算方法,不仅能告诉我们这些数据集如何应用于疾病。
也是它们如何形成基本的新的基础理解,CN帮助改善临床保健,正好相反,这也是真的,他基本上说,我们不仅理解基本原理,还通过能够在数千人中收集相同的数据,有时数以百万计的人,我们实际上可以改进,呃。
临床保健马丁处理大量零,让我们看看,我是想看你们好一点,嗯,处理单个单元格数据中的大量零,这是一个非常好的,所以当我们潜入单细胞章节时,我们将讨论丢失的数据集,以及我们如何模拟失踪的模式。
他们告诉我们的数据,就像计算似乎以可接受的保真度为生物任务工作一样,哦,我喜欢它有,呃,两边,其中之一是它似乎起作用了,这很好,这也是深度学习的一个惊喜,深度学习不能对每一个可能的功能进行建模。
但它可以建模的功能实际上非常适合,对于现实生活中正在发生的功能,所以你知道,我们碰巧居住的世界似乎很适合深度学习,事实上,我们面临的生物任务也是如此,然后是可接受的保真度,表明预测不会是完美的。
但有时生物学本身并不完美,这没关系,我们必须同意这不会是一个数学证明,而是一个近似值,这有时甚至比描述生物现象的完美答案更有趣,使用数学公式,我喜欢这样所以不仅仅是寻找模式,还可以建模,阿江。
许多单独的数据集不是实验性的,揭示潜在联系所需的可复制计算,这是如此真实,很多人我喜欢开玩笑,它需要一个计算的人,知道你不能相信计算,需要一个实验的人才知道你不能相信实验。
但实际上当你把它们放在一起的时候,你们可以互相喂食,一个人实际上可以帮助,呃,加强另一个丹尼尔的推论,使处理规范化数据变得更加容易,以便能够以有效的方式进行分析,非常的酷,所以不仅仅是建模本身。
而且规范化的处理需要全局视图,传统方法不可能做到的事情,所以事实上你可以接触到整个基因组,给你一个完全不同的整个基因组数据的视图,它可以让你以一种非常不同的方式关注每个部分。
基于复杂表达数据的疾病复发预测,所以你知道一个非常应用的,呃,有点,你知道吗,预测结果的数据驱动方法,可以帮助药物发现,艾琳,这是一个美丽的答案,呃再次,我们要看一个图表,神经网络。
以及它们如何被用来设计和学习化学结构的模式,与特定,呃,折叠和特定目标,实验研究中的大风,我们通常专注于一条途径,使用计算生物学可以让我们更全面地了解疾病,那是我,呃总是有点像,咆哮,也就是,如果你去。
呃,制药公司,你基本上会和神经科谈谈,然后是心血管科,然后这个,呃,你知道,肾脏代谢紊乱等,如此当,事实上,对于每一种疾病,所有这些部门都应该互相交谈,因为几乎没有只影响一个器官的复杂特征。
所以说这是疯狂的,你们要研究心脏,我们将研究肝脏,我们会有不同的建筑,呃,而是,计算生物学让我们做的是真正整合所有这些不同的方面,嗯很好,卡什,模拟,长期的时间过程,如疾病传播,疾病进展,等。
我喜欢那样,所以说,这不是一次性的,但是因为我们使用的是计算,不仅仅是解的数学接近,我们实际上可以模拟这些过程随时间的发展,通过发展,通过疾病进展,通过肿瘤治疗,互动等等,塞纳减少了发现和开发时间,好。
所以通过先计算,然后在一组非常狭窄的假设上做实验,你实际上缩短了发现时间,常春藤甚至可以帮助理解没有事先生物学知识的复杂现象,嗯是的,是的嗯,所以在许多方面我们可以使用贝叶斯方法的概念。
并将浪涌范围缩小到我们认为合理的搜索空间,和我们以前看到的一致,但同时我们可以以某种方式说好,这显然超出了我们先前的预期,你知道,扩展得更远,所以塞纳也答应了,在制药行业完全同意,呃。
可能是指常春藤实际上是指以前被视为常见的常春藤,嗯,汽车会加速很长时间吗,和资源密集型过程,如药物开发,完全同意,呃,深度学习现在是找到正确目标的基本部分,越来越多地为这些目标设计药物。
合成测试数据的创建看到了一个伟大的答案,所以我们基本上没有生成对抗网络,我们可以开始生成一个人的假图像,或者我们可以开始为自动驾驶汽车生成大量新的训练数据。
或者我们可以为我们的机器学习算法生成大量新的训练数据,在计算生物学中,我们可以创建图像,我们可以创建序列数据,等等清晰的设计,更多信息丰富的实验,很好地建立在我们以前见过的东西上。
有时台架实验比计算预测需要更长的时间,完全同意类似的话题,Utkarsh数据驱动网络解决种族平等问题,同时理解跨人口统计的生物学,天哪,多么重要的话题啊,所以到目前为止,许多遗传学都集中在。
我们星球遗传变异的一小部分,就像说你知道,地球上有百分之百的多样性,我们只专注于10%,这是疯狂的,可笑的,极其偏见的,缺少了很多你知道数据在哪里,但也使预测更加有偏见,对世界人口的一小部分更准确。
而不是真正的公平,呃,遗传数据集,一个很好的观点,不要离开我的睡衣,嗯哼,所有的权利,我想这就是有用的评论的结尾,所以嗯所以这是,嗯,你知道吗,有规律的模式查找,这一切都是关于可视化模拟的数据能力。
时间关系,猜测验证,生成用于测试的假设,提出解释观测的机制和理论,变量组合,它去了泰晤士报,大量的数据效率,减少实验空间以覆盖基础设施组合数据集的能力,相关性,高阶关系。
然后从假设产生到检验的循环被浓缩,我最喜欢的是生活本身就是数字化的,在内心深处,这一切都是关于理解细胞指令集,我们从编程语言进化而来的,除了我们作为科学家开发的,然后这些是来自。
呃,去年春天,去年秋天,然后我们会有另一张幻灯片,用你自己的答案,所以嗯,我想先从幻灯片开始,就像这样,向你展示了理解生物学的艰巨任务,所以如果你寻找基因,你知道他们从80克开始。
他们用三个停止密码子中的一个停止,塔阿·塔阿·格加,但是如果你在基因组中寻找ATGS,你看到他们无处不在,有,你知道基因组中每个地方都有一个潜在的开始,这是在一个数据本身是数字的地方。
在这一切背后有一个序列,你可以,实际上你知道那个序列,呃,而不是用测量来测量它,呃嗯,想象一下,呃,蛋白质折叠和药物设计有多复杂,带有表达式数据,使用单细胞数据,它非常嘈杂等等。
所以我们的任务是从噪声中提取信号的挑战,能够认识到,基因组中有意义的模式在哪里,所以这些是基因组的一些组成部分,即使是蛋白质编码基因,哪些是报价,未引用,容易的部分,现在太难了,对于监管主题。
这是非常困难的,这实际上将是第一批,类的第一个模块,所以这把我们带到了一个,主要任务的快速概述。
以及我们将面临的主要挑战,这是课程的大纲,我们在这里,这是一个课程介绍和一些概述,然后我们将有一个更正式的机器学习基础,呃,周四的讲座,然后讨论卷积神经网络,递归神经网络和图神经网络下周。
然后我们要讨论可解释性,降维,和随机嵌入的单细胞数据和其他地方,以及生成模型,甘斯与变分自动编码器,所以敌对网络,这将是第一个模块,它将是关于机器学习的,关于模型及其解释的一切,然后在第二个模块中。
我们将深入研究基因调节回路,这就是基因组学的部分,这可能是与我教的课程重叠最多的部分,秋天我们将讨论dna的可访问性,推动者,增强剂,染色质基因调控与降维,转录因子,dna甲基化,基因表达与剪接。
但与秋季班相反,这一切都将是关于深度学习的,以及我们如何使用深度学习方法直接从基因组推断这些结构,然后我们将讨论单细胞或DNA测序,然后这个模组就结束了,基因调控模块。
我们的第二个单元将是关于疾病的变异,那么我们如何利用深度学习来发现遗传变异,去了解基因变异是如何影响这个电路的,我们的遗传变异如何影响基因表达水平,以及我们如何利用电子健康记录和病人数据。
推断与疾病表型相关的个体间的变异,在第四个模块中,我们将讨论结构的两个方面,呃,特别是蛋白质-蛋白质相互作用、蛋白质结构和蛋白质折叠,以及药物开发,所以这一切都是关于图神经网络以及它们如何帮助我们理解。
蛋白质、化学物质和药物之间的相互作用,那么最后一个模块将是关于成像的,生物学中许多不同类型的应用都需要图像分析,这是非常适合深度学习的东西,所以我们将研究成像和形态学的治疗学,视频处理,结构测定,等等。
等等,然后在最后一部分,我们只是要涵盖边界,这将是医疗保健中的文本应用程序,神经科学与癌症和传染病,所以这些是主要的模块,通过这些,我们实际上将使用习题集,作为向你介绍这些前沿的一种方式。
你将有一个在谷歌云中的编程环境,所以您将通过Python使用TensorFlow,您将能够调用许多代码段,已经写在上面的,你要实现各种模型,并填写代码,使,使整个模块完整,你实际上将使用谷歌计算云。
所以我们,呃,呃,请求平台,谷歌平台教育学分,然后我们会寄给你那些,所以第一个模块中的第一个习题集,都是关于张量流的,只是热身而已,你可以用它来完成一个相对简单的任务,比如字符识别,那么如何将像素集。
并认识到这是数字五,第二个习题集将使用这些技术,现在潜入基因组数据并识别序列模式,第三套习题集是深入到两个单细胞,rna查找数据,关于嗯遗传变异。
呃和疾病,第四套习题集是关于蛋白质折叠和药物设计。
所以用这些图神经网络来折叠蛋白质,第五套习题集是关于医学图像分析的,所以这些是呃。
四道习题,我们会成为,嗯。
好的,现在让我来谈谈这门课的其他方面。
所以我们也会有一个专门的抄写员为每节课,谁来做讲座的笔记,我们今天不需要做那个,但是我们将在星期四开始,所以我们会寄给你一张报名表,让每个人都报名,然后你们要以去年的课堂讲稿为基础。
我们会要求你有一个抄写员笔记的最后草稿,讲座后六天左右,这将允许学生在自己的学习中建立在你所说的基础上,然后一些讲座需要更多的工作,我们会有多个抄写员,然后有些任务可能比描述更适合你,比如说,数字。
参考文献,布局,宏,只要让我们知道,然后我们可以给你一些专门的任务,我们将进行一个半小时的测验,我们还没有确切的时间安排,所以我们会联系确定每个人的可用时间,和时区,所以不是期中考试,这不是期末考试。
这只是一个小测验,它很友好,好玩,交互式,可爱有趣毛茸茸的,目的是骗你们学习,我们是,你知道吗,我们总是喜欢,好的,我们如何诱骗他们学习,我们发现小测验能欺骗学生学习,这就是为什么我们有一个小测验。
目标是展示对材料的掌握,在测验前的四个模块中,并了解要点,强调讲座,P集中揭示的微妙之处,并应用你的新技能来解决实际问题,我们会有真实的知识问题,假的,证明和多项选择,我们会有一个更深入的理解问题,呃。
将以简短回答的形式提出的一组问题,以及我们将要解决的一些实际问题,简单算法及一些设计问题,也许只是一个你必须上来的地方,通过一个创造性的解决方案,结合了来自多个,另一个,生命科学中深度学习的很酷的事情。
这只是一个有十年历史的领域,这在那之前并不完全存在,所以发明这些方法的人并没有在18世纪死去,他们现在还活着,超级活跃,他们甚至知道如何使用缩放,因为他们有时和你一样大,嗯,所以对于呃,几次讲座。
我们实际上会邀请一两个客座讲师进行简短的演讲,关于该领域的主要文件,我们将在这些开始时介绍该领域和基础材料,呃,讲座,所以基本上在最初的半个小时里,我们将介绍该地区的材料,然后我们将有一个客座讲座。
或者两个客座讲座,有能力提出问题,深入研究他们的论文,所以这有点酷,因为你们实际上可以和现场的人互动,我们将对每位嘉宾的演讲进行简短的问答,事实上,与讲座相关的抄写员将帮助协调一些Q和A。
所以你们可以提前问问题,然后脚本将主持讨论,然后我们会更详细地讨论那一周的演讲和论文,在相应的背诵部分,然后这个,你又知道了,我们的目标是使课堂具有互动性,让它值得去讲课。
让所有这些很酷的新材料都值得学习,而不是坐以待毙,然后在YouTube上看这个,因此,我们将在这些讨论的基础上制定研究项目方向,在辅导会议上,你将有机会更深入地研究自己的项目,和你的导师一起工作。
这将带我们进入课程的最后一种活动,这不是最终的项目,但是你的团队项目或学期项目,我们不称之为最终项目,因为这不是你要做的事,在课程结束时。
这是我们在整个课程中都要做的事情,所以我真的鼓励你们看看课程表,开始思考,好的,我最感兴趣的话题和领域是什么,也许我应该报名描述我最感兴趣的讲座,这将允许我再次,见见那个领域的研究人员,呃。
在那个领域投资,当我们开始有这些,深蓝色的讲课和浅蓝色的背诵,我们将穿插绿色的指导课程。
这些指导会议是为了帮助你设计自己的项目,与导师会面,想出主意,想出合作伙伴,并与合作伙伴交流你的想法。
和你的导师,所以我们要进行分组会议,呃或多或少为每个模块量身定做,所以我们将有一个基因调节突破,疾病爆发的变异,呃图和蛋白质突破,和一个成像突破肯定,然后基于人们的兴趣,我们可能会有额外的突破。
我们要么有工作人员,要么有研究人员,在这些领域活跃的人参加了分组会议,所以你可以从他们身上反弹想法。
所以说,这将使你现在准备成为一名活跃的计算生物学研究员,因此,在计算上构建一个生物问题,收集相关文献和数据集,并使用新的算法来解决这个问题,新机器学习技术,并从生物学上解释结果,但我们也会,呃。
作为课堂的一部分,在教育的许多无形方面帮助你,我们传统上没有这样的课程,就是,这对奖学金和助学金非常有用,你如何在拥有互补技能的团队中工作,如何接收同行反馈,你如何识别,你知道,你自己同龄人的潜在缺陷。
呃,在每一个,你有什么改进建议,您如何接收这些反馈并相应地修改您的建议,你如何用科学论文的形式写出你的结果,我们会有一个专门的讲座来介绍如何,你如何呈现你的书面结果。
以及你如何向科学观众展示你的整体结果,所以再一次,这个学期的项目将是镜像的,你在现实生活中经历的这些无形的任务,嗯,事实上,当我们问学生,多少指导,你会不会,呃,更喜欢,呃,你知道,我们问得很好。
不喜欢指导,蓝色在哪里,然后我肯定会接受一些指导,呃,指导听起来是个好主意,确定里程碑和最后期限是有帮助的,然后到目前为止最常见的类别是,指导越多,越好,看来你们对导师会议很兴奋。
所以我们实际上要有那些。
所以现在我们要尝试一个你以前没见过的新东西,也就是,谁很兴奋,酷,这么快,保罗,呃,这些是匿名的,如果你完全不兴奋,你可以打一个哈欠,或者如果你很兴奋,你可以点击那里,我看到一些哈欠进来了,呃。
超级兴奋,耶,两个哈欠真棒,所以两个两个超级兴奋,这太棒了,我们还在赢,嗯酷,所以到目前为止我有四个六个答案,嗯,所有的权利,所以在那里分享结果,你变得超级兴奋,就是胜利,呃,二十六十六四零二,嗯。
这太棒了,你们只是说说而已,让我感觉好些,嗯好吧,二号,目前进度如何?呃,你好吗?刚刚好吗,太快了,太慢了,非常的酷,所以看起来和,你知道,上面9个,下面4个,这是伟大的,然后嗯,最后。
到目前为止你们跟得怎么样,我只是在尝试我不同的民意调查,这太棒了,好,所以很酷,所以六十六,二五七零二,如果你有问题,在聊天中键入它们,然后我们无畏的助教会回答他们,但如果你有他们无法回答的问题。
他们会打断我问,最后一部分是努力结识你的同龄人,尽早组建具有互补专业知识的团队,这就把我们带到了什么,我其实已经让你做了,也就是,呃,让我们看看Jackie提交的个人资料和视频介绍,非常的帅气。
所以在简介中,呃,你们已经提交了,嗯,几个学生简介。
哪个很酷,所以说,然后我要潜入其中的两个,这些是呃哇,一个非常年轻的,班上很年轻的学生,所以嗯,我基本上问了每一个,呃,班里的人,但包括我们的助教基本上介绍自己,这是杰基,所以她基本上是打招呼。
这是我在CS生物方面的学术背景,这是我的专长,以下是我以前做过的研究项目,以下是我最感兴趣的计算生物学领域,这是项目的类型,我很想做。
好的,这些是我自己的答案等等,好的,所以请回答这个,因为它们将是可搜索的,然后你就可以说,哦,对图像分析感兴趣的人,让我搜索图像,等等,等等,这将是超级连接。
一旦你找到了你感兴趣的人,然后你可以去相应的视频和呃,收听视频介绍,呃,那些学生,所以呃,到目前为止,只有两个勇敢的助教提交了熊。
我很抱歉让你们难堪,但是嗯,你知道的,努力相遇,因为这是做学生的一部分,我们不想因为流行病而失去这一部分,所以嗯,你知道的,这些是你的同龄人,呃,努力迎接他们,好的,那么为什么我们有所有这些里程碑。
所以里程碑,确保有足够的计划和反馈,基本上找到符合你技能和兴趣的项目,建立一个有共同利益的团队,灵感的补充技能,我们将提供去年项目的链接,和一些最近的文件为您的建议。
我们已经建立了里程碑、交付成果和解释,我们还有一份中途报告,在那里您已经可以看到项目的终点,你可以概述你的报告,你的方法和你的数字,所以我们要定期进行辅导,高年级学生和博士后。
只要核心员工都会成为你的导师,我们将就这些不同的模块主题进行小组讨论,分享想法,指导和反馈,我们还将进行一些同行评议,我们将鼓励你们每个人批判性地思考同行的建议,在你的区域内,提供反馈和建议。
并回应批评和调整路线,因此,再次,这是一个浓缩在一个术语中的现实世界的经验,进行同行评议,年度报告,你必须预算你的时间和精力,必须提前计划,并通过你需要达到的里程碑向后工作,你想去的地方,你的合作。
找出对你的团队做出反应的最佳方法,并确保他们对你有反应,如何写论文和如何发表演讲,所以这是这个绿色的部分,呃。
这里的时间表,所以嗯,大家可以看到,所以在第一周之后,这个星期五,我们会有这些介绍视频,以及已经提供给每个人浏览的个人资料,我们只是要有一些分组会议,让每个人都见面,这个星期五四点,呃,下星期五四点。
我们会有一些研究导师加入讨论,介绍一下自己,第三周主持或参加分组会议,我们将有一些研究小组建立突破室,在那里你可以进入突破室,再次就特定的主题组建团队,在这段时间里,你可以,当然啦。
相互联系并开始形成这些主题,你不必等待这些事件,但对于你们中更害羞的人来说,这将是一个很好的机会,以确保你不跟随,从裂缝中掉下来,那么在第四周结束时我们希望有一个初步的想法,一张幻灯片演示文稿。
如果你已经有了一个团队,这可以来自你的团队,如果你没有一个非常好的团队,这可以是在个人层面,它基本上是在说嘿,以下是我想做的,然后我们会给你这些想法的反馈,都是在周五的辅导会议上。
以及与导师的突破和个人会议,然后到第五周结束时,你会和潜在的导师开个会,所有这些绿色的东西都是可选的,如果你们在没有他们的情况下做得很好,哇太棒了,但似乎你们大多数人都有兴趣拥有它们,所以我们要让他们。
嗯,再次,这也可以是同步的,在第五周结束时,你会和你潜在的导师见面,现在到3月2日,也就是课程的第六周结束时,这将是到期的,一次又一次,这对你很有帮助,规划你的项目,然后从里程碑向后工作。
所以我们要向你要一份PDF和一些幻灯片,还有团队视频,你在哪里,在那里你介绍你的建议,在那里你介绍你的团队,和数据集,以及您将为这些项目使用和构建的工具,这又是课程的早期。
但考虑到去年的所有讲座都已经有了,鉴于文件,哦,我应该,我应该提到的是,对于每一次讲座,我们都整理了一些论文,让你。
让我们看看P文件,我们在那里,所以每个模块,我们有一组论文探索了这个领域的不同方面,这是机器学习的入门模块,这是关于基因调控和基因调控电路的第一个模块,所有这些都在画布上,所以我可以去画布网站给你看。
哪里有一个Canv,如果你点击文件,然后你在下面,文件,然后你会看到那些由,嗯,再次,如果你对特定领域感兴趣,读一下那些报纸,我们会更新这些,随着时间的推移,根据人们的反馈,以人民的利益为基础。
我们将邀请客座讲师,他通常是这些论文的第一作者或资深作者,所以请继续关注,呃为了那个,但同样,你可以提前阅读来选择这些主题。
然后根据那些,我们就会,嗯,有能力和学生见面,然后嗯,组成团队,并获得对这些的反馈。
那就是全部建议书到期的时候,然后我们会有更多的机会和你的导师见面,然后到第八周结束时,我们希望确保您有一些数据可以使用,那个,你有一些工具,呃,一起工作,我还在这里分享我的屏幕吗,呃,是的,它是。
东西都到位了,所以我们会让你再录一个视频,再说一遍,这只能是五分钟长,你只要打个缩放电话,然后跳过记录说,好的,嗯,这是我的数据,这是我的数据结构,我在这里找到了数据集,这里很刻薄,中加载数据。
也许一些基本的可视化来表明数据实际上是有效的,等等,等等,所以目标是确保你不是,你知道的,发现自己在最后一周,说着,哦天啊,事实证明,我希望处理的数据集不可用,好的,然后你的端到端管道演示是唯一的八周。
你不必做任何事,超级有创意的或新奇的,你只需要确保数据在那里,也许还有第二个数据集,那是为了,你知道的,把两者结合起来什么的,你的工具就在那里,您可以加载数据等等,好的,然后两周后。
您将与您的导师进行另一次可选的异步会议,然后在端到端管道三周后,和学期结束前三周,我们会有一份中途报告,它将共享一个谷歌文档,在那里我可以看到你在工作,我看得出来你,你知道,把数字占位符,节标题,呃。
介绍和讨论,你知道你的初步结果等等,基本上到那时你已经有五个星期的时间在你的项目上工作了,所以我们有点希望,那时你可以看到隧道的尽头,你基本上可以说好,图1还没有完全准备好,但它会显示这一点。
图4还没有完全准备好,但它会显示这一点,并图五,我不知道会是什么样子,但它要研究这方面,这对学习如何写论文也很有帮助,因为它再次允许你从它向后工作,设计你的呃你的项目,然后呃,前一个星期五,呃。
最终项目到期,我要再做一次一小时的演讲,你可以在网上找到,如果你谷歌Minoscars,如何呈现,所以你已经可以用了,如果你愿意,或者你知道让版本现场直播,嗯在那个星期五,然后是最后一周的星期一。
你的最终项目将在谷歌文档中到期,PDF将有机会给你一些反馈,然后是你们的最后陈述,包括幻灯片和团队视频记录,将在决赛前的星期三到期,嗯嗯,演讲,好的,我们还没有完全确定,测验的时间,所以我们会联系的。
根据每个人的可用性,好的,所以如果你对这个项目有疑问,呃,请随时在聊天中询问,然后无畏的助教会对此做出回应,好的,嗯,你有很多可用的资源,所以呃,生物工程系正在运行,嗯,一套指导和反馈,呃实验室。
呃杰基,你想说两秒钟吗,是啊,是啊,我很乐意,嗯,大家好,除了作为课程的助教,我也是一个数据和编码,实验室研究员,这意味着我们提供,除了一些讲习班,一对一的辅导和同伴支持,这意味着调试还是项目头脑风暴。
或者想知道如何在线使用GitHub或软件包,基本上任何涉及生物数据的东西,幸运的是,对这门课的每个人来说,这都涵盖了这门课,嗯,这样你就可以,我会在聊天中删除链接,在我说完之后,你不能和我预约,嗯。
因为这有点二次探底,但是还有很多其他的人,他们中的许多人都上过这门课,所以我认为这是一个很好的资源,如果你发现你需要的不仅仅是广场上的问题,或者来办公时间,我觉得你应该去看看,所有的权利,所以呃。
我们昨天进行了初步调查。
这就是你,所以呃,我们有一个新生选修这门课,可能是个坏主意,但你知道有一些很棒的新生,所以你知道我们会准备好惊喜,然后大二,呃,八个低年级学生,五个歌手和两个男人,然后呃,你知道。
很大一部分一年级毕业生,上这门课的最佳时机,你们三个,你四岁也是上这门课的最佳时机,然后G 2及以上,上这门课的好时机,介绍到一个很酷的新领域,和许多研究领域,呃,什么专业,你是,呃。
课程六和课程二十是,你知道绝大多数都是预期的,然后呃,你知道,丰富的多样性,这也是这门课的美妙之处之一,人们来自非常非常不同的背景,然后就你目前的身体状况而言,嗯,但你知道你们中的三分之一在校园里。
另外三分之一在城里,但不完全是在校园里,然后有几个人,呃,在同时区,然后呃,我们有八个或者对不起,六名来自中国的学生,所以对你们来说,我们会安排,呃,a,那怎么叫,办公时间七点,东部时间晚上八点。
你的时间是早上7点或8点,不幸的是辅导课程会有点难,嗯,为了这样做,但是发邮件告诉我们你还要多久,呃,在中国,如果你在那里,整个学期都会根据自己的背景找到调整的方法,所以我们基本上问你的背景是什么。
你知道你在算法和编程方面的背景水平吗,机器学习,深度学习,等,我知道你知道,这些曲线对机器学习和深度学习都是倾斜的,这是伟大的,那是你知道的,就研究而言,学习它的最佳地点。
你知道有些人已经有了一些先进的研究,这是伟大的,然后在生物研究方面,你没有那么多专业知识没关系,因为这应该是一门入门课程,所以你将能够学会,然后在算法或编程方面,再次在一些暴露和高级之间。
就主要驱动因素而言,这是完全正确的水平,上这门课的原因,所以你知道机器学习,生物学是迄今为止最大的驱动力,你知道不是因为任何要求或任何其他原因,这又是非常好和令人放心的。
这就是你希望在项目的每个部分得到多少指导,每个人都回答了。
指导越多,越多越好好吧,所以事不宜迟,我将花几分钟介绍一些机器学习的主题,我们将在课程中讨论,我会在第二堂课上做一个更正式的介绍,然后我还会介绍一些生物学,我们将在课程中讨论。
所以欢迎你参加一整堂机器学习课,获得背景知识。
但我想,至少,向您介绍…的一些领域,你知道的,更广泛的机器学习,我们将再次处理,非常的人,你知道的,经常有人问,那么什么是人工智能,什么是呃,深度学习,为什么机器学习,等等,以此类推,所以嗯。
如果你看看,呃,传统上对人类来说很难的,你可以看看国际象棋,你可以看看围棋,大家可以看一下,你知道,数学积分,记忆事物推理,你知道吗,然后是逻辑和计划,所以这些是那种,你知道吗,我们希望大脑工作的地方。
像一台机器,这些地方,呃,你知道的,很明显,你知道我们仍然比机器好得多,所以就一般智力而言,能够解决问题,你知道的,能够操纵对象的一般设置,能够在复杂的场景中开车,当外面下雪的时候,天很黑什么的。
就像能够识别图像一样,能够记住十年前见过的人的脸,让它们在你的大脑中老化,因为你已经很久没见他们了,诸如此类,理解语言,能够相互交流,你知道的,玩危险游戏,等是传统上对人类来说很容易的事情。
但对机器来说很难,这些是人类传统上很难做到的事情,但对机器来说很容易,机器学习真正改变的是什么,机器实际上开始变得非常擅长这些事情,我想这就是为什么这个领域,呃,太刺激了。
我得承认我不是为你们做这张幻灯片的,我其实是为我三年级的儿子做的,他是玻璃,所以这就是为什么他的照片是一个小个子的人,但不管怎样,所以基本上深度学习更多的是沿着这些路线。
然后古典人工智能更多的是沿着这条线,所以我们将专注于深度学习和其他东西,但我们也会有点,包括一些不一定深入的传统机器学习,所以再一次,传统的人工智能大多是通过组合来破解的。
然后对每个国际象棋位置都有很好的计分功能,然后搜索这些位置,然后呃,你知道你会有一个人类会在国际象棋的所有规则中编程,你会有一个人为每个位置手工制作评分功能,这基本上可以说明这个特定的位置有多好有多坏。
然后你会搜索所有你可以用最大分数做出的动作,然后搜索你的对手可以用最小得分做出的所有动作,这就是迷你最大算法,然后重复多次迭代,然后你选择能给你最好分数的动作,假设你的对手打得完美。
深度学习正在改变这一切,它基本上是在说,3。我不想让专家来告诉我这个职位的得分,我想了解一些关于它的直觉,什么,你知道的,某种深度学习,呃,国际象棋的各个方面现在都能用阿尔法零。
这种自我游戏不是明确地教机器,什么是应该遵循的好规则?你基本上是让机器,弄清楚规则,我认为这是根本不同的方式,过去做过的事情,这也适用于国际象棋,这适用于理解一个游戏,理解现实世界中的情况。
现实世界非常简单,你知道,呃有组织的,但这也涉及到理解自然环境的极端复杂性,这就是深度学习真正革命性的地方,人工智能和机器学习,在过去的四十年里,我们作为一个整体认为可能的任何事情。
基本上这是在过去十年左右发生的事情,我们意识到哇哦,机器实际上可以擅长其中的一些事情,这是真的,嗯,这场革命是可能的,因为训练数据的融合,计算能力的,和新算法,这将是三个支柱,我们的成功将建立在。
但是机器每次看到这样的场景都在做什么,机器正在做的是建立一个场景的内部表示,最好的思考方式是,有一组可观测的,然后是我们从这些可观察到的东西中做出的一系列推论,当你们看的时候。
这个场景基本上是刺激你的视网膜后部,这实际上是一组像素,对视觉刺激做出反应的一组神经元,透过你眼睛的晶状体投射,到你的眼睛后面,你的视网膜基本上是把所有的信息发送到你的视觉皮层。
以或多或少像素化图像的形式,从像素化的图像,你有一层理解,建立了一个世界的表示,那么机器学习是怎么回事,深度学习的全部内容是建立世界复杂性的表征,在那里我们可以推理和计算,传统机器学习的表示很简单。
深度学习的这些表示是分层的,我喜欢介绍的方式,这就是观测到的宇宙的一半,这是世界所在的地方,这些是观察结果,数据,这是你眼睛的像素,不管是下雨还是太阳,晴天还是下雪,然后是世界的隐藏成分。
在那里你基本上建立模型、假设和推断,比如说,哦,我在外面看到了这种行为模式,一定有公共汽车,也可能是夏天,或者可能有一个,你知道吗,α螺旋等等在蛋白质中,折叠等等,基本上机器学习就是对世界做出推断。
生成模型允许你做什么,我们要谈谈,你知道吗,生成和分类,呃,模型判别模型,生成模型允许你表达一个事件的前向概率,所以基本上如果是公共汽车,然后我希望看到这组像素,如果是秋天,然后我希望看到雨等等。
诸如此类,所以你表示一个事件的正向概率,鉴于世界的隐藏状态,但是贝叶斯规则允许你做的,和贝叶斯规则日期,你知道已经有几个世纪了,你可以用这些向前指向的箭头来估计,观察到的季节,所以你可以估计下雪的概率。
考虑到现在是冬天,这是正向概率,给定一个季节的观测概率,所以这是你,你知道吗,引用未引用,从一系列标记的观察中学习,然后你可以用它来反转方向性箭头,而不是说好,考虑到下雨,我希望看到下雨。
但现在你可以说,好的,现在我看到雨,我的概率是世界的模型实际上是,给定的雨可以用贝叶斯规则计算,好的,这是向前概率,因为我有一些数据,对不起,我有一个假设,进行观察的概率在哪里。
然后反过来给出我有一些数据,假设的后验概率是多少,好的,所以目标是从数据的概率,给定假设对给定数据的假设的概率,好吧那么,而不仅仅是通过从,我可以说出根据观察到的世界隐藏状态的概率是多少。
这就是贝叶斯规则允许你做的,贝叶斯规则只是说假设的概率,假设的后验概率,给定的数据可以计算为似然的乘积,这是收集这些数据的概率,当我们的假设为真的时候,乘以该假设的先验,也就是说。
我希望多久会有一辆公共汽车在我前面,如果我开车穿过森林,或者如果我在收集数据之前开车穿过纽约市,这是你的前任,然后边缘是我们通常可以,你知道吗,当我们做假设检验时,你知道吗,如果一个假设对另一个假设。
d的p将总是相同的,所以我们不会太担心这个,但这将是收集这些数据的概率,在所有可能的假设下,所以你可以忽略所有的假设,然后把所有这些假设加起来,每个乘以该假设的概率得到T的p,好的。
这是机器推理学习的基础,对世界的隐藏状态做出结论,给定对世界可观察状态的观察,a,贝叶斯规则的推导是,呃琐碎,如果你画一个维恩图,这是一个,这是B,这是一个交集B,这就是概率的全部宇宙。
那么给定b的这个p乘以b的p,这里的这个东西和b的p是一样的,给出了a的p,所以基本上我也可以,由a的p乘以b的给定p的p,或者我可以到达同一个十字路口,b的p乘以给定b的p,好的。
然后我可以用一种方法或另一种方法来划分,基本上得到A给定的B作为B给定A的函数,这让我得到了假设的概率给定数据,即使我的生成模型只有这个,好的,这是贝叶斯推理的一个方面,这将是经典机器学习的一个方面。
有点,你知道的,为世界建立一个生成模型,然后推断出一些关于这一点的东西,这对监督学习的分类很有帮助,比如说,某些点的标签,您需要一个将标签准确分配给新点的规则,当然次级问题是我应该关注哪些特点。
在传统的机器学习中,特征工程是,哦好吧,我要计算大脑的表情时间,肝脏表达作为我的斧头之一,然后是比例,另一个轴,或者我会手工制作一套边缘探测器,从我的数据集中选择正确的功能,在深度学习中。
深度学习的美妙之处在于这些特征现在可以从数据中自动学习,我们将在卷积神经网络中看到什么,比如说,你留出了一组参数,你直接从你学习的数据中学习,不是这些超参数,但是这些共享的参数,就是这些卷积滤波器。
比如说,应用于整个图像或整个基因组并被重用,这是很多特征学习和表征学习,现代人工智能和现代机器学习,尤其是深度学习,这是为了分类,非常相似的概念适用于回归分析,你不只是试图预测一个类。
但是您试图为输出变量推断一个值,我们将在周四正式确定这一切,和聚类,这是无监督学习的一种形式,所以在监督学习中,我有一些标记数据,我你知道,比如说,我有,呃,你知道,我注释过的数以百万计的图像。
这是一辆公共汽车,这是一个祖母,这是一只鸟,这是一个,你知道猫等等,因此,带有注释的数据集,我可以应用监督学习根据物体的特征对不同类别的物体进行分类,2。我可以自己动手,也可以自己动手。
而聚类是无监督学习,基本上说这里有一个,你知道的,一百万张图片弄清楚,你实际上可以把数据聚集在一起,在某种维度上结合在一起,但真正非凡的是,您还可以从这些数据集中学习特性和表示,当然。
这两个问题是相互关联的,所以基本上,呃,你知道的,分类和聚类是通过,迭代学习和一个方面,一种迭代学习是期望最大化,在那里你迭代地估计你的生成模型的参数,然后为Prod生成注释,为了你的积分,你从你的。
呃,模型,然后估计这些点的标签,这两者基本上是同一枚硬币的反面,嗯,如果你知道世界的模式,您可以从该模型生成数据,如果你观察到标记的数据,您可以估计模型的参数,和无监督学习,你基本上可以通过。
通过说好来学习你的数据集,我要先提取一些特征,我将使用这些特性来标记符合这些特性的对象,然后在这些物体的基础上改进功能然后突然想到了公共汽车的概念,尽管以前没有人告诉我公共汽车是什么。
所以你可以用传统的机器学习来玩这些游戏,或者用深度学习,在那里你可以推断世界的表示,并通过这种迭代方法推断具有相似属性的对象集群,和有辨别力的学习,有呃,你根本不想学习表示的例子。
也许建模数据的完整分布是不可能的,你想做的是关注元素之间的边界,所以再一次,这与生成模型方法正好相反,而不是试图学习一个捕捉所有数据的模型,您要做的是学习数据之间的最佳分隔符。
所以我们将看到生成性和判别性的学习方法,你知道的,力量,当然啦,支持向量机是核,数据的这些转换,事实上,你可以计算判别阈值,它是线性的,但在非线性变换的空间中,它有效地允许您创建非线性分类器。
我们将讨论各种很酷的技巧,分类,业绩,对于任何选定的阈值,我们如何相对于随机分类器,你在这个接收器上下移动,工作特性曲线,一个术语,嗯,战争和通信渠道丢失与否的日期,你知道的。
任何一种方法都可以在不同的阈值下运行,沿着这条线移动以实现任何类型的分类目标,我们还将学习线性代数,以及我们如何利用,呃,线性代数和矩阵运算来理解跨生物系统的网络,我们将讨论概率网络和图形神经网络。
和贝叶斯网络,以及我们如何使用节点作为概率变量和边,描述信息流之间的互信息或约束,在这些边缘之间,我们将研究低维投影,矩阵的特征分解,和,呃,你知道的,刷新一些线性代数,我们将研究正规化的特殊形式。
它惩罚了模型的参数数量,使用线性或二次惩罚函数,允许您现在最小化,你知道的,通过限制非的数量来进行过拟合,零参数和大参数数,可以让你有更多,我想再次提到,并不是所有的学习都是深刻的,所以再一次,呃。
你知道的,强调我刚才告诉你的,口头上,传统人工智能包括知识系统,你可以手工设计一个程序把杂货放进袋子里,基于特定的规则集,如果程序员没有想到每一个可能的规则,那你就有麻烦了。
那么经典的机器学习仍然使用手工设计的特性,而是没有手工设计程序,它基本上会使用你制作的功能从数据中学习,那么表示学习不仅可以让你拥有手工设计的功能,但实际上已经学会了特性,并从这些特性映射到您的输出。
深度学习允许你通过层构建更抽象的特征,从简单的特性开始,这就是你所知道的,我们将在这节课中重点讨论,所以深度学习特别应用于生命科学的所有领域,我们如何构建简单的特性,我们如何构建更抽象的特性。
我们如何从这些特征映射,这些灰色的盒子在哪里,学习发生的地方,呃,你知道的,将跨越所有级别,所以如果你想把一辆车、一个人或一只动物分类,你是从层次结构通过一层像素建立起来的,然后是一层边缘。
一层角和轮廓,一层物体零件,并最终基于特定的引用,正在放电的神经元,建立在其他神经元组合上的,你在学习轮子的概念,你在学习人脸的概念,你在学习,你知道,关于世界的具体概念。
然后你可以用它来预测世界上的物体,所以这是非常多的,深度学习对如何了解世界的类比,但事实证明我们,因为人类在我们识别物体的方式上并不遥远,所以如果你看看我们大脑计算中实际发生的事情,我们再次有图像投射。
然后层层神经元学习越来越抽象的推理层,我们有低级计算,你知道的,在单个神经元水平上决定一个事件是否经过了某种激活,一些兴奋阈值,然后决定全力以赴,说是的,我已经看到了,然后开火,然后你知道,超极化等等。
然后这些神经元不是孤立地作用的,它们在复杂的神经网络中作用,通过这些非线性呃,积分器,然后决定是否观察到了特定的信号,这就是你的视觉皮层实际上发生的事情,可能在许多其他感知领域,甚至在我们的大脑中推理。
在哪里,特征特定子集的受体,然后形成更复杂的特征,所以这是一个被一遍又一遍地重复的架构,如果你看看我们的视觉皮层和运动皮层,有类似的信息层,事实上,通过我们自己的单细胞数据,呃,人脑的。
我们实际上认识到,额叶皮层中与上层匹配的特定亚型神经元,运动皮层的现代神经元,人们认为不存在于运动皮层之外,所以事实证明有很多分享,即使在这些多层架构的不同层和不同区域之间的单个单元分辨率下。
这是你知道的,哺乳动物从我们的,呃,脊椎动物的近亲,比如爬行动物,基本上主要有大脑的皮层下区域,我们基本上作为哺乳动物扩大了新皮层,作为灵长类动物,进一步扩大了新皮层到如此巨大,呃,质量,作为人类。
我们基本上已经做到了这一点,你知道吗,巨大的硬件扩展,许多人认为这基本上是推理发生的地方,那是意识产生的地方,那就是你知道的地方,某种抽象思维是可能的,这基本上就是让我们研究所有这些的秘密,你知道的。
无数的任务,在内心深处,这是一系列简单的操作,我们现在已经移植了,从生物空间到计算空间,具有特定激活功能的网络体系结构,这些功能基本上决定何时触发,基于,你知道的,我看到的输入信号量。
这个激发应该是阶跃函数还是西格玛函数,sigma sigmoid,或者你知道,非线性的,呃,基于梯度学习的函数算法,允许您通过这个网络估计误差,然后向后传播这些重量,所以我们将深入了解这一切的细节。
在接下来的几节课中,关于课程的计算部分,然后呢,嗯,正规化为避免过度适应训练集,测试集,验证集,卷积滤波器,呃,用于压制表示的自动编码器,到更简单的表示,然后欺骗有监督的算法作为无监督的方法,等等。
等等,所以这就是我今天要停下来的地方。
然后呃,基本上欢迎你参加这门课,我会,嗯。
给你介绍这门课程的生物学方面,当我们根据需要潜入这些方面时,但如果你有兴趣深入了解,呃,这基本上是建立在,呃,这五个模块,呃,我描述的,呃没事吧,所以呃,用那个,呃,再来一次投票,他对这门课很兴奋,呃。
让我们看看停止分享结果,重新启动,在那里打保龄球,你真棒,曼诺利斯,聊天中有几个很好的问题,当我们在等待人们回答的时候,是的,所以让我在这里停止投票,然后呃,很酷的人都超级兴奋,五四四二二零二。
然后雷兹问还有多少自由度,你会说,一个简单的真正的脑神经元有,与简单的前馈或卷积人工神经元相比,这些都是很棒的问题,再问他们一次,当我们谈论,呃,这些人工神经元在接下来的几节课中,我们怎么知道什么信息。
层层深入网络抓手,比如说,视觉任务,我们如何知道某一层是否抓住边缘,颜色,等等,这是一个关于这些解释的奇妙问题,那是给呃的,位置um,关于可解释性的一个大问题,我们将有一整节课专门讨论可解释性。
可能会讲五六堂课,如果我没记错的话,太厉害了,所以感谢大家的到来,我们很高兴你能来,然后呃,期待着在整个学期与您互动,别忘了,呃,填写你的学生档案并录制你的视频介绍,并上传到Dropbox。
您将能够立即看到您的,以确保它上传,也是你所有的同龄人,谢谢大家,我们很高兴你能来,拜拜,谢谢你,谢谢你,谢谢你,谢谢大家,谢谢你,谢谢,嗨,每个人,你们能留下来吗,哦,你介意吗,哦耶,去吧,普拉蒂克。
去吧,你介意吗。
P10:Lecture 10 -Single Cell Genomics - 爱可可-爱生活 - BV1wV411q7RE
顺便说一句,所以呃,欢迎,欢迎大家,所以今天我们要潜入,呃,单细胞基因组学,我们很幸运有两位客座讲师是费边,罗马·洛佩兹的Thand,所以我们要谈谈为什么单细胞,为什么传统方法,呃,你知道不一定管用。
我们是如何想出现代单细胞RNA测序的,我们将讨论单细胞技术是如何进化的,并通过三种不同的主要途径使我们发展到今天的技术,然后我们将讨论如何超越rna,单细胞攻击,单细胞水平上的I与多组学。
然后我们要谈谈如何处理噪音,双细胞和其他单细胞问题,然后我们将对单细胞数据中的不同计算挑战进行分类,分析并谈一些新兴的单细胞数据深度学习方法,但接下来的大部分时间都将花在我们的两个客座讲座上,呃。
开发DCA的法比安·泰国人,所以让我们直接潜入,那么为什么单细胞分析,原因是单个细胞彼此之间有很大的不同,即如果你看单元格,你知道在身体里还是电镀的,它们是非常不一样的,他们是,他们不一样,因为他们。
呃,环境刺激,它们是不同的,因为它们的相互作用,他们不一样,因为它们处于细胞周期阶段,因为他们正在经历转录的爆发,所以每个细胞实际上都有很大的不同,所以当你查看大量数据时,很难了解这些细胞的多样性。
有几种也是不同的,因为它们的分化轨迹,如果你看看造血干细胞谱系,它沿着非常不同的路径区分,当你往下走的时候,几乎有一个连续的细胞身份,微分时间进程,单个细胞之间也有巨大的差异。
即使在特定的给定单元格类型中,信令可能会有很大的不同,因为,比如说,每个细胞表面表达的信号受体的表达,也是因为信号分子的梯度,呃,以及它们对每个单独细胞的访问,如果你在显微镜下观察单个细胞。
以及它们是如何表达的,呃,特定的受体或特定的因素或特定的反应元件,你看很好,变异性大,最后是癌症,你也有个别癌细胞之间的基因型差异,基本上,肿瘤细胞本身在拷贝数上发生了戏剧性的变化,嗯,你知道吗。
大段复制,或在,你知道吗,个体基因,这就导致了,这些细胞之间的表型多样性,所以当你看大量样本时,你最终会得到某种平均测量,实际上可能并不代表人口,细胞的数量可能有,你知道的,特定基因的高表达或低表达。
平均值可能只是表明,这些基因在中间水平上表达,否则你可能会失去非常罕见的事件,也许一万个细胞中有一个表达RNA,但当它表达它的时候,它以非常大的数量表达它,所以这些是我们想要用单细胞数据捕获的东西。
有许多不同的技术,在当前单细胞数据分析爆炸之前,所以他们中的一些人基本上是在使用实时,实时探测,不同类型的放大,呃,他们有,你知道,具体优点和缺点,其中包括成像技术或单细胞,呃,pcr,放大,放大。
原位测序,它可以让你直接从一个成像场测序rna分子,那些分布在许多细胞中的单个rna分子在哪里,但每一个都有非常不同的限制,所有这些背后的基础技术是,扩增单个RNA的能力。
然后从极小的样本中捕获这些RNA,与DNA形成鲜明对比,每次只有一个分子,rna有许多分子,你可以用这些分子进一步放大,为了得到一个非常稳健的信号,所以这些技术现在已经扩大了规模。
并在许多方面占据了一席之地,你知道的,非常不同的技术来真正扩大规模,通过细胞分选,在那里你基本上可以对单个细胞进行排序,然后把它们放在井里,或者来自微流体。
您可以引导单个单元格进入以及分析它们的正确位置,甚至移液单个细胞,然后通过扩增来分析这些单个细胞的RNA,这就是当你看到单个的单细胞,这里的道路,不同的时间点和不同的,嗯对不起。
单个基因跨细胞在不同的柱上,所以你可以看到跨越时间,不同反应的过程,个体基因是如何打开或关闭的,你可以看到一些基因在的地方,对于所有单元格,其他实际上存在异质性的地方,即使在特定的时间点。
所以如果你现在开始查看行上的单个单元格,和柱子上的单个基因,你基本上可以看到,如果你把一万个细胞放在一起看,你看到rna信号是什么样子的,你可以在这里看到,外显子和内含子的区别。
你可以看到大部分信号来自外显子,这意味着我们正在捕获经过处理的RNA,但在某些情况下,我们也会捕捉未经处理的RNA,中间还在的地方,你可以看到,对于许多基因来说,你可以看到这个非常好的一致性。
单个细胞基本上有足够数量的RNA分子,单个细胞的形状,事实上,再现你在一万个细胞中看到的形状状态,但对于其他基因,你有一个非常不同的画面,是的,有些细胞确实表现出健壮的表达。
但其他细胞对这些基因的表达为零,原因是这些细胞可能根本没有表达,那个特定的RNA分子,所以有很多关于单细胞数据零值的讨论,其中一些确实是技术性的,因为我不知道爆裂,或者因为不能捕获所有的RNA。
在一个小小的准备中,其中许多实际上是生物的,因为单个细胞之间的可变性,单细胞分析的许多挑战是区分这两者,但真正有趣的是,如果你把稳健表达的基因,以及部分表达在很少表达的基因中的基因。
然后你用这些荧光原位杂交技术做探针,在那里你混合了一个探针,与感兴趣的基因互补,你基本上可以看到确实,这里有中间表达式,那里有强烈的表达,那里有强烈但罕见的表达,所以说,事实上。
我们在单细胞数据中看到的实际上是,概述你在生物学中看到的,这些是单细胞水平上相应的丰度分布,所以当你刺激这些细胞时,他们的反应不同,你所看到的是,在,它们很少,显示出很小的可变性,和最可变的基因。
这些基因经常与环境感知有关,防御反应,炎症反应等等,所以这是探测单个细胞的传统区域技术,这些基本上坐在这里,这些是最早的技术,你知道的,一次分析单个单元格,从那以后,我们看到了一个戏剧性的转变。
我们已经扩大了几个数量级,在一个实验中可以研究的细胞数量,我将重点关注的三项技术将是聪明的,SEQ使用基于单元的技术,滴C和十X,它们使用液滴而不是,嗯,对不起,这是有根据的,这是用液滴代替井。
然后分裂,它从来没有真正分离单个细胞,但是想出其他的条形码技巧,所以这个,你知道的,传统的方法是可以的,让我们用移液管把单个细胞放在单独的井里,或者通过显微镜,然后通过荧光,呃,荧光活化,细胞分选。
当细胞流过时,它基本上是在照耀蜥蜴,然后当检测到有特定标记的细胞时,然后选择它们进行单个单元格分析,但你也可以不用选择特定的标记,就像把单个细胞彼此分离的一种手段,也可以用激光捕获显微解剖。
基本上用显微镜捕捉单个细胞,然后对它们进行侧写,你可以用微流体,它把细胞从一边,然后呃,在油介质中形成的来自另一边的液滴,使您现在能够将细胞捕获在一起,以及珠子中的条形码,允许你捕捉你所在细胞的身份。
呃,每一个rna的来源,所以来自同一个细胞的所有RNA,将贴上相同的条形码,然后当然是直接在你所在的地方采血,你可以捕捉单个细胞,而基本技术是基本管道如下,基本上你首先要做的是分离细胞。
所以基本上把细胞困在水凝胶里或其他方法,这就是你在下降搜索中看到的,你知道很多相关的方法,然后你想放大RNA,你想测序,之后您希望使用不同类型的分析,作为你的,你知道的,传真订单,比如说。
可能是选择不同的种群,你可能会把它们插入微流控设备,或者直接将它们捕获成液滴,所以让我们来谈谈这些,呃,单独的技术和每种技术的优势,特别集中在智能TSI下降寻求,然后这些集合方法。
那么Smart Sido Smart主要使用荧光激活细胞,对它进行排序可以捕获五五百个细胞,根据你愿意分析的井的数量,然后每口井大约三美元,你可以分析,你知道每个细胞多达一万个基因,所以这抓住了最多的。
这些细胞中每一个的um基因,但实际上,你为每一个单独的测序反应实验付费,嗯,所以你实际上是在为,你知道500个实验来描述,五百细胞,那么在这项技术上谁和我在一起,所以呃,让我们看看。
所以这个概念是你把每一个细胞分离到一个单独的井里,然后你就可以做得很好,基于实验,就像你一直通过放大rna来做的那样,然后你有唯一的ID和地址,以此类推好吧,所以呃,五九,三个,六,五个,零,零。
第二个技术是,滴,寻求,或基于液滴的技术,所以这里的想法是这样的,你会流动,你知道的,一个微流控室,然后你要用条形码附上它们,对于每一个连接在珠子上的,所以每一颗珠子都有数十万份相同的条形码副本。
在这个微流控装置中,你在有效地捕捉,在一滴,因此,有效地,液滴成为你的井,为你的测序反应,所以你现在捕捉单个细胞,而不是在井里捕捉它们,你把它们捕捉在液滴中,每一滴都有自己的珠子,有一大堆条形码。
他在这方面和我在一起,我们如何用液滴代替井,这些液滴基本上是作为一种分离单个细胞的方式,这样我们就可以在同一个井中标记同一口井的所有RNA,你知道,细胞类型,或抱歉在同一单元格标识中。
所以我们有百分之八十,百分之二十,四零,零,下一步是非常酷的,你现在想避免对每条鲸鱼做单一的测序反应,所以你要做的是非常聪明的,你现在只需捕获所有这些单独的rna分子。
在一个大管子里用相应的细胞身份进行条形码编码,每个人都被他们来自的细胞标记,那些标有红色条形码的细胞,他们的每个RNA上都有一个红色的条形码,但你可以把,你知道的,你可以打破分区。
把所有的条形码RNA放在一起,对你的一万个细胞做一个反应序列,这里的主要区别是你在做一个传统的rna寻找实验,你已经成功地标记了每个RNA来自哪个细胞,所以你基本上有红色的条形码,你就像,哦。
他们都来自同一个牢房,你有绿色条形码,哦,他们都来自同一个牢房,然后是蓝色条形码,哦,他们都来自同一个牢房,好的,所以在事实之后,在做了一次RNA测序反应后,然后你就可以回去了。
并为每一个rna分子分配单个细胞的身份,好的,谁在这件事上支持我,这是一个重要的概念,太厉害了,所以六十四,二七五五,零,所以这是第二个,嗯技术,这是一个非常非常酷的技术,那就是,你知道吗。
我想说迄今为止使用最广泛的技术,所以基本上你知道,十大基因组学,比如说,已经接受了这一点,他们制造了一些套件,你可以用来,你知道吗,在单个实验室进行数百项实验,第三类技术,现在你们会喜欢。
这一个是嗯分裂和分裂采取,基本上说好,我不想打井,我连飞沫都不想做,我只是要洗牌细胞,在一群不同的鲸鱼中,我会有一百个井和一百个条形码,所以我只能把每一个,你知道一百个不同的类别。
然后我会给每个细胞添加一百种不同的条形码,这里真正酷的是,每个细胞都有它所有的RNA在一起,当它通过第一轮条形码时,然后你把所有的细胞拉在一起,你重新分配,然后你就有了,比如说,蓝色细胞洗牌。
现在它得到了绿色的条形码,然后你又洗牌,现在有蓝色条形码的单元格,绿色条形码又被洗牌了,然后你还添加红色条形码,所以你最终会发现每个细胞都有一个独特的100倍的组合,一百次,条形码的一百种不同选择。
所以在第一轮中,它得到了一百个条形码中的一个,第二轮它得到了一百种不同条形码中的一种,在第三轮,它得到了一百种不同的条形码中的一种,所以你可以有一个标记为红色的细胞,另一个细胞被标记为黄绿蓝。
另一个细胞被标记为绿色、绿色、蓝色等等,诸如此类,所以你最终得到的是一个独特的条形码组合,一个接一个地线性添加,对于同一细胞的所有RNA,我从来没有单独分离过细胞,我所确保我所做的。
我拉出并重新分配所有的细胞,在每一口井里,让我们看看到目前为止谁和我在一起,所以我在这里做的是,我不是在创造这些液滴,而是,我只是确保每个细胞都在一起,因为我每次都把它分成不同的井。
每个细胞通过的井的特定顺序,使我能够唯一地区分这些细胞,所以七十三二三五零零,为什么这很酷,这很酷,因为我只需要在最后做一个巨大的测序反应,每个RNA分子都有一组三个条形码,给我十万分之一的一百万。
所以我基本上可以为每个rna分子有一百万个唯一的地址,它基本上告诉我它通过了哪个井的组合,因此它来自哪个单个细胞,所以再一次,这是酒吧下降寻求,这是分裂寻求,你在哪里,基本上你知道洗牌你所有的分子。
然后最后,每个rna分子都有三个条形码,在末尾添加的,使您能够准确地区分它来自哪个细胞,你可以添加更多的分裂,您可以添加,你知道的,四个分裂,基本上捕获一亿个细胞,以此类推,如此如此,主要有三种技术。
井里有牢房,然后是水滴,然后是组合索引,我们可以用于所有这些,我们已经讨论过单细胞RNA测序,但你可以做很多很多不同类型的酸,你基本上可以看到单细胞DNA甲基化,特征分析,单细胞基因组测序。
单细胞dna可达性,特别是单细胞出租车,也就是转置的化验,可溶性染色质,这是最常用的分析方法之一,超越,单细胞rna寻迹,单细胞芯片一次又一次地寻找,我们已经讨论过mrna和10 x分裂搜索和智能搜索。
你可以做伪时间分析,你可以推断空间定位,我们将讨论空间转录组学,在我们的成像讲座中,你可以观察不同的细胞表面蛋白质,不同的细胞内蛋白质,名单还在继续,所以有很多很多不同的化验,我鼓励你,你知道的。
读一下那些,其中最常见的是单细胞attaxi,这基本上告诉你的是,对于每一个单独的细胞,那个牢房现在的可达性是什么,单细胞攻击,它与单细胞RNA搜索有很大的不同,这种差异的原因是我有很多。
在我的细胞里有许多不同的RNA分子副本,但我只有两个基因组副本,所以这基本上意味着我要么拥有这个区域,在一个染色体副本中可以访问,或在另一个染色体副本中可获得,或者在其中任何一个中都无法访问。
或者在其中任何一个中都没有检测到可访问性,这基本上意味着来自单个细胞的数据可能非常,非常稀疏,但是当你把细胞聚集在一起,你最终会得到一个信号,总的来说,看起来就像一辆出租车,或者就像体积一样。
dna是超敏反应图谱,这是非常令人兴奋的,但在每个细胞的单个细胞水平上,您可能没有足够的信息用于每个位置,通过在同一单元的许多位置聚集,你现在有足够的信息来谈论转录因子。
这些因子可能在一个细胞中通常活跃,与另一个细胞,与第三个细胞相比,所以你可以在转录因子变异性的水平上聚合数据,整合单细胞攻击和单细胞RNA的方法有很多,你知道你的一些项目实际上已经,呃,解决这个问题。
所以说,嗯,最近出现了单细胞多组学的方法,可以让你,比如说,分离每个单独的细胞,然后每个单独的井可以有多种不同类型的反应,你可以用我们谈到的许多技术来做到这一点,一直以来,你知道的。
日益出现的单细胞多组学的许多方法,因此,在处理噪声和对偶时,有许多计算上的挑战,然后嗯,我嗯。
你知道的,i,我为你们准备了很多幻灯片,但我鼓励你们看我们以前的一节课,如果你想深入了解不同的方法,但今年我想做的是。
有机会邀请来自世界各地的人实际上是有两个不同的客座讲座。
呃横穿,十个不同时区,所以第一个是,从欧洲赶来,法比安,呃,然后第二个实际上是从西海岸进来的。
然后呃,i,你知道的,如果生活给你柠檬,你做柠檬水,所以嗯,你知道的,我们彼此相距甚远,但是呃,即使近在咫尺的人最终会走得很远,我们实际上可以把通常离得很近的人带到法比安,很高兴你能和我们在一起。
把它拿走,您可以共享您的屏幕并开始,艾玛在嘿,感谢大家的盛情邀请和有趣的形式,听起来真是个好主意。
是的,是的,我期待着二十分钟后的大致轮廓,我现在开始,我们一直在贡献的,但也许饲料在做什么,深度再现学习和作为一名记者的事情,我想讲座是,它叫什么,这在生物学中被称为深度学习,就是这样吗。
那是这门课的题目,我们将覆盖这么多不同的颜色,是啊,是啊,我看到了我看到了一堆视频,这真的很酷,我很喜欢,这是一个大师班,对吧,无批次,我猜哈哈哈,因为我印象深刻,我很久以前在麻省理工学院学习过。
我确实上了课,我实际上是布伦南大学,喜欢这个地方,我们喜欢在波士顿,但不幸的是到现在还没有,所以你只要看着我,我会简短地。
你我不知道你是否显示了我的通知,但你知道,这就是这就是想法,我们现在有奶昔和自行车,你知道我们有点挑剔,食物方面可能已经见过几次了,原因是,比如说,飞沫,但微通量也与快速标记结合在一起,因此。
这已经成为相当容易获得的技术,细节我就不说了,因为你已经从我的,但我只想说这是一件大事,自然方法被称为年度方法,几年前,并随后发表了各种额外的文章,你们能听到我的权利,是啊,是啊,我在健身,有点低。
但我们能听到你,是啊,是啊,不幸的是,我有点失去了我的,呃,没关系,iPad,但我应该没事,因为每个学生都在提高音量,我想我们能听得很清楚,是啊,是啊,我想大声说出来,所以这被称为年度方法,多模式版本。
就在两年前,现在宇宙飞船离开了一个,所以你知道,总是单细胞,单细胞,所以难怪这变得非常巨大,这是我的主要初衷,但我一直对机器学习感兴趣,但你知道在那些日子里当我们想做一些常规基因组学的事情时。
东西总是被称为小P和大P,所以统计方面总是正则化,和一堆线性模型,现在我们在这个制度下,你知道我们有几十万个样本,这些东西就像超级稀疏和各种嘈杂的问题等等,但你还是知道协方差矩阵已经满秩了,突然间。
整个世界都有了新的途径,所以这是一个大数据学科,如果你想,我们可以有很多乐趣,那么如何进行单细胞转录组分析,这是一大堆预处理的东西,这是相当令人兴奋和有趣的,你知道我们必须重做简单的事情。
比如一次又一次的聚类,即使你应该认为这在二五十年前就已经解决了,但你知道有些特点需要适应,所以我们几年前就已经回顾过了,基本上你知道你首先做数据处理,现在它们是如此普遍,我们有一堆计数矩阵,基因,次数。
萨尔玛,你看现在它们更长了对吧,所以他们以前很高,然后你必须做各种预处理,比如QC,潜在地查看数据校正,可能跨批,通常是非常非线性的东西,正常化,特征选择。
然后典型的第一步是你把你所拥有的任何东西想象成一个结果,所以你做了一个二维的,常非线性降维,一开始我们讨论了很多,做那件事最好的方法是什么,但在此基础上做一些聚类,所以这是第一个无人监督的大事,记住。
对比一下,让我们说,我们在人口代码中看到的变化,我们没有关于细胞的特定信息,但通常只是细胞集合,所以这是一个固有的无监督学习问题的程序表示,对呀,这么简单的事,是啊,是啊,只需在数据中找到集群。
许多早期的论文都在处理,做一些比较之类的事情的理想方法是什么,在任何情况下,一旦你有了他们,你想识别他们,然后整个注释部分现在是一个更有监督的事情,假设您有一个带注释的旧数据集,你想转移那种东西。
这里有一些很有趣的问题,然后沿着这条路你做轨迹推断,组成,不同数据分析,只需简单的微分表达式,甚至这些类型的事情,他们都有点特别,因为你知道微分表达过去是我们做一个t测试,或者是更花哨的东西。
在那里你适应了负二分法,但在这种情况下你知道你必须做得更多,因为你可能想测试差异,嗯嗯,比如说,差异变动,这个,这是我认为有趣的方面,尤其是我的实验室一直在研究时间序列信息,在那个数据中。
你只是有一个静态的图片,但是如果你把东西对齐,比如说,呃,通过相似性,你可以学习一些关于细胞分化过程的知识,这已经是早期人们做代表的时候之一,学习,稍微复杂一点,时尚改编,我的实验室一直在贡献一堆东西。
一种更多的工具,呃,呃,呃,框架,我们一直在做的是Python中的Scan I单细胞分析,它本质上为您提供了一个工具库和一个经过调整的模块,在那里你可以做很多这样的步骤,并取得了巨大的成功。
真的很高兴有这么大的用户群,但我应该说是对的,可视化,然后这里呢,但也在下游,这本质上都是潜在的空间学习,和大多数当前的技术因素,呃,潜在空间部分,所以你想有一个很好地代表这些东西的方法,让我说。
事实到标准和最,但主要做的是一个k n图,所以你只看细胞外的相似之处,然后你就做了,比如说,社区集群是非常流行的东西,但我今天想谈谈,因为那是一个深度学习的讲座,是的随着关于这次爆炸的数据集的增加。
人们真的开始寻找,还有你的网络技术,比如说,约瑟夫附近,我的实验室,呃,以及其他许多人,所以我们是这个领域的前两个推进者,已经有很多后续行动了,本质上,您使用一个无监督的体系结构。
我想你们都见过这种类型的自动编码器,呃,输入数据的体系结构,比如基因时代,这里的单元格矩阵,然后你把它往下压,你把它吹向你,让他们通过这个瓶颈,所谓的权利,然后你有一个损失函数,使输出尽可能与输入相似。
如果你这样做了,让我们假设一切都是线性的,你会得到什么类,说这是一个建筑,我们只是一切都是线性的,只是线性权重,我们有一个均方误差损失,你会在那一层得到什么,主成分分析,对呀。
记住在较低维的方式下什么是最佳编码,关于均方误差,嗯,这是第一批主成分,所以你知道这有点酷,这个自动编码器推广了PCA类型的框架,它是泛化的,因为当它在这里添加非线性时。
特别是你还可以改变这里的损失函数,这是非线性PCA的一个非常漂亮的图片,如果你想,然后是参数化版本,与之相比,这很好,你这么说吧,反正你能用这东西做什么,因为它穿过了瓶颈,你实际上可以重建东西,你可以。
例如,估算信息,我一会儿会说一些关于那件事的事情,但非常有趣的是,你也可以看到这个瓶颈层,就像在PCA中一样,会有PCA空间,其中一些事情可能是有意义的,比如说,如果你在这里有一个分化过程。
我们只看到这些细胞异步执行某些操作的快照,是这样的细胞分化,你可能真的想,你可能会在这里看到这种类型的分化序列,所以无论如何,呃,周围的许多变体,他们不会细说的,但是我的实验室一直在做的。
我们采用了这个平面自动编码器架构并尝试将其应用于去噪,正如我提到的对,这东西真的很吵,所以我们采用了成本函数,均方误差,通常不适合这些东西,这是计数数据对吧,所以对于计数数据,这说不通,也许完美的感觉。
至少,除非它真的很有价值,均方误差实质上是指输出分布,是正态分布,对呀,所以也许你用泊松代替这个,或,在这种情况下,因为我们知道它是一个有点长的尾负二项式,甚至可能是锯齿状的,所以我们所说的。
我们生成了,这是卢卡斯的作品,西蒙后来去找奥斯汀教授和古钦,他实际上在波士顿的布罗德,但现在转向基因和技术,就像我最近听说的一群相当有名的人所做的那样,呃。
但是我们开发了一个叫做深度计数自动编码器的东西,它本质上只是一个具有自适应噪声功能的自动编码器,这里我们用零膨胀负二项式代替均方误差,然后你只是在实践中模拟平均分散辍学,2。
我们常常忽略掉那些中途退学的学生,因为呃,只是对于液滴类型的数据阴性就可以了,然后你得到了,刚才这个玩具数据,我想给你看很多例子,在这种情况下,我们有基本的真相,只是一堆现在,只需二维可视化细胞簇。
然后我们再加上一些辍学生,我们把它弄得很吵,如果他用深计数自动编码器去噪这种东西,我们得到了集群结构,或多或少明显,所有这些都不是唯一的旋转等等,但你知道你得到了集群,而如果你只使用均方误差。
你不能拿起那些东西,所以采用你的机器学习模型是有意义的,您选择特定的数据集,所以这很好,人们一直在用它,这不是超级琐碎的,当你真正应该做噪音的时候,为什么不呢?但我最感兴趣的是,在这件事上。
这个瓶颈层实际上做得很有趣,哦耶,我应该说这种方法,因为它是一个神经网络,对呀,它的鳞片像地狱一样,这是非常非常好的功能,那些基于k和n的东西通常有缩放行为,那不是超级好。
因为你知道它们需要经历成对差异,而你知道的小批量生产梯度下降法的规模真的很好,所以这是一个很好的财产,你只是从盒子里出来,但我想说的是,这个瓶颈层真的很有趣,例如,我们一直在做的,做。
我们一直在看PMC数据集,这些颜色只是不同的细胞类型,我们可以把它挤过一个二维的botnik,在实践中,你通常保持这个更高的维度,所以你从两万个输入基因开始,你只要去,就说五十或一百吧,但在这种情况下。
我们只是去做,然后你会得到一些这样的情节,看起来很像一个T SC,所以它找到那些细胞类型组,我们没有告诉它,所以这意味着瓶颈人似乎学到了一些关于这个生物过程的东西,关于血液中细胞类型聚集的病例,对呀。
所以我们一直在想,我们能在瓶颈层利用这些信息吗,这就是我的想法,所以你知道我们经常做什么,我不知道你是怎么做到的,我的通知,但我们经常会看到计算机视觉社区在做什么,因为他们已经在玩这么多东西了。
你知道也许有一个想法,我得承认我们的前六堂课用机器视觉作为一个很常见的例子,他很受欢迎,很直观,你知道我也应该这么说,视觉上最酷的是,当然你可以做卷积,所以你可以减少神经网络所有问题的参数空间。
去做一些事情,那种翻译,不变皮肤等,在基因调控中,我们不能轻易做到这一点,所以我们的网络往往比其他网络更紧密,但又一次,就看你们了,开发下一代卷积滤波器,实际上适用于基因组学和单细胞数据,等,是啊。
是啊,有人想这么做,我和你的同事有一个项目两个在这个方向,我觉得超级难,如果你对此有想法,我的知识,我其他时间休息,这些网络平滑了事情,我一直在尝试,我们从来没有出色的表现,我们没有推那么多。
但我想现在有了这么大的数据集,再做一次的好时机,所以我们把学生和,呃,一些客座讲师,所以如果你愿意监督一些项目,我相信学生们会很高兴能和你一起工作,但在这些虚拟的日子里,你知道这并不重要,所以是的。
我会,我会,我很有兴趣,也很乐意和你谈谈,所以让我把这个想法说清楚,我发现这是一个很好的,你可能听说过域适应,所以就拿一个布景把它的风格转移到一个新的,比如说,在这种情况下的绘画,呃,它是。
这是计算机视觉中的一个数据集,面部训练,这个家伙代表了现在戴眼镜的男人阶层,他们在这个东西中所做的是在潜在的空间中进行算术,减去一个不戴眼镜的人,又加了一个不戴眼镜的女人,你瞧。
你从戴眼镜的女人身上得到样本,那很酷,对呀,所以你把这个仪表的概念,在那里你所知道的,如果您在像素空间上这样做,因为鼻子,i无论比率如何不同,这根本行不通,它在潜在的空间中工作,所以我们一直在问自己。
做什么,对细胞的补充是什么,假设我们有一个细胞经历了一些扰动,或者药物刺激,让我们说一个全面的疾病,或者我们减去的任何东西,然后在基态下接地电池类型,并添加不同的电池类型,我们能预测这种细胞类型。
我们可以预测,或者我们可以解释,我们可以试着解释,所以这有点,呃,呃,预测型问题,我们现在利用扰动,就像戴眼镜一样,我们一直在考虑这个问题,我们也可以说,也许更复杂的风格转移甚至跨越,呃,一个物种等等。
这就是建筑,只是潜在的空间,算术,所以这个我们称之为Gen的东西的想法是由Mo工作的,呃,一起呃,亚历克斯的高级职位转到了一家初创公司,那实际上也是波士顿的名人,呃,我我应该提一下我有时为他们做顾问。
所以我不想为他们做广告,但无论如何,这一代现在正试图模拟这些扰动效应,假设这里有无扰动细胞和扰动细胞,呃,你有一堆这样的问题是什么,一种新的细胞类型会如何表现,你可以想象,如果你能够有力地做到这一点。
你可以放大和加快各种药物筛选,在你知道的地方,如果您想在特定的响应中有空间,呃,这是不能放大到手动完成的事情,所以如果你能在硅胶中做到这一点,这可能有相当大的力量,所以我们所做的就是被编码。
我们不用飞机,CA,我之前给你们看过的一种建筑,但是生成版,让我去找费边,让我问一个非常有趣的问题,C基本上是在问,你对每个细胞都这样做吗,对于每种单元格类型,对于所有单元格,共同。
您在什么级别应用此表示,学习,是啊,是啊,这是很重要的,所以我们输入的实际上是一个矩阵,其中每个单元格获得单独的列,所以你知道,本质上是在梯度更新中学习神经网络的问题,每个细胞分别通过,没有办法。
我们真的可以对细胞进行分组,细胞类型除外,但是我们会把数据偏向于某种类型的预聚类,有些人真的在做这件事,那也是有原因的,但我们不把它们分组,所以这是真的,但有变化是很好的,所以一切都是正态分布。
在那里对东西进行了取样,会很无聊的,它不会找到一个好的代表,所以它需要看到很多变化,比如细胞类型,但也有,你无法想象我在这个社区里呆了多久,人类定居者一直在讨论什么是细胞类型。
因为事实证明这些东西是流动的,对了,有什么东西,在细胞周期阶段之间有一个细胞状态,等等,但无论如何,如果你有变化,你只是试着利用,是啊,是啊,所以我们在这里试图做的也是,我们输入所有这些数据集。
对它们进行编码,那么也许我们希望我们得到线性化的潜在空间,我们可以在哪里做这个算术,就像我们之前看到的图像一样,所以我们了解到在这种情况下的扰动效应,真的是字面上的,因为我们本质上应用了这个线性算术。
所以在此之前,你假设你得到了一个方向,受扰动效应支配的,然后我们把这个应用到新的,我们只是解码,这是惊人的强大,所以这真的很成功,所以这就是我们所说的s gen,这是一个变分自动编码器。
利用这些潜在空间向量算法,你实际上可以做样本外预测,我们最近与Facebook合作扩展了这一功能,朝着一个我们真正可以做的模型前进,呃更复杂,真正的潜在空间分解,但现在我们正在这样做。
只是为了向你展示这实际上是有效的,让我展示一个例子,其中我们有PBMC数据集,不受刺激的和受刺激的,好的,所以这是这是控制,这是刺激,颜色将指示单元格类型,然后我们问,我们能重建一种细胞类型吗。
比如在这种情况下,这需要阳性C四个阳性T细胞,以刺激的方式把它们排除在外,我们希望我们真的做了机器学习中所谓的样本预测对吧,这不是一个不可能的三合会问题,事实证明,这个预测真的很符合,不仅就平均值而言。
但也大致或不那么糟糕,至少在方差的分布方面也是如此,然后我们可以在所有不同的地方这样做,在这种情况下,每个点都是一个基因,我们看到我们在各种学生中都做得很好,所以如果你把我们的预测和真实的预测进行比较。
我们可以很好地重建这个,然后我们系统地这样做,不仅对CD四个阳性T细胞,在那里你可以争论,也许这只是一个线性移位,但我们为所有不同的拒绝者做这件事,我们看到我们可以重建不同类型的细胞,有趣的是。
如果你现在放大并检查,比如说,在这种情况下,我们看看C D四个阳性T细胞的重建,我之前给你看的,这是G15重建的,但例如,这个上背部三A甚至没有用这个积极的表达,呃看到阳性T细胞。
所以你也不会真正估计它,而在树突状细胞中,阳光是可以的,但你也重建了这个苹果,这是不同的,所以它是,这真的是一个关键点,我们还没有学到比线性签名,因为这个签名和这个不一样,你不学线性的。
但你学会了一个细胞类型特定的,它只是线性潜在空间,而是因为解码,它在基因表达空间中变得非线性,这就是为什么你可以有细胞类型特定的反应,我认为这实际上是相当漂亮和酷的财产,我认为有潜在的扩展。
因为你知道你刚刚看到这只是为了rna,所以你不能把它与攻击和其他类型的双重测量结合起来,你可以把它和空间结合起来,在那里你可以添加卷积等等,所以我不想花太长时间,所以让我再给你们看两张幻灯片。
嗯所以是的,我们在报纸上有一堆申请,有一些限制,所以我们目前一直在努力扩展过去的多个扰动,也超越线性,潜在的空间,我只想说的一件事是,因为这个领域已经变得如此受欢迎,很多人已经开始产生这样的东西。
你知道吗,这叫做我们人类的集合,就像一个周期性的元素系统,但不是细胞类型,因为最后你知道,当我们做基因组学的时候,我们不希腊集群,我们没有注释,每个新的DNA序列,新的权利,我们只是把信息传递给。
所以事实上,如果你想,这有点牵强,但你知道基因组学,我们做转移学习,对吧,所以一旦我们有了基因注释,我们只是重用这些信息,我们也想为卖家做同样的事情,还没有发生,但这些地图集正在生成,例如我。
涉及到长长的地图集,我们也将此应用于Covid等,所以有一堆很好的论文在合作,但是使用这些地图集有一些挑战,因为每一张地图看起来都不一样,如何也处理分布式数据,所有这些都是人类数据,因此。
您可能无法有力地分享这一点,你如何让这些地图变得容易获得,你想有一个谷歌地图,但不共享每个单独的采样细胞,那一定是太多了,为此,我们一直在想同样的新网络类型的想法,这就是我想在这件事上给你看的。
所以这是一个扩展,它叫Gen,它是,就在外面,我不会给你们举例子,只要给你看看概念,我们将参考数据集用于我之前向你们展示的相同类型的学习,除此之外,我们现在添加了一个条件,即,每一项研究。
它被称为条件变分自动编码器,让我把这个东西上传到存储库里,所以您的单元格类型映射,只是编码器,或者解码器,取决于你想要什么,但不是样品,所以大样本的所有信息都进入了这个模型,这就像超级有用的。
因为他们可以扔掉所有的样本,一旦你有了这个,你可以做你的风格转移,在这种情况下,因为研究受到影响,然后我们需要做我们所说的建筑手术,所以我们添加查询标签,不会用那个做这个,但本质上我们可以改变。
我们也可以分享这些变化,你实际上可以应用这个,这就是我们在环境中迁移学习的想法,我就跳过那个,我们也有一个很好的模型动物园来做这件事,但我我更喜欢和你说得慢一点,所以呃,我来总结一下。
我认为潜在空间学习和单细胞基因组学真的是一个有趣的领域,因为您基本上可以使用自动编码器的各种扩展,当然也包括真正的生成模型,CN是我们当时一直在做的简单生成模型之一,我们一直在扩展潜在空间学习。
如果你有兴趣尝试一些东西,但你不想真正进入歌手的行列,我们一直在想一个模型动物园,我听说你,我敢肯定就在一周前,对是的,的确,我知道如果他提到他的键盘,否,他没有,但是呃,我其实是同班同学,信不信由你。
朱利安·盖尔,当我们真的很老的时候,我们是同班同学,不可能,一个小的,他当时提到过你,但我不知道是同学,是啊,是啊,少年,你知道那对他来说是件大事,所以我们谈了很多。
我们一直在尝试为单细胞表达谱做一些相关的事情,这个火,在希腊语中是球体的意思,所以我们想模仿关键的东西,对呀,呃很容易给你,一堆数据集来试用,不管你想出什么花哨的主意。
我们有一些关于空间数据和可解释性的扩展,不会提及,这就是巴伐利亚一直以来的样子,你知道我们必须保持社交距离,但是是的,但仅此而已,谢谢鸟类,非常感谢,这真的是惊人的,我知道我们的空间不多了。
但既然你提到了Kipoi,意思是花园,和Sfera,意思是恐惧,我不得不说,今天是希腊革命两百年的时候,呃到今天,所以说,哦,是啊,是啊,今天早上我在收音机里听到的,是啊,是啊,真,哦。
你可能真的在西海岸,但他实际上是法国人,我只想说你知道,欧洲在逆境中团结一致是今天值得庆祝的一件大事,在希腊人之间,法国人和德国人,无论如何,非常感谢费金,很高兴见到你们,我回到家人身边。
所以我不得不登录祝你好运,再见说你欢迎欢迎,所以说,呃,把它拿走,只要分享你的屏幕,跳进去就行了。
所有的权利,嗯所以嗯,是啊,是啊,谢谢。谢谢马诺利斯邀请我,我看了一下,你知道吗,就像班上的网站,我想说我会非常兴奋,你知道五年前上过这样的课,我得说我也会的,这就是我们制作它的原因,所以这很棒。
今天我将展示我的一些作品,这与费比安的所作所为密切相关,我猜,也许这个演示会有点进入,贝叶斯建模和应用统计的更多细节,这就是我攻读博士学位时一直在做的网站,但我将讨论Vies在单细胞数据中的应用。
呃所以总的来说,呃,这是一个非常合作的,呃,项目的收集,呃,我和研究生们分享了,和来自法国的硕士生,伯克利大学本科生和教授,所以我一直和皮埃尔·亚当一起工作,奇林和加伦,嗯,而且,呃,杰夫·迈克和这里。
所以迈克和我的两个PH附近,d,顾问和杰夫基本上扮演了顾问的角色,他现在是密歇根大学的教授,所以呃,呃,今天我想谈谈很多事情,呃,我们,你知道吗,我想重点更多的是,呃,呃,慢慢地把事情一件一件地。
我希望你能减少这些幻灯片,好像你没有时间做每件事,但我基本上喜欢设置场景,为什么将VAS应用于单个单元格数据是有意义的,从建模的角度来看,那我来谈谈,嗯一个CVI。
以及我看到的许多其他VIE的扩展或失败模式,我们试图纠正,所以我们走吧,所以,做单细胞转录组学的关键思想,细胞共享相同的DNA,但它们有不同的功能,如果我们看看,例如我们左边的H和E染色。
我们看到很多不同的颜色密度,这意味着不同类型的化学物质,糖原学与组织,但本质上这意味着所有这些细胞都在一起工作,但它们是非常异质的,所以我们可以有很多问题,对吧,所以我们想了解。
我们在这个组织中有什么类型的细胞,这个细胞有什么功能,呃,本质上,这是一个多发性硬化症模型,所以我们想知道,它是如何从健康组织变成发炎组织的,所以呃,单细胞帮助,我觉得,呃,你知道的某种类型。
这个问题的答案,它的工作方式是,你可以把你的组织分解成单个细胞,例如发炎的组织和健康的组织,然后你可以运行这样一个单一的RNA测序管道,有很多,但你得到了一个结果,在右边,它基本上是一个计数矩阵。
给出每个细胞,嗯,你有多少次,你知道吗,你必须捕捉与给定基因对齐的抄本,所以呃,对我来说真正令人兴奋的是什么,尤其是当我开始读研究生的时候,作为一名计算机科学家的第一件事,令人兴奋的是,呃。
一百万细胞的测序,来自十倍基因组学的U,你知道,表明我们需要制作算法,刻度,作为一个统计学家,第二件事很有趣,我们可以对很多事情进行排序,呃,或者我们可以从单细胞中测量很多东西,干扰或蛋白质和转录组。
还有很多其他的东西,所以,呃,所以有很多,嗯,你知道,在我们把生物问题转化为算法查询之前,它们就已经被制定好了,嗯,就像没有确切定义,但我们可以从这个到数学和贝叶斯统计。
所以基本上我们有细胞水平的查询和基因细胞水平的查询,单元格级查询的工作方式是,呃,我们想,比如说,将细胞分层,对呀,我们不知道细胞类型是什么,呃,或者我们不知道如何识别细胞状态。
所以我们喜欢把细胞投射到一个低维流形中,这是正确的,当你听到Pciva是所有这些类型的东西,嗯,但我们想做更多的再融资分析,有些人做轨迹分析,还有很多你可能在课堂上见过的其他东西。
另一项重要任务是协调或整合若干数据集,所以我相信我会,本质上,我们有数据集特定的偏见,嗯,这使得,呃,呃,你知道,来自单细胞的类似测量,可能没有直接关系,从一个数据集到另一个数据集,这些被称为批量效应。
所以我们想提供一个嵌入,这在不同的实验中是相关的,然后我们有注释问题,我们想,比如说,一个数据集被注释,这是很难做到这一点,这是呃,是啊,是啊,在以好的方式做这件事之前,所以一旦我们最终注释了数据集。
我们想把注释转移到其他数据集上,嗯,然后关于基因细胞水平的任务,其中之一可以称为归一化或归责,基本上是这样的想法,嗯,我给你看了这个计数矩阵,大多数都是零,它们是从随机过程中取样的。
对泊松或负二项分布的权利,我们想知道,比如说,分布的平均值以更好地了解,就像,什么,基础分布是什么,更特别的是,我们想获得这个发行版的快照,但是它是如何随着技术效果而调节的,例如,移除技术工件。
如果我们能做到这一点,然后我们可以做最重要的事情,不知何故,呃,基因细胞水平查询,就是微分表达式,例如,我们有两个单元格或求解类型,我猜是两袋牢房,我们想知道哪个基因彼此有显著的不同。
这是一个假设检验问题,今天我将讨论所有这些问题。
但目标是这样做,你知道,以概率的方式,以及我们将如何做到这一点,我们要在那里建立潜在变量模型。
单细胞分析可能很复杂,原因有几个,第一个是,是啊,是啊,我们有大量的技术噪音,所以我今天要讲的第一个技术噪音是可变的,排序死亡,所以也许你在课堂上看到过这个,基本上是从给定的细胞。
你可以得到一千份成绩单或一万份成绩单,和大约一万五千份成绩单,它可以给你一些生物信息,但大多数时候我们想纠正它,因为它可能是微分表达中的一个混淆,比如说,第二种技术噪音是已经提到的批处理效应。
此数据集特定偏差,那么重要的一点是什么,数据来自这个多元计数分布,它是高维的,然后嗯,我们在一个政权中,呃,分布的平均值向零移动,这使得测量,呃,真正的非高斯人。
所以我们要认真思考我们把什么类型的发行版,你知道的,呃,在这些生成模型中,然后最后一件事是,是啊,是啊,正如我已经说过的,呃,我们需要可伸缩的方法,我们要记住,规模是数百万样本。
所以有许多标准的机器学习方法应用于单细胞,其中一些是更传统的统计方法,这一切都覆盖,但我要呈现一个简单的,你知道的,就像一个,所以首先,嗯,我们有计数,我们想让他们正常化,有很多很多的方法来做这些事情。
但假设我们只除以,在给定的牢房里的成绩单,我们应用一些对数变换使数据看起来是高斯的,以某种方式,我们可以应用PCA来减少数据的维度,我们可以应用一种算法来校正批量效应,这么多人,比如说,你知道。
就像在一个数据集中创建一些图表,用PCA,另一个图上的另一个数据集,做一些图形匹配,这些算法在这个领域真的很受欢迎,然后我们可以集群,你知道,就像校正的潜在空间来识别细胞状态,最后我们可以回到原始数据。
计数并执行微分表达式以命名单元格状态,你知道,T细胞cd,或类似T细胞的子集,炎症,等,嗯,不知何故,我从,你知道,就像五年前,当我了解到单细胞是,嗯,呃,等一下,所以说,为什么我们需要,你知道。
就像改变数据这么多,呃,为什么我们需要应用不同的算法也许你有不同的假设,比如说,微分表达式建立负二项式模型,这真的很不错,为什么我们不能回收它来做所有其他的事情,所以关键的想法是。
我们能不能为整个管道找到一个统一的建模假设,嗯,这对我来说很有吸引力,因为这是一个可以工作的想法,你知道事情从哪里开始,正在看PCA,所以我写的,我在方程一中所写的,这里U是概率PCA的生成模型,嗯。
你已经可以看到如何改进这种类型的模型,所以我写的第一件事是嗯是的,所以一点点,呃,x的p是高斯分布,当你积分z时,我们知道表达水平不是很高斯,所以如果我们想适合这个模型,我们需要将数据规范化,等。
我们希望以某种方式避免,我们可以做到这一点的方法是用计数分布来代替它,并应用一些特定的推理键,那么第二点呢,嗯,很难假设线性,基因表达水平的平均值与潜在变量之间的关系,尤其是因为你知道你可以有两个基因。
呃,你在,在定义细胞类型方面,对如果这个基因在,那个也是,但不是这个,所以我们想扩展这个线性假设,最后一件事是,当人们应用PCA时,它其实是,嗯,我是说,你从PCA得到的相当于用,当西格玛为零时。
我们我们,我们失去了这样一个事实,即我们最初是在用概率模型工作,这对于许多应用程序都很好,但他们中的一些人实际上,获得测量的不确定性真的真的很重要,特别是对于微分表达,这将在以后发挥作用。
所以说,改进的空间是构建一个可伸缩和一致的框架,用于以概率的方式分析单细胞数据,这就是为什么,这就是CVI背后的所有想法,以建立一个深度生成模型,你可以调用一个花哨的PPCA来基本上解决这个问题。
所以现在,我要快点走,通过几张贝叶斯建模的幻灯片,这个想法是我用的,你知道和我的合作者谈谈CVI,等等,所以我想把它作为一个,作为工作的遗产,你们中的大多数人已经知道图形模型是什么。
所以在这个图形模型中,所有节点都是随机变量,和年龄,边缘编码条件依赖,所以这里,基本上你可以阅读这个图的方式是,您希望将一个节点分解为其父节点上每个节点条件的乘积,图形模型很有趣。
因为您可以编码许多概率属性,比如说,如果你去掉一条边,然后你添加条件独立性,呃,你限制,你知道的,你正在处理的概率分布的类别,这是一个比以前更简单的模型,你也可以做的是,当然你可以添加常数。
这些常数可以在过程中学习,它们可以成为可能性的参数,您可以有独立的复制,所以在简历中,比如说,所有的基因都是独立的,有条件独立,在潜在的空间上,一些节点,我们不遵守每件事都是对的,其实其实。
如果你观察一切,那么我不确定你需要一个很好的模特,但这里有一些潜在的变量,一些变量是潜在的,其中一些是观察到的,如果你知道模型,那么你要做的是计算后部,对呀,那么变量的分布是多少,我没有观察到。
你可以用贝叶斯规则来计算,但当然,呃,当你使用贝叶斯规则时,你有分母,这是一个边际可能性,这种微不足道的可能性对许多人来说是难以解决的,很多情况下,实际上除了PPCA以外的大多数情况。
我给你看是因为它是高斯分布,所以这是一个话题,MCMC方法以及变分推理,在CVI中,我们使用变分推理,这就是我今天要呈现的,所以变分推理背后的关键思想是,对于每一个观察,我们希望每一个观察x。
我们要计算后部,所以我们无法计算,我们要近似它,为此,我们将放置一个熟悉的发行版,b,我们要找到点,在这里最小化某个函数的Q星,这是一个K向后的发散,本质上我们在这里做的是。
我们把推理问题转化为优化问题,所以到目前为止我们还不知道有多有趣,那是因为我们不知道如何驯服,优化问题是,嗯,因为我们选择尺度发散,它变成了一个简单的优化问题,我的想法是,所以你看方程二。
我们想找到最小化KL的Q星,立方劳动分歧实际上,嗯是对数比的期望值,所以对数是态射,对呀,所以比例来了差异,你得到方程三,然后你可以使用条件密度的定义来得到,从方程三到方程四,你可以注意到在方程四中。
我们有这个证据项x的log p,这不依赖于变分分布,所以我们可以把它从优化问题中拿出来,而不改变Arg min,然后我们得到方程五,在方程五,有趣的是,一切都很容易处理,因为我们知道模型。
模型是完全指定的,z和x的p,关节,呃,变分分布是我们控制的,所以我们可以解决这个问题,嗯,效率或多或少,但我们我们可以,这是我们现在可以解决的问题,这就是为什么变分推理变得非常有吸引力。
那么现在它是如何融入,v,好吧,所以在,比如说,呃,在这里我要介绍,概率PCA的扩展,其中呃,我们去掉啊两个假设,所以其中一个是,我们有一个线性函数来定义高斯分布的平均值。
在这里我们可以用神经网络来指定它,嗯,这就是我们这里的部分,我们可以用另一个神经网络来指定方差,它看起来的样子,所以说,这是一些天文学数据,你在潜在的空间中取一个点,到潜在空间的每一点。
你绘制一个平均值和一个方差,然后模拟新的数据,你可以从它身上取样,你得到一个恒星的图像,所以我希望我在这里放了一个单元格数据,但看起来就不那么好看了,我们没有那些图像,对呀,嗯,但是是的。
这基本上是VA在做什么的直觉,嗯,现在我们被另一个问题困住了,我们不能只是申请,vi,就像我之前给你看的那样,原因是我们也需要学习模型参数,我们这样做的方法是最大限度地利用证据,所以x的对数p,呃。
当然,我们不能最大化这一点,所以我们需要用变分分布来分解它,这里从左到右的不等式,我应用延森不等式,但在你的课上,你刚刚看到了日志证据的完全分解,使用变分分布,这两个观点非常非常相似,我们右边的东西。
这里有一些我们可以在pytorch或tensorflow中编码的东西,嗯,优化是非常简单的,呃,所以现在我们又有了一个热度,那就是我们有几个观察,对于这些观测中的每一个。
我们都需要得到一个参数正确的变分分布,但我们在VAE中所做的,我们把变分后验的所有参数,使用一个新的使用两个神经网络,所以如果我们有一个高斯变分族,我们需要一个高于平均值的参数和另一个用于方差的参数。
所有这些都只是从输入数据到这些参数的映射匹配,它被称为许多,很多名字,其中之一是摊余变分推理,另一个是自动编码变分贝叶斯,这就是VA中使用的,所以现在我们可以,我们可以谈谈CPI,基本上是把所有的。
你知道吗,比如技术效果,我在将它们合并到图形模型之前进行了讨论,呃,那实际上是一个va,我们想写一个生成过程,也可以用图形模型编写,就像我之前展示的那样,这个想法是,我们有给定细胞的基因表达计数。
在给定的基因中,我们有批处理标识符,生成过程如下,首先,我们对单元格的嵌入进行采样,它使用了与概率PCA几乎相同的先验,或者之前展示的另一个VA,您可以更改此优先级,我稍后会讲一个例子,嗯。
然后我们有一个缩放因子,所以这是一个标量数l,从一个肥尾分布中取样到,解释给定单元格中抄本数量的许多变化,这就是我们所说的库大小,我们有一个神经网络,将UZ和批处理标识符映射到,呃。
我称之为RAO行的量是一个归一化表达式,这意味着在这个神经网络的末端有一个软最大非线性,这意味着一行是每个和为1的单元格的向量,它给你预期的,呃,每个基因的表达频率。
然后我们可以用对数正态分布的样本缩放这一行,这就给出了负二项式的平均值,我们有一个色散参数,所以,这就是我们如何拥有这个,呃,现在我们已经完全指定了生成模型,我想提请你注意的是,所以实际上费边。
刚才谈到的是,这里我们使用条件va,这意味着我们学习一个条件分布,x的p给定z,给定z和s,x的p,我想um和z是潜在变量,观察到S,S是这个数据集,呃标识符,这就是我们处理数据集的方式,特定偏见。
所以当我们这样做的时候,我们的潜在空间对技术效果变得不变,这是一个批量效应,那么现在这个模型的好处是什么,我们有一套建模假设,这是所有任务的共同之处,所以现在我要试着说服你,我们可以解决之前所有的任务。
所以我们在讨论分层和嵌入,是呀,我们可以做到这一点,因为对于给定的细胞,我们可以从后验分布中取样,或者得到,嗯,我谈到了协调,所以我们确实删除了这些数据集,特定偏见,因为我们以他们为条件。
此批处理信息的条件,我们想正常化,所以我们确实正常化了,因为我们以L为条件,我们在神经网络的末端还有一个软最大值技巧,嗯,当我们想把我们能做的,你知道的,行样本,这给了我们一些归责。
我们也可以把它的意思,如果我们想,然后当我们要做微分表达式的时候,嗯,是啊,是啊,我们可以制定一个特定的baan,假设检验问题,我们可以根据角色,我们可以解决它,这就是我们如何在CPI中做微分表达式。
所以呃,我们可以对这个模型进行推断,就像我给你看的那样,嗯,有趣的是,它的工作原理很像普通的VA,除了这里我们有不同数量的神经网络,我们需要一个神经网络来计算平均值,和变分分布中Z的方差。
平均值的神经网络,变分分布中L的方差,然后一个编码的神经网络,uh是负二项式的归一化平均值,在最初发布的CVI中,呃,我们有一个零和五十的负绑定分布,你可以添加另一个神经网络,但为了简单起见。
我只是没有在这里暴露它,这样你就可以看报纸了,所以如果我想说服她,让你相信算法是有用的,我们想研究潜在的变量,对呀,所以第一件事是我们可以看看嵌入Z,有一堆基准,你可以看看,但我会很快的,但本质上。
即使我们有一个向正常的零1收缩的先验,我们设法恢复了原始星团,所以这是一个自细胞相似性,所有这些都是细胞类型,我们也可以重述一些发育梯度,这是通过查询变分分布的均值来完成的,那么呃。
我们可以看看我们的CV8在批量效果方面做得很好的地方,嗯,实际上,因此,在具有严重批量效应的设置中,cvi使用得最多,还有很多批次,这是因为它成为一种极其可伸缩的方法,与许多竞争方法相比,所以没有批量。
这是来自视网膜细胞的数据集颜色这里的数据集,右边的颜色表示单元格类型,所以我们想做的是混合细胞类型,对不起,混合数据集,但仍然能够区分细胞类型,所以如果你看看CVI,它看起来很好。
因为你可以看到细胞类型,但看起来很糟糕,因为所有的数据集都是分开的,如果你的pca看起来不太好,但是当你看到与批次一起申请的CVI时,这是没有批量更正的,它真的混合了数据集,但我们仍然可以看到细胞类型。
然后另一个潜在变量是RAO,呃,所以对于这个潜在的变量,对我来说,最令人兴奋的是看微分表达式,然后呃,我在这方面工作了一段时间,我要给你一点关于,比如为什么这是一个复杂的问题,但为了第一篇论文的目的。
我们所做的是我们有一些PBMC数据,我们观察这两个群体,cd 4和cd t细胞,然后我们计算了,你知道的,呃,我想呃,这是第二篇论文,当你有第三个,但我们提供了更改日志,这意味着在微分表达式中。
哪一个不是计算的标准度量,我们刚刚计算了两个细胞之间对数下降变化的后验概率,对于给定的基因,在RAO方面超过一定的阈值,说零五,嗯,这就给了你基因的排名,呃,你可以比较排名有多好,呃。
你知道就像我们正确的,所以正确总是复杂的,尤其是在这种环境下,如果你没有模拟,嗯,但你的所作所为,本文的目的是研究另一种技术和我的微阵列,稳定多了,嗯在非常特殊的细胞类型上。
我们基本上比较了基因的排名和CVI的排名,和其他与微阵列有关的方法,我们发现CVI的表现类似,如果不是更好一点,正在做排名,对我来说,令人难以置信的兴奋。
因为这证明了我们可以使用相同的模型来完成所有这些任务,最后我谈到了可伸缩性,在简历出来的时候,呃,所以你看这里,dca是法比安实验室的一种方法,这和简历是同时出来的,我想唯一的区别是这是一个自动编码器。
他没有使用,呃当时没有做批量效应校正,但是呃,但你看,这些是唯一可以扩展到数百万个细胞的方法,当然是用pca啊,而所有其他基于,你知道的,mccmc,或者倒置一些矩阵,或者是二次方的。
你知道在规模上或在记忆中爆炸,所有这些都被困在五万个细胞里,所以这是一个巨大的,呃,在所有这些工具中使用随机变化或推理的巨大改进,来自DAS,所以现在我要向我介绍,所以我将呈现,嗯,扩展,那是注释。
有几个数据统一场景,我想Five N已经谈论这个有一段时间了,所以我走得快一点,但你可以分析一个,呃,你知道同一个实验室的多个样本,这就是我在你可以协调不同实验室的数据之前给你展示的。
这就是我们在右边看到的,我们在这里看到,这是一次成功的手术,因为数据集又是混合的,但有些类型不是,还有两个目标,但是还有一个问题,也就是,呃,到目前为止我没有说话,就是嗯。
如何将标签从一个数据集转移到另一个数据集,我们用半监督的VA来做到这一点,所以有很多方法可以做这种工作,但他们与,嗯,你知道建筑图表和呃,匹配图形并传输,你知道,就像不同图形上的标签,嗯,作为警告。
因为嗯,它不能再执行微分表达式,不是所有的事情都在同一个管道里,我们真的很想推进这个想法,所以我们建立了扫描VI,扫描VI的工作方式是在X和S的顶部,你可以观察或不观察这个C星,它是单元格类型标识符。
所以N意味着不被观察到,所以你可以用它来做很多用途,比如说,一个数据集是部分注释的,你喜欢传播标签,或对一个数据集进行注释,另一个不是,嗯,所以我们做的方式是,呃。
我们基本上通过将z中的先验从各向同性改变来扩展cvi,对高斯混合的正常,我是说,让我们看看它不是高斯的混合体,是一个混合模型,这里的c变成了混合分配就像它来自哪种细胞类型,当你看不到是哪种细胞类型时。
你有一个变分分布的神经网络,用于细胞类型分配本身,嗯,所以你可以读这份手稿,这项工作有很多扩展,但这是一个非常强大的想法,我们在这里,我给你看一个例子,所以有一个很好的用例。
其中所有单元格中都有T单元格的子集,但你不知道它们是什么子细胞类型,基于一些表达非常低的标记基因,你也许可以注释其中的几个,但不是一切,然后可以使用NVI传播标签,它比只做聚类或分类要好得多。
因为我们可以利用所有这些灰色细胞的知识,它是超级半监督的,所以我们有一些分类的地面真相标签,我们这里的概率看起来很合理,然后我想给一个笑话,关于我使用CVI遇到的另一个问题,呃。
这是我写的第一篇机器学习论文,所以我在CVI的时候很感兴趣,把潜在空间的东西分解出来,我给你们看了一个例子我们可以排除批量效应,事实证明,在很多设置中,批量效果实际上很容易,但真正困难的是。
一些连续的信息,或者一些类似于其他协变量中的对齐错误,所以我再给你们举一个例子,其中嗯,所以这是同样的问题,我们如何获得独立于讨厌参数的表示,关键的想法还是条件反射,所以,比如说。
在这个机器学习启发的例子中,计算机视觉,我们想,我们有几张不同人脸的照片,所以人的身份,y,但是我们有不同的衬里条件,所以所有这些角度,呃是一个光的角度,我们希望有一个嵌入,你知道就像Z 1。
这对人的身份有很大的歧视,但与衬里条件略微独立,如果你从盒子里拿出一个VA,所以CVI也是一样的,对呀,如果你想找到一个嵌入,这对细胞类型有很大的区别,但是不受细胞周期或其他因素的影响,现在呃。
你能做的就是建立这个条件模型,但是发生的事情是,你得到的嵌入仍然与,It’用这盏灯,有时是有时不是,但是批处理的效果,它起作用了,但这里确实有一个它不起作用的例子,在细胞周期中,例如也遭受了这个问题。
事实证明,这是一个问题,呃,这来自神经网络的过度灵活性,用于变分分布的参数化,嗯,它影响到所有这些问题,所以如果你想学习独立的表示,呃如果你想学不变量,这就是我提出的,甚至这种去噪的表现。
所有这些都是我所说的非常简单的变体,我在报纸上谈到了这件事,我有一个榜样给他们所有人,我们所做的基本上是试图限制搜索空间,对于变分参数,所以我们用黑线鳕的方式,我们强制执行声明,呃格式。
这独立于聚集的后部,我们的方式,所以说,有点复杂,因为嗯,我们不能仅仅通过看下限来强制执行这些陈述,所以我们在那段时间里所做的是使用十字架的速度标准,嵌入的协方差算子,你知道,就像发行版。
它是依赖性的非参数度量,我们把它加到下界,所以它给了你一个更宽松的下界,但它有更合适的属性,我们称之为HC约束VAS,所以如果你对这类事情感兴趣,我非常鼓励你看看这幅作品,但这是一个令人惊讶的例子。
我认为问题来自数据,但实际上它来自模型,所以这很有趣,然后我想介绍,呃,关于微分表达式的更多讨论,所以用我们做微分表达式的方式,在CVI中是一个贝叶斯模型选择问题,对呀,所以我们是,假设我们有两个细胞。
我们有各自的测量,我们有每个基因的归一化基因表达水平,我们可以做正确的模型,模型一寻找比增量模型更多的变化,寻找变化的绝对值小于delta,所以模型一,这个基因是差异表达的,我想模型不是零模型。
它没有差异表达,你知道我们能做的很简单,呃,做一个基本因素,所以似然比,我们可以给出一个阈值,比如说,如果超过十个,这是用很古老的文字写的,贝叶斯书,如果奇数比大于十,那么你可以说你的基因是差异表达的。
首先要注意的是,这种方法可能有偏见,因为我们计算海报概率的方式,我们需要插入变分分布来代替后部,所以如果后面是错的,我们不是,我们有麻烦了,第二件事是,嗯,这种方法的适用性有点有限,因为嗯。
很多人希望看到控制,呃,数量,他们知道所以事情,基数超过十是不可能的,你知道的,与控制完全发现率的测量相比,它没有那么忠实,所以我们花了很多时间思考如何控制完全发现率,或者用CVI做假设检验,嗯。
不知何故,这两个问题,这是一种,它是,这是家庭作业,如果你想或与,呃,准确计算后验期望的这个东西,所以你可以看到为什么第一点是相关的,对呀,因为我们用变分分布代替了这个,所以,罗斯福要做更多的工作。
所以我们的想法是计算这个东西,也就是,你知道的,MCCMC方法的面包和黄油,但你想用VA做,假设我们可以从变分分布中获得这些样本,我们可以先做几件事,我们可以使用插件估计器,对。
从这个分布中平均所有东西,或者我们可以纠正,我们可以使用自归一化重要抽样对样品进行重新称重,嗯,并按这个密度比称重这些标签,这样我们就可以把最有希望的样品留给他们,这些事情实际上并不完全适合香草VIE。
呃,第一个原因是呃,VAE拟合的模型可能不等于数据分布,这是我们在报纸上谈论的副业,但如果你找到一个更好的模型,计算这个微分表达式或者用vs做决定总是更好的,第二件事是。
变分分布和后验分布之间可能有一些很大的差异,所以现在它特别重要,因为嗯,虚拟推理的工作方式,它低估了后部的方差,所以如果你试图用它来进行重要的采样,认为你得到了对你的数量的无偏见的估计,嗯。
你有一个巨大的方差,因为你没有真正涵盖整个模式,或者你没有覆盖,你取样不够,你很本土化,而这种灾难性的表现,呃对于许多应用程序,所以我们要做的是,我想是A,我们考虑了所有不同的,你知道的。
比如证据的组成,所以这是对证据的分解,你在班上看到的对吧,比如证据,等弯头加反向刻度,呃,变分差,这是所有这些操作空白,我猜,第二你也可以,这是一个下限,因为KL是正的,但你可以有上限,呃。
所以这里我们有一个一定的上限,呃叫ubo,这两者之间的差距是前锋,kl发散度,所以这和预期有关,作为,你知道吗,然后我们在这里有另一个边界,也就是古巴,呃,基本上这两个量之间的差距也是负的。
所以这是一个上限,它与高平方散度有关,然后嗯,我们试图思考的,那些上界很有趣,因为嗯,而不是低估方差,他们高估了方差,对于重要的采样来说要好得多,所以我们想出了程序性的,你知道,就像呃,把那些想法。
嗯进入竞争和说,哦,所以我们可以用这些输精管做假设检验,首先,我们拟合多个V,每个V具有不同的变分分布,我们保持最佳模型的基础上,你知道你好可能性或任何其他确定的门,然后我们对这个型号再进行一次改装。
我们保持模型固定,我们学习不同的变分分布,然后我们使用多个重要的样本将所有这些建议结合在一起,我们在实践中看到的是,呃,比如说,呃,Vai a真的很擅长学习模型,所以我们把所有这些东西结合在一起。
呃和呃,我们有一些非常好的结果,关于控制完全发现率,与CVI和一堆其他东西,我时间不多,因为已经三十多了,但基本上嗯,我非常鼓励你看看报纸,如果你对此感兴趣,这篇论文也有一点理论,其中我们量化了。
你知道,就像重要采样的误差,使用浓度界限,啊,我们扔了一个新的VA在那里,使用kV i绑定,这实际上是相当新的,我们在PC和MNIST上也做了一些实验,那么,让我们看看,嗯,我现在应该停下来吗。
我有两张三张幻灯片,我想通过,但我可以把它们盖住,和,好的,这就是为什么,即使他们不得不,然后是两张幻灯片,我想第一件事是,我们真的试过了,你知道,就像所有这些文件一样,呃,我们也有你说的。
我今天给你们展示的所有算法,还有很多其他的,它们被编码在同一个代码库中,这意味着我们真的试图在实验室里做增量工作和内部开发,到达……,你知道的,与Pytorch的良好接口和加载单窖ASIC数据集。
用基本模块编码所有这些VAS,我们创建了一个叫做CVI工具的东西,对于用户来说,包含许多分析单细胞组学数据的工具,但对于模型开发人员来说,还包含概率编程语言的接口,因此。
在一行代码中更改简历是非常容易的,或者制作一个新的VAE,我想我们实施了十三个,在这个代码库中有10到13个遗传模型,所以我非常鼓励你去看看,如果你觉得这很有趣,还有一件事最后一件事是,呃。
我们写了一篇评论,试图过去,你知道,这些竞争的所有影响,以及分子子集中的甘斯,分子生物学的一个小子集,因为这是一个很大的区域,但是嗯,但是是的,如果你想了解更多,呃,我也鼓励你参观这个,呃,呃。
这个出版物是的,某某今天就到这里,非常感谢。
嗯好吧,所以非常感谢你,我们就会,我想呃,潜入一些数学,然后呃,你知道明天背诵的一些结果吗,所以我想人们会有机会真正问问题,所以非常感谢你真正投入到方法论中,然后呃。
我认为这与课程的许多不同方面都有联系,呃,为学生们润色,别抓狂,呃,你知道这是一个很大的数学,但我想呃,我们就会,你知道我们明天会更深入地讨论它,会有更多的机会潜入其中好吧,非常感谢,哦不。
你想在这里呆一会儿吗,我能让助教也留下来吗,所有的权利,谢谢大家再见。
P11:Lecture 11 - Dimensionality Reduction - 爱可可-爱生活 - BV1wV411q7RE
今天我们将继续讨论单细胞数据分析的主题,具体到降维,我们还有乔希·威尔士的客座演讲,我们将讨论一些监督和非监督的方法,然后一些线性降维和一些非线性降维,然后与深度学习建立关系,呃,嵌入。
正如我们在本节开始时所说的,有基因表达矩阵可以测量成千上万的基因,你知道的,成千上万的实验,所以用单细胞数据,这些矩阵基本上是,你知道的,呃。
可能有一千个或更多的基因在一万个或更多的细胞中在许多不同的条件下,所以你基本上可以把这些矩阵看作是沿着基因的维度,观察给定实验中所有基因的表达模式。
或者一个给定基因在许多不同细胞或许多不同实验中的基因表达谱,我们可以用它来将基因或细胞聚集在一起,或者根据基因表达对不同的细胞类型进行分类,或者基于细胞类型特异性表达的不同基因是什么。
所以我们基本上区分了以前聚类和分类的概念,所以在分类中你问,是什么基因允许我对特定的细胞进行分类,因为我不知道,第四层的神经元或兴奋性神经元,根据星形胶质细胞的基因表达模式。
或者什么是从头开始学习的细胞类型簇,我如何推断细胞类型,新星有时揭示了我们一开始还不了解的星系团,然后我们就可以进去了,然后嗯,发现,呃,后来,所以有了监督学习,你知道课程,你在寻找微分表达式。
而对于无监督学习,你事先不知道课程,我们今天要研究的技术之一是降维,为了揭示这些类,所以经常有监督学习,你在问,在一种细胞类型和另一种细胞类型之间差异表达的基因是什么。
或者在疾病状态下的神经元与疾病状态下的神经元之间,你知道的,非疾病状态,你知道吗,表达式没有差异的空模型,与相关模型相比,其中,比如说,在离对角线上协方差不为零,两个基因实际上是相互关联的。
或者基因在特定情况下发挥作用,所以你基本上可以用呃来评估差异表达的统计意义,这个假设检验框架,也就是问一个假设与另一个假设的对数可能性是多少,解释我们观察到的数据,所以说,这个。
是我们研究过的许多微分表达方法的基础,当然还有,问题是我们如何为微阵列实验建模这些读取计数分布,这与体细胞水平的rna搜索实验有很大的不同,与单细胞RNA搜索实验有很大不同。
所以你应该一直考虑数据的底层分布是什么,以及在数据集中观察到的分布最合适的是什么,例如,批量数据集和单个单元数据集最流行的方法之一,通过将来自每种单元格类型的所有数据聚合到一个伪批量配置文件中。
就是寻求,它实际上使用了这个负二项分布,也就是,的特定表达模式,呃,特定细胞类型或特定体积实验中的所有基因,从一个实际上更接近数据的分布中导出,然后你可以问一个特定基因的平均表达是多少,在特定条件下。
该基因表达的变化是什么,然后你可以在我发现一堆差异表达的基因后问,它们是否在某一特定类别中得到丰富,通过进行超几何测试,它基本上告诉你从该类别中选择K个基因的可能性有多大,在这个范畴之外的n减去k。
鉴于我在我的集群中选择了N个基因,好的,所以你是,你可以通过要求一些,在某一特定类别中至少有那么多,所以我们在整个过程中看到了各种形式的,你总是可以,当然,对于你测试的假设的数量是正确的,利用骨铁校正。
这基本上是在问,考虑到我测试过的假设的数量,我希望超过一定意义的数字是多少,或者你可以做其他类型的更正,专门要求,有多少人超过了特定的门槛,而不是我总共测试了多少,不那么严格的,基本上是在说。
给定我观察到的p值,高于特定p值的测试次数是多少,这是一个不那么严格的,这就是监督学习的全部内容,但是对于无监督的学习,又来了,大量的降维,即使它适用于两者,所以降维有很多不同的原因。
其中之一是整体数据可视化,能够以一种对我们来说直观的方式表示数据集,人类与研究人员,然后可以建立关于数据的直觉,然后对这些数据集进行统计测试,第二个是数据约简,所以我已经和许多团队谈过了。
他们基本上告诉我数据太大了,我该怎么办,一种方法是实际上降低数据的维数,在你应用你的监督学习之前,或无监督学习方法,数据分类,寻找趋势,寻找变异的主要成分,即驱动的因素是什么,数据集的可变性,可以让你。
比如说,区分一种疾病对你的全球基因的影响,表情模式,与男性的影响,女性,与年龄的影响,相对于你知道的批次,等等,诸如此类,所以理解驱动你变化的因素是降维的主要用途,以及简单地降低数据集中的噪声。
能够寻找数据的低维表示,理解噪声通常是一种非常高频的变化,在那些较低的维度中没有捕捉到的,有一个警告,当然啦,其中一些批量效应实际上是全球性的,是,所以它是一个,你知道的,这是一种权衡。
但是测量中的许多噪声不是由全局参数驱动的,使用这些降维方法将有效地减少或有时消除,所以这些例子是,数据中有多少唯一的数据集子集,所以当你做聚类的时候,你可以说好,嗯,似乎有20种细胞类型,或者你知道。
他们中的十五个,我们就可以,我们可以理解,其他五个都是新奇的,让我们更多地了解他们,这些细胞之间有什么相似或不同,我的样本中变异的潜在驱动因素是什么,是否有任何特定的时间趋势或,你知道。
与特定共因子和协变量相关,需要什么测量来区分两个不同的类别,所以这是特征选择的一部分,而是以一种积极学习的方式,你基本上可以说,如果我寻找,区分癌症的最佳方法,你知道,来自非应答者的免疫治疗应答者。
那么我应该在早期进行哪些测量来区分这些,又很有趣,非常非常普遍,我们会问数据有什么有趣的,新样本属于什么子集,这就是降维的意思,它基本上是在问,我可以把我的高维数据投射到一个低维流形中吗,呃。
沿着这个低维空间的变化,所以在这个特殊的情况下,实际数据是嵌入在三维中的,但你实际上可以找到一个低维平面它是通过这个三维空间形成的,数据真正所在的位置,所以如果我想问,这个圆相对于那个圆在哪里。
我宁愿只在那个平面的x y坐标上移动,数据真正所在的位置,而不是拥有完整的三维空间,这将导致空间中不可行的部分,那么什么是流形,它是一个局部相似的拓扑空间,每个点附近的欧几里得空间。
流形中的嵌入是一种结构,流形学习是关于学习一个低维表示,允许这种嵌入,所以这里的概念是,我们将获取非常高维的数据,并了解数据的真实维度,为什么我们要谈论真正的维度。
因为并不是每个基因都是独立于所有其他基因而变化的,基本上,如果你把细胞的基因表达模式拉向,我不知道,对压力的反应,基因不会孤立地做出反应,它们在路径上做出反应,它们在生物学上有意义的群体中做出反应。
这不仅仅是生物数据,所有真实世界的数据都是如此,在哪里,基本上,有一个潜在的真实维度的数据驱动这些关联,好的,所以让我们做一个非常快速的民意调查,呃,到目前为止,谁在跟踪这种多方面的学习,代表权。
有六十七只,十九,十五零,所以学习这些流形有很多方法,所以我们要讨论的第一个方法是线性方法,然后我们将讨论非线性降维,所以最常见的线性降维方法之一是主成分分析,主成分分析基本上要求什么。
数据是否有低维线性投影,这使我能够捕捉到变化的主要来源,在确定性的和可证明的最优中,所以主成分实际上是最大可变性的轴,所以如果你有一个用一堆随机变量测量的人口,这些随机变量表示真实种群所在的坐标系。
我们可能在测量,你知道的,嗯,假设两个不同的基因,但真正潜在的维度是两个基因,你知道彼此正相关或负相关,它们都是不同的,所以就是协变的量,我们感兴趣的是低维嵌入吗,不是整体,你知道吗。
数据集根本没有探索的完整空间,所以我们可以简单地,比如说,旋转轴并识别数据主要沿着此变化驻留,这可能是由接触病原体的数量驱动的,然后另一个变化可能只是,我不知道,细胞的固有或区域状态或类似的东西。
所以要基本上学习这些主要成分,你可以,嗯,一组线性坐标,它是原始空间的变换,所以基本上给定n维空间中的端点,你如何投射到一维空间,然后最小化到那条线的距离平方和,找到通过它投射的最佳线。
它允许快速最小化,假设这条线穿过零,它也是对称的,你不必担心积极和消极,所以传统的方法是,呃,看看这个,数据,那么什么是特征向量,特征向量基本上是变换向量,例如,该向量通过矩阵旋转的变换,剪切,缩放。
etc实际上只是一个线性乘积,原始向量的线性缩放,所以实际上是对这些变换不变的向量,那么问题是,嗯,你知道,什么是,比如说,一组的特征向量,嗯,你知道,数据集,那么你可以很容易地通过求解,你知道的。
从那个确切的定义开始,该向量的矩阵变换实际上是该向量的线性缩放,这意味着矩阵变换减去相同的次数,单位矩阵实际上为零,在m个不同的解下,它是简单的零,取决于方程的真实顺序,对于对称矩阵,特征向量是正交的。
就像你看到的那样,您在上一个示例中看到的,呃,然后实对称矩阵的特征向量是实的,由它定义的正矩阵的特征向量都是非负的,这是特征分解的基础,你基本上是在取一个大的数据矩阵,就是问,你知道。
就像我在第一张幻灯片上给你看的那样,表达式级别是多少,呃,在列中,对于每一个成行的基因,在每一种情况下,以列为单位,你现在可以开始将表达式矩阵分解为变化的主向量,次数,标量,次数,那个矩阵的逆。
所以基本上,如果原始数据是一个具有m个线性无关特征向量的方阵,即无缺陷矩阵,然后存在一个唯一的特征分解,也就是,呃,独一无二,如果特征值本身是不同的,如果特征值不同,那么它只是简单地在特征向量之间翻转。
相同特征值的,然后看相应的特征向量,其中第一个特征向量捕获最高特征值中变化最大的,第二个特征向量,第二多按相应的特征值,等等,等等,所以这个对角线矩阵基本上代表了这些,然后这些,呃,列是特征向量。
相应的标量是特征值,这基本上是捕捉数据集最自然的线性降维,你现在基本上已经把变化的主要维度,你现在可以开始了,这里的主成分,的,特征值,简单地说好,如果我们看看前两个维度的数据集,只是。
您现在有了原始数据集的最佳二维线性投影,最能捕捉原始变体的,如果你想要一个三维物体,你只要看看前三个维度,四维等等,好的,到目前为止谁和我在一起,呃,矩阵的特征值分解,好的,我们现在是七十四分。
所以这一切都很好,但那是为了对称,呃,那是为了,对于一般n乘n矩阵,然后我们就得求助于奇异值分解,所以对于对称矩阵,你基本上有一组u和u逆,它们是相同维度的,但对于非对称矩阵,对于非平方矩阵。
你基本上需要一种不同类型的因式分解,这就是奇异值分解的作用,那么奇异值分解所做的,它基本上说了我基因的特征向量是什么,我的条件的特征向量是什么,它们的组合是什么最能解释数据,所以不是只取一维的分解。
也就是通过这个方阵的对称性,相反,你会问一个维度和另一个维度,所以你基本上要做的是表示你的原始矩阵a,作为m乘m矩阵,n乘n矩阵和n乘n矩阵,所以这个u矩阵的列是a的正交特征向量,转置,y aa转置。
因为它立即变成了方阵,对于V,又是转置A的正交特征向量,它是一个方阵,所以我,乘m乘n,然后呢,转置的特征值是转置a的特征值,它们实际上是奇异值的平方根,所以你最终得到的是一个三向分解。
它再次给出了这里对应于前面特征值的奇异值,然后其他两个矩阵中的奇异向量,思考这一点的方法是,你有效地进行了一个复杂的矩阵运算,也就是,你知道的,把空间剪成并分解,你需要调整一个旋转,因为这是一个方阵。
另一个方阵的另一个旋转,然后缩放,你知道的,特征向量,奇异向量,所以最初的矩阵基本上是应用于x的v星的一系列运算,然后应用于此,然后你应用到那个,所以奇异值分解的优点是它适用于非,方阵,它可以让你,呃。
用你的奇异值表示,最重要维度的顺序,变化的线性维数,您可以以最佳方式将数据投射到其上,的,这里最重要的定理是,奇异值分解可用于计算最优低值,原始数据的秩近似,所以如果你想找一个。
原始n维数据集的维数k的表示,然后你基本上可以说,为了最小化我的原始矩阵U之间的距离,和修改后的低维矩阵,根据这个弗罗贝尼乌斯规范,基本上是欧几里得规范,你知道这里值的平方,使它们都是n个矩阵。
那么最优解实际上是由奇异值分解给出的,这是最优的线性降维,所以这样做的方法是,你保持前k个特征向量,前k个特征值完全不变,然后你只需将剩余的特征值归零,有效地归零剩余特征向量的影响,这就是你知道的。
对于这样一个维度的归纳法的最优解,所以谁和我在一起,奇异值分解的线性降维,然后把k加1归零,一直到剩余的i can值和,有效地消除了剩余特征向量的影响,但这基本上是主成分分析所做的,所以基本上。
这些原理分量正在寻找相应的特征向量,我在MNIST数据集中的矩阵分解,对于你的第一个习题集,这基本上是获取这些像素值并有效地投射它们,以保持这些表示之间距离的方式,所以如果你有,比如说。
以字符零为像素值的所有图像,他们实际上非常接近,呃,第八字,他们非常接近第六个角色,他们实际上离第一个角色很远,它实际上很接近第七个字符等等,等等主成分分析基本上捕捉到了变化的主要线性维度。
这是你用线性投影所能做的最好的事情,非线性尺寸内部缩小允许你有效地做的是,um消除了线性嵌入的一些约束,特别是,这个T分布,随机邻域嵌入是一种聚类数据的方法,在不同的尺度上保持距离。
而不是基本上说所有的距离都是一样的,这就是PCA试图做的,它说得很好,也许一些真正的近端,呃,数字应该更紧密地聚集在一起,比如说,所有的零都非常,非常接近,然后你要走一段距离,在你去六和八之前,等等。
所以也许我想,然后呃,保持近距中所有零的接近性的映射,以及近在咫尺的所有物体的接近程度,但不太关心中长途关系,这就是TSI允许你做的,基本上可以让你把一个非常高的维空间,例如。
每一个基因的表达都有两万维,然后把它映射到一个较低的维空间上,在那里,假设这里最接近的点仍然是这里最接近的点,不用担心更长的距离,所以呃,这个嵌入允许您做什么,定义你关心的距离和距离保持的半径。
您设置了特定的带宽,这样,我们将要测量的条件将有一个固定的,邻居有效数,你可以说我想成为最接近,我最接近的五十个细胞,在那50个最近的细胞之外,我不太担心距离,所以我们要寻找原始的非常高的维空间的投影。
进入一个较低的维空间,在新的较低的维空间中保持这些成对距离,与原来的空间相比,所以您想选择一个嵌入,问题是,这里的概念是,我不在乎数据点去哪里,我只关心相似的数据点彼此接近。
我不在乎在那个非常高的空间里的单个细胞去了哪里,或预计,我只关心有相似表达模式的细胞,在这个一维向量中彼此接近,所以我们要有一个原始距离,这基本上告诉我这些点有多不同,i从点j在其x坐标空间中。
双维原始空间,与所有其他不相同的点相比,所以基本上i和j之间的距离相对于所有其他点的距离,基本上所有的,你知道,我关心的另一点,呃,对于所有对点,你知道,k,呃,l,以及这些数据点在低维空间中有多相似。
你知道的,或多或少相同的公式,然后呢,这里的关键思想是低维嵌入将使用一个学生,t分布,这就是T分布随机邻居嵌入的名称,避免挤迫,所以你基本上把尺寸推出去了,所以基本上高斯分布是蓝色分布。
就是把东西压得很近,但是T分布允许你做的,通过有更宽的尾巴来把东西分散得更远一点,所以说,映射实际上是非线性的,您只需搜索所有可能映射的空间,为了找到它,您基本上可以使用渐变方法来找到这样的嵌入。
并寻找一种最小化成本函数的方法,最大限度地减少原始空间和新空间之间的KL分歧,所以新的低维距离是p j,然后原来的高维距离是q ij,你要找的是这么大的,距离由,呃,你知道的。
小的qijs和小的pjs是由,如果如果小,如果大的PJS是用小的QAS建模的,那么你有一个非常大的惩罚,因此,把遥远的点带到彼此靠近的地方是不可以的,但是把附近的点分开是可以的。
所以当我说最近的点聚集在一起的时候,但中距离实际上可以,你知道吗,推开,那么这个随机分布的,随机邻居嵌入,它保留了数据的局部相似性结构,你在梯度中搜索,你基本上是在试图优化这个低维空间的坐标,y。
通过取这个成本函数的梯度,相对于你如何投射数据,所以你基本上是在搜索可能的投影空间,通过看这个成本函数和导数,基本上是,你知道这些距离和这里的原点之间的距离,好的,所以这让你可以有效地搜索。
这样一种低维嵌入,这些,呃,局部的相似性实际上会被保留下来,因此,当您将相同的方法应用于相同的原始像素时,MNIST的明智数据,你知道的,手写数字,数据集,你看到的是零最终形成了一个非常,非常紧的簇。
尽管其中一些实际上与六非常相似,这实际上被推到了一边,艾滋病被推到了一边,所以6、8和0都在空间的同一部分,原来是我们现在失去的东西,但我们不在乎这些全球距离,相反,我们关心的是这些距离的局部相似性。
所以我们基本上优化了这个投影空间,这是一个非线性的,呃,嵌入非线性二维,这个非常高的二维向量的嵌入,或,你知道吗,九十六乘九十六像素矢量,通过保持这些局部距离而不是这些全局距离,当事情是,呃,散开。
即使他们很亲近,但不惩罚中距离的东西,所以让我们看看谁和我在一起,在迪斯尼基本上是这个TD条,我们做了随机邻居嵌入,基本上采取了一个非常高的维空间,将其投射到较低的维空间,优化低维空间,这样,这样。
保留了原始距离函数和新距离函数之间的KL发散度,但特别是为了保持彼此的局部距离,好的,我们五点,四,三个,八,八,零,零,所以这是很多,嗯,围绕单个单元格数据集的可视化。
所以基本上当你开始考虑你的单细胞数据时,对于您的许多项目,您将使用TSI或UMAP,或其他随机嵌入到较低维空间,所以在这些中有很多参数很重要,呃,嵌入,所以基本上,如果你看看有多少邻居的距离,我认为。
如果你只考虑两个邻居,然后你会发现你根本没有捕捉到数据的原始结构,如果你考虑到邻居太多,比如说,一百个邻居,那你就知道蓝点接近一百分,嗯,都是一样的,所以你不会,你没有任何信息,要么考虑的邻居太多。
要么考虑的邻居太少,但如果你考虑到5个邻居或30个邻居或50个邻居,然后你捕捉那些局部结构,如果你也采取很少的步骤,你可能找不到最优的结构,你会看到当算法在那个空间中搜索时,y,保持这些距离的地方。
它就会,有时候,你知道的,把东西折叠成完全相同的点,然后再把它们铺开,所以你可以玩这个投影的步数,当你取梯度相对于你的数据的维数,如果查看原始群集的大小。
所以基本上如果原始数据有非常分散的集群或非常紧密的集群,这对迪斯尼来说真的不重要,它基本上简单地说,嗯,你知道最近的50个邻居都是一样的,不管它们在原来的空间里是如何分散或浓缩的。
所以这是方法不变的东西,至于集群之间的距离,就像我之前用零给你看的那样,六和八,真的没关系,如果您的原始数据是蓝色的,接近黄色,接近绿色,它可能,它可以走任何路,一次又一次,那是因为我们选择了一组邻居。
作为搜索半径,我们是,呃,我们正在比较的,然后有时可能会出现假集群,如果你一次看到两个邻居等等,诸如此类,但随着正确的困惑程度,它这个,呃允许你对此保持不变,一次又一次,呃。
你知道这些关系会被很好地捕捉到如果你看5点或30点,但有时它们会丢失,如果你没有看正确的距离,一次又一次,呃,你知道的,我真的鼓励你玩这个,你可以,呃基本上尝试不同的,困惑,尝试不同的。
然后看看您的数据是如何沿着这些不同的维度变化的,呃通过去这里,所有的权利,所以约书亚,你在吗,呃,让我们看看,我们正在等待一位客座讲师的到来。
呃,乔希,你在吗,我想他还没到,好的,呃,让我,呃,所有的权利,拉伸断裂,我们能不能,呃有点让人伸展而,我在找我们的客人,就像这个实际上等一下。
我很抱歉,我你知道,我们实际上会继续讲座,嗯,对不起,所以我希望人们在他们的,呃头,至少,然后嗯,乔希很快就会加入我们,所有的权利,所以上次我们谈了很多,所以我想简单介绍一下他的方法,听他的讲座。
上次我们谈到,嗯,现在我们关注的是数据的低维投影的概念,线性或非线性,这让我们能够真正了解细胞类型的特定集群,所以这通常是第一步,呃,嘿,乔希,呃,你准备好了,你准备好了。
然后你可以进行基因水平分析或轨迹水平分析,或者你知道动力学,或者了解状态和条件,我们今天要听到的是,来自乔希的是,我们如何不仅获取一种类型的数据集,但是我们如何获取单细胞RNA数据和单细胞攻击数据。
和许多不同类型的组学数据,并将它们共同投射到低维数据集中,在其中我们可以将它们相互匹配。
所以乔希,我看到你在那里,呃,你介意分享你的屏幕吗,然后嗯,开始你的客座讲座,所以我要把聊天。
幻灯片的链接,所有的权利,把它拿走,乔希,谢谢,所有的权利,幻灯片通过了吗,是的,太好了,我们明白你的意思了,真的很棒,谢谢下午好,谢谢大家的邀请,所以嗯,我很高兴今天能和你谈话,如果我必须总结什么。
我要用一个想法告诉你,关键的想法是我们将尝试学习细胞身份的表征,通过集成单细胞多组数据集,我将向你展示我们做到这一点的几种方法,用我开发的一些方法,所以我会给你一些动机方面的背景知识,我长话短说。
因为我知道你们已经听说过一些单细胞技术和方法,然后我将介绍狮虎方法,一种积分非负矩阵分解,我将告诉你一种放大imf算法的方法,利用在线学习,然后我会告诉你最近正在进行的几个项目。
集成具有部分重叠特征的数据集,并将变分自动编码器和生成对抗网络结合起来,生成单细胞学习配置文件,所以嗯,就像你一样,呃,在过去的几次讲座中听到了,您可以在单个单元格中执行许多类型的测量。
您可以从分离的单元格执行它们,这是最常见的单细胞测量方法,或者你可以用C2来做空间测量。
用空间坐标,从分离的细胞中提取。
你可以用单细胞来测量基因表达,rna搜索,你可以测量组蛋白修饰或转录因子结合,使用芯片搜索或切割和标记或切割和运行,你可以测量染色质的可达性,或DNA甲基化或染色质构象,和我用红色着色的模式。
以下是我将关注的问题,然后嗯,除了从孤立的细胞中获取信息,知道空间坐标真的很有用,这样你就可以将分子信息映射回它的组织上下文中,有几个协议可以做到这一点,最明显的是用于转录组测量。
但越来越多的人也在努力测量空间分辨率上的其他东西,所以传统上,细胞类型已经被定义在我称之为定性的方式,基于粗大形态学等属性,或者几个细胞表面标记的存在或不存在,或容易观察到的表型特性,但是。
所有这些单细胞测量的可用性,提供了一个向细胞身份的定量定义迈进的机会,其中使用单细胞分辨率的分子和其他类型的信息,以无偏见的方式以定量的方式重新定义细胞类型,人们正在努力以这种方式使用单细胞技术。
比如人类细胞图谱和大脑倡议在这方面做出了一些努力,中心地图项目和其他,因此,这些问题和数据类型提出了许多分析挑战,我选了这里的,呃,与我将告诉你们的方法最直接相关的问题,所以首先。
有大量的测量跨越条件物种,组织,如果我们说的是细胞同一性,这真的不仅仅是一个离散的现象,但细胞变异也有连续的方面,有技术上的混杂物和生物信号混合在一起,有多种类型的数据测量不同类型的特征。
但通常每个单元只有一种测量类型,因此,为了应对其中的一些挑战,我开发了一个叫做liger的工具,它是基于积分非负矩阵因式分解的,这种类型分析的起点是两个或多个单个单元格数据集。
具有一组共同的G基因水平特征,这些可能是跨多个个体或跨物种的单细胞rna搜索数据集,或者这些也可以是不同方式的测量,如基因表达和表观基因组,呃,在空间测量中的测量甚至分离,但它们都必须共享一组共同的g。
g,模型特征,为了将这些多个数据集集成在一起,我们采用的方法是进行积分非负矩阵因式分解,我稍后会更多地讨论,但首先我想激励一下,为什么,我们转向非负矩阵因式分解方法的一些原因。
其中一个原因是因为MF收益率,有时被称为基于部件的分解,这是一个在原文中注明的属性,呃,1999年发表在《自然》杂志上的NMF论文,李成展示的例子是,如果对一组人脸图像执行NMF。
你可以用和MF得到一个非常相似的面部重建,和更常见的经典的PCA方法,所以重建看起来很相似,但如果你看看所用的碱基,或者是通过NMF和PCA学习的,它们有非常不同的性质。
PCA的基础是你可以被描述为整体,你可以把每个主成分看作一个特征面,而基的NMF表示分解为几个部分,所以各个部分突出了面部的不同部分,所以这部分来自于非负性约束,在NF中脱离了,因此。
如果我们将基于nmf的方法应用于基因组数据或,其中特征是基因,那么你可以把NF因子解释为元基因,元基因是一组共表达基因或共调控基因,你可以把这些看作是生物途径或细胞类型特定的基因。
它们还可以捕捉技术因素,正如我将在一分钟内展示的那样,所以在高水平上,应用于基因组数据的NMF方法的作用,它是首先将基因组合成元基因吗,然后在单细胞数据的情况下汇总每个细胞的表达,利用这些元基因。
所以你可以把每个因素都想象成,告诉每个基因对每个元基因的贡献,然后计算每个元基因的自我因子,相应的元基因表达水平,每个,所以所以嗯,我们在Lager工具中使用NMF方法,然后嗯。
我们表演的F类型的独特之处在于什么,每个元基因都有一个共享的和一个数据集特定的组成部分,它是共享组件,在所有数据集上具有相同的负载,但是数据集特定组件允许每个数据集,向共享组件添加唯一权重,所以直觉上。
这给了我们一组因素,在数据集中代表相同的生物信号,并确定,呃,信号是如何变化的,所以回到,我在细胞身份定量定义开始时发布的框架,我们可以认为这些元基因提供了细胞身份的定量定义。
以及它如何在数据集和生物背景下变化,然后在执行这个联合因式分解之后,我们可以使用细胞因子负载,我在这里显示的是h来执行分位数归一化和联合聚类,识别细胞,跨多个数据集对应的单元格类型和单元格状态,然后嗯。
由于,非负性约束和继承这一基于部分的概念,自然与MF,我们能够学习,嗯,可解释的元基因可以让我们对生物学有很多了解,跨多个单单元数据集,所以作为一个简单的例子,因数,两个。
8来自这个特定的单单元数据集在这个特定的单元集群上负载最强,这是大脑的数据集,我一会儿会更多地谈论这一点,但是这里的元基因代表了细胞类型,定义这种特殊细胞类型的特定基因,如果我们看看数据集。
跨多个个体学习的特定元基因,我们可以看到他们向我们展示,这种细胞类型特异性信号在供体中的变化方式,在这种情况下,原来这是有一定意义的,与这些捐赠者的生物学和背景有关,我稍后会讲到。
我们可以获得很多关于细胞身份的见解,以及不同数据集是如何相似和不同的,这些元基因可解释性的另一大优势是它们可以识别技术信号,让我们从数据集中的生物信号中解构它们,所以一个共同的变异来源,嗯。
在单细胞数据集中,这是一种讨厌的东西,是线粒体基因的整体表达,还有这个,当技术变化的来源出现时,细胞在测序过程中受到不同的压力,因为线粒体有点坚韧,它们保护线粒体RNA,因此,在这个特定的数据集中。
因子11显示出非常,呃,所有集群中的高负载,但是嗯,尤其是在星系团的一些角落,可以这么说,如果你看看这个因素上的顶部加载基因,原来都是线粒体基因,如果我们把这个因素包括在下游分析中。
我们可能会错误地得出结论,这里的这些细胞代表了一种不同的细胞类型,在现实中,它们的主要特征是它们有很高的线粒体基因表达,所以通过去除这个因素,我们可以转移这种技术变异来源的影响,好的,所以现在。
我将简单地告诉你们我们实际上是如何解决f项优化问题的,在数学上,所以嗯,这是目标函数,就像所有的NMF问题一样,它在所有参数的共同作用下都是非凸的,但是嗯,如果你把其中一个矩阵块固定住。
那么优化问题是凸的,因为一个抓住了其他的,把其他人固定住,因此,国际货币基金组织最初的实施使用了乘法更新,这是一种启发式的计算方法,UM更新以了解参数,但是嗯,我们导出了一种基于块坐标下降的新算法。
它有一些显著的优势,并给了我们一个收敛保证,保证该方法收敛到局部最小值,这是你在非凸问题中所能希望的最好结果,特别是,块坐标下降算法在实际应用中收敛速度非常快,由于优化问题的特殊结构,所以简而言之。
我们解决这个问题的方法是对每一个矩阵块和参数,共享的元基因,每个区块的数据集特定的元基因和h本身因子,我们把其他的修好,然后通过解决一个非负平方问题来更新剩余的块。
我们用一种非常有效的算法来解决这个问题,所以总体来说,整个策略在计算上是相当有效的,可以扩展到数千个基因和数十万个细胞,将每个单元格分配给它具有最高负载的因子,这给出了一种联合聚类分配。
因为每个因素在数据集上都有相同的解释,然后我们在下游执行几个步骤,为了增加分析的总体鲁棒性,我们使用单元格因子在每个数据集中建立一个k个最近邻图,然后将每个单元格的最大因子分配设置为其邻居的模式。
这基本上消除了最大因子分配中的任何错误,因为附近所有细胞的几率,得到错误的任务相对较小,然后我们对单元格因子负载执行最后的分位数归一化步骤,以便跨数据集的单元格使用它们的单元格因子负载直接可比。
然后在那之后量子归一化的最后一步,您可以使用这些因素进行下游分析,像聚类或可视化,所以现在,我将给你们看几个简短的例子,您可以使用这种方法执行的分析种类,第一个是。
整合单细胞rna在人类捐赠者中寻找数据,这是我们为2019年的论文生成的数据集,我们对七个人类捐赠者的巨大尼亚加拉进行了测序,这是大脑中产生多巴胺的部分,它有很多呃,疾病相关性,使用单细胞方法,所以嗯。
如果我们只做一个标准的单个数据集,单细胞rna搜索分析,细胞完全由人类供体聚集,因为这些捐赠者的年龄、性别和背景有很大的差异,但在用imf联合学习细胞因子后,能够将细胞聚集在一起。
使它们按细胞类型而不是按捐赠者聚集在一起,我们可以识别实体的主要细胞类型,然后呢,正如我一分钟前在我的例子中提到的,我们可以查看共享和数据集特定的元基因,真正了解人类捐赠者的细胞是如何相似和不同的。
我们发现的一个有趣的事情是,如果我们观察小胶质细胞和星形胶质细胞,我们可以看到一些数据集特定的术语,呃,与第五名受试者脑损伤反应相关的基因,八,两个,八,第五名受试者的um蛋白错误折叠,八四十。
当我们回去查看这些捐赠者的元数据时,原来五个,八,两个,八人死于头部外伤,五十,840在死后被诊断为脑淀粉样蛋白自体病,这是一种蛋白质错误折叠的疾病,所以嗯,这显示了这些元是如何。
基因因子可以让你了解细胞状态和细胞特性的变化,在这些数据集中,呃是整合空间和分离细胞数据集,我们使用了老鼠大脑的数据集,来自单细胞rna搜索和使用星图测量的相同大脑区域,这是一个空间转录组学协议。
这两种数据类型具有互补的属性,单细胞rna搜索数据没有空间坐标,但它测量所有的基因,反过来说,星图数据只测量选定的基因子集,但你有每个观察到的转录物在组织中的空间位置,因此。
通过将这两种数据类型放在一起,我们可以识别组织中细胞类型的空间位置,并估算空间,空间数据集中未测量基因的空间分辨基因表达,所以嗯,当我们这样做的时候,使用两个数据集之间共享的基因集。
我们能够联合聚集细胞,在两种数据类型之间标识一组公共群集,然后通过回看用星图测量的细胞的原始um空间位置,我们能够直观地看到这些细胞类型在组织中的位置,让人放心的是,如果您在每个集群中查看。
两种技术关键标记基因的表达非常一致,知道细胞类型的空间位置是很重要的,因为它可以开始告诉你一些关于问题架构的事情,在大脑的背景下,这对于了解神经回路是如何,神经元如何在神经回路中协同工作,所以说。
我们在这里发现的一个有趣和有点令人惊讶的事情的例子,我们发现星形胶质细胞有两种亚型,当我们观察这两个星系团的空间位置时,其中一个有这种奇怪的图案,这个集群中的细胞只位于皮层的外侧。
并查看一些具有空间分辨率的正交数据类型,我们能够确认这似乎是一个真正的生物学,所以嗯,这些GFAP,阳性星形胶质细胞在皮层外侧有这个特殊的空间位置,而位于皮层内的星形胶质细胞主要是MF,g,e,八亚型。
所以说,嗯另一个真的嗯,这种单细胞数据集成的重要应用是集成多个,来自单个样式的OMIC数据集,这是一个特别独特和具有挑战性的问题,因为您在这里开始的数据集既不共享实例也不共享特性。
所以你的开始数据矩阵有这样,在出租车的情况下,和rna搜索峰值具有攻击搜索数据的特征,和G基因用于rna查找数据,测量是在不同的细胞中进行的,这些细胞在实验中没有直接对应,所以为了链接这些数据集。
我们首先执行一个伪表达计算步骤,在这个步骤中,我们将表观基因组数据,呃,基因水平的特征,以这样一种方式,每个呃,基因um表观遗传状态,呃,被概括为一个与基因表达相关的量,对于攻击,查找数据。
我们为此尝试了几种策略,事实证明,最有效的方法是简单地数数,有多少可访问的读数落在启动子或基因体上,对于每一个甲基化数据,你可以通过计算启动子甲基化来做类似的事情,或基因体甲基化,在这之后。
我们有了共享相同特征集的输入矩阵,基因和不同的细胞,在做了这个伪表达式计算之后,我们可以再次进行积分非负矩阵因式分解,呃,集成数据集和链接,将转录组和表观基因组图谱联系起来。
所以我们用老鼠皮层的数据来做这个,这里的例子来自单细胞RNA,seq与单细胞dna甲基化测序,我们确认了,两者之间一组非常明确对应的单元格类型,嗯,这些标签和我们的联合标签很相配。
与基因表达和甲基化数据集的公布标签匹配良好,有一件事很有趣,我们能够从甲基化数据中识别出一些细胞类型,以前有模棱两可的标签,嗯,因为有更多已知的细胞类型标记,是基因表达或蛋白质标记,而不是甲基化标记。
因此,通过将甲基化数据与基因表达联系起来,我们能够更好地注释细胞类型,我们也可以用单细胞RNA进行这种分析,SEQ和单细胞攻击座椅数据,这里有一个例子,我们是如何用人类骨髓数据来做到这一点的。
正如我提到的,为了做到这一点,以便链接这些数据类型,你需要计算表观遗传数据的基因体和启动子的读数,这样你就有了每个基因的伪表达量,有一件事,呃,真的,把这些类型的数据放在一起是一个巨大的胜利。
你可以开始把表观基因组状态和单个基因的基因表达状态联系起来,在同一细胞内,这让你可以开始,提名基因间调节元件,可能调节附近基因的表达状态,所以作为一个例子,我们在这里发现了攻击的几个高峰寻求数据。
显示非常单元格类型特定的可访问性模式,这些峰的可达性与邻近基因的表达密切相关,所以只要计算用MF链接的链接单元格之间的简单相关性,我们能够预测这些基因峰值链接,并开始指定细胞类型特定的调节元件。
所以如果你看看这些基因区域之一的可及性,你可以看到它是非常特定于细胞类型的,并与邻近基因的表达高度相关,这是对利格和积分非负矩阵因式分解的快速浏览,以及一些可以应用于,定义跨不同上下文的细胞身份。
而现在,我要告诉你,我们扩展这种方法的几种方式,第一个是通过创建一个在线学习算法来解决国际货币基金组织的问题,它允许我们扩展到越来越大的数据集,所以网上学习的想法,如果你不熟悉,您可以增量地更新计算。
当新数据以流式方式到达时,因此,在单细胞数据的上下文中,有几个不同的场景是有用的,第一个场景是您有多个大型数据集,所以让我们说你,你试图分析笔记本电脑上的数据集,你有固定的记忆。
我们以前为解决imf优化问题而开发的方法,要求您将整个数据集存储在内存中,并在算法的每次迭代中使用每个数据点,但是有了在线学习算法,我们可以将数据随机分成固定大小的小批,我们一次只需要装载和使用一小批。
当我们执行权重的迭代更新时,我们在算法中学习的,所以在场景一中,如果你有非常大的数据集,但仍然可以完全观察到,换句话说,他们不是动态到达的,您可以使用这种迷你批处理方法,以避免将整个数据集存储在内存中。
它也会聚得更快,因为算法的每次更新都不需要每个数据点,另一个非常有用的场景,我们称之为场景二,这就是你有大量数据集的地方,这些数据集以流式的方式到达,一个现实世界中可能发生这种情况的例子,就是。
如果你有一个大财团,努力生成整个有机体或组织的图谱,我马上给你举一个大脑的例子,这在实践中是如何发生的,所以在这个场景中,以前的办法,需要您从头开始重新分析所有数据集,每次联盟生成新的数据集。
而在线学习算法允许你简单地将新的数据集,因为它到达时没有重新访问以前的任何数据集,然后场景三是您有一个精心策划的现有数据集,您希望使用从以前的数据集中了解到的权重,将新的数据集投射到引用中,因此。
这三种情况在不同的情况下都很有用,我们方法的另一大优势是,正如我提到的,您不必存储数据集,但是,您甚至根本不必下载数据集,到硬盘上,所以我们,我们展示了,多个用户可以分析相同数据的单个副本。
通过Internet流式迷你批设置,所以只说几句这种方法背后的计算机科学,我们利用了机器学习论文杂志上的一些现有理论,开发了一种在线词典学习的方法,NF是这个更普遍的问题的一个特例,称为字典学习,和。
这篇论文的关键见解是,您可以派生一个用于字典学习的自定义在线学习算法,通过优化渐近收敛的代理函数,根据参数与原始目标函数相同的解,嗯,在收敛性方面,这个解有一些很好的性质。
因为它是专门为字典学习问题量身定做的,你实际上可以有一些非常强的收敛保证,你不能仅仅用,对于I NMF优化问题也是如此,我们可以写出这个代理函数的一个稍微修改的版本,这是为我们的特定目标量身定做的。
然后嗯,计算允许我们优化代理函数的更新,当新的迷你批数据到达时迭代,下面是整个算法的概述,基本思想是从数据中随机抽取一个迷你批,然后计算单元格因子负载,根据你目前对元基因的最佳猜测,在这种情况下是字典。
然后呢,一个技巧可以让您避免将以前的所有数据点存储在内存中,字典的更新,嗯,仅依赖于来自先前看到的数据点的单元格因子负载之间的内积,因此,通过增量计算这个矩阵产品,就像你看到的每个迷你批一样。
您可以避免存储表达式级别,以前数据集的单元格因子加载,这在实际中效果很好,它有我提到的内存优势,但它也收敛得更快,因为数据集越大,每个附加单元的冗余度就越大。
所以你不需要看到算法的每一个单元格和每一次更新,为了快速收敛,这是一个来自老鼠大脑的大数据集的例子,表明如果你随着时间的推移观察目标函数,与批处理设置相比,在线设置的收敛速度非常快。
或者如果运行给定的固定时间,在那段时间之后,目标函数要低得多,使用在线算法比使用批处理算法,所以我们做了一个基准与其他一些广泛使用的方法,包括Harmony和Serrat以及我们以前发表的方法。
我们发现内存使用确实是一个很大的优势,嗯,与其他方法相比,它在时间上也非常有效,和,嗯,我们能够用这种方法在2-5分钟内处理300万个细胞,在我学生的笔记本电脑上使用500兆字节的RAM。
而如果你想用其他方法做同样的分析,您必须使用一些相当大的内存计算节点,和大量的时间来运行相同的分析,作为一个例子,嗯,我提到的迭代细化能力,我称之为场景,在线学习的两个。
我们使用大脑倡议细胞普查网络生成的数据,我们是其中的一员,财团产生了,来自小鼠大脑单个区域的一组数据集,在运动皮层,四个实验室在两年内使用五种协议生成了八个数据集,所以这是一个持续的过程,每隔几个月。
一个实验室将生成另一个数据集并上传与财团共享,所以每个人都是分析数据的人,每次数据集到达时都必须重新运行他们的分析,从而展示这种迭代细化能力的优势,我们按时间顺序排列了数据集,它们是在其中生成的。
并将它们一个接一个地合并到因式分解中,使用这个在线算法,所以我在这里展示的是,你是在绘制细胞因子负载的图吗,当一个新的数据集到达时,这种迭代细化的每一步,你可以看到随着细胞数量的增加。
您可以区分的集群数量增加,每个连续的数据集与以前的数据集很好地对齐,这个特别酷的地方是什么,就是,它与rna数据集甲基化和攻击数据集一起工作,所以说,该联盟产生的前六个数据集是rna数据集。
然后生成攻击寻道数据集和甲基化数据集,所以我们也能够逐渐地融入,他们对齐得很好,我们能够,在最后,使用所有数据集和模式联合聚类,事实证明,如果你重新运行分析,使用其他两种方案中的任何一种。
所以在场景一中一次使用所有的数据集,或者用场景三投射后面的数据集,而不更新元基因,你会得到非常相似的结果,哪个让人放心又好,好的,嗯,所以现在我要稍微换档。
并讨论如何将国际货币基金组织的算法扩展到这种情况,在哪里,嗯你的,你的特征部分重叠,这是一个不寻常的案例,呃,在数据集成方面,但这产生了一个有趣的计算问题,所以问题是。
对于许多我们希望集成单个单元格数据集的情况,我们要联合分解的矩阵,没有相同数量的细胞,行,或列中相同数量的特性,以前人们通过,只是,呃,通过我提到的伪表达式计算,迫使特征对齐以重合。
但更令人满意的方法是,至,以某种方式能够利用跨数据集的共享和非共享特性,所以要做到这一点,我们修改了I,MF算法,这样你就可以计算一个元基因矩阵,它对应于每个数据集的非共享特性和共享特性,和,嗯。
这里的框图显示了矩阵的所有维度是如何计算的,最后,这允许您利用数据集中存在的所有特性,作为一个具体的例子,如果我们整合rna seq和攻击搜索数据,rna搜索数据只有以基因为中心的特征。
攻击寻迹数据既有基因间峰又有基因间峰,重叠基因和启动子,所以以前,我们只能利用攻击搜索数据中的基因中心特征,但有了这个算法,我们也可以利用基因峰,这种类型的um设置的另一个常见例子是我们有目标基因。
其中空间转录组协议只测量基因的子集,而RNA SEQ数据集测量所有基因,事实证明,这个扩展有很大的不同,在某些情况下,下面是一个集成空间抄本组态数据集的示例。
用一个单细胞rna搜索数据集只测量30个基因,左边是我们用前面的算法得到的,右边是我们通过算法得到的,它结合了未共享的特征,这对你解决的能力有很大的影响,嗯,然后只是简单地。
因为这是一门专注于深度学习的课程,我想介绍一下我的团队刚刚发布的最新预印本,嗯,这项工作的动机是建立生成模型,UM从单细胞表达数据生成逼真的细胞轮廓,然后嗯。
就像你在谈论Vaes和Gans时可能学到的那样,这些是非常不同的方法,有互补的优势和劣势,然后呃,Vies真的很擅长学习有意义的表示,但不擅长生成现实的例子,反过来,甘斯能生成非常逼真的样本。
但是潜在的空间在语义上没有意义,所以如果你,如果你取VAE的一个特定维度,潜在的空间,并沿着那个维度插值,生成的图像在一个语义因素变化中变化,比如说,肤色、亮度或刘海的存在,反过来。
如果你在太空中穿越甘光的一维,生成的图像是如何变化的,没有韵律或理由,所以所有这些共同的智慧都来自图像数据,但尚不清楚同样的属性是否适用于单个单元格数据,所以我们做了一些基准测试,我们发现以同样的方式。
当GAN应用于单细胞数据时,它们会产生更好的样本,所以不讲细节,这里是为了时间,我们开发了一种结合AES和GAN优势的方法,我们努力想出一个以甘斯结尾的好首字母缩写,所以我们把它叫做密歇根。
因为我们的机构,密歇根的主要思想是你首先训练一个VAE,在本例中,我们使用了全相关变分自动编码器,它在目标中有一个额外的术语,鼓励解开纠缠,然后训练完一个vae,你固定VAE编码器的重量。
它允许您获得每个数据点的表示形式,然后您使用该表示作为代码来训练条件GAN,然后本质上,你用游戏的生成器网络替换你的VAE的解码器,这个简单的策略真的很强大,因为它给了你VAE的解纠缠性能。
以及甘的世代表现,而以前对这两个中的几个一起使用的方法真的破坏了训练的稳定,所以如果你有兴趣了解更多关于它的信息,你可以在这里看到幻灯片底部的预印本,我认为这些类型的生成模型有很多令人兴奋的应用。
操纵和预测细胞特性变化的影响,所以我就结束了,这里是贡献了我在这里提到的工作的学生。
我很乐意回答任何问题。
非常感谢,我们总是问我们的嘉宾演讲者的一件事是,你是否有兴趣为任何学生做导师。
对空间感兴趣的人,也伸出援手,如果你有兴趣,非常的酷,再次感谢你的精彩演讲,所以呃,让我们看看,呃,让我们做一个快速的民意调查,哦不,我不再登录了,所以你不能再停顿了,但给我竖起大拇指。
如果你们觉得自己学到了一些很棒的东西,好厉害,非常感谢你的精彩演讲,乔希再见。
P12:Lecture 12 - Disease Circuitry Dissection GWAS - 爱可可-爱生活 - BV1wV411q7RE
所以呃,今天欢迎大家,我们在谈论人类遗传学,全基因组关联研究与疾病回路,我们将有一个关于深海的客座演讲,所以呃,今天的目标是我们如何解释遗传变异,所以我想从我自己的基因组开始,这其实是我自己的基因组。
我在这三个基因中有三个突变这些突变显示在这里,它们实际上增加了我年龄的风险,相关性黄斑变性,我们如何通过进行全基因组关联研究来知道这一点,然后找到与疾病相关的个体遗传变异。
在携带这种疾病的个体中存在差异,和个体,使我们无法预测导致疾病的基因位置,所以我们今天要讨论的是第一个,我们一开始是如何找到这种遗传变异的,第二,一旦我们找到他们,我们如何弄清楚它们是如何工作的。
我们如何利用它们来开发新的治疗方法,所以它是现代生物学和现代医学最重要的领域之一,我们将有一系列关于这个的讲座,但今天,我们介绍了人类遗传学的基础,以及解释中的计算挑战。
所以我要谈谈第一个人类遗传学遗传,孟德尔裂隙,单核苷酸多态性和其他变体,然后呢,狩猎病,基因狩猎,我们如何利用连锁和基因组,广泛的关联研究,以识别与疾病相关的位置,然后我要谈谈联动,均衡,单倍型。
共同继承与精细映射的挑战,然后我将通过一个案例研究,我们如何真正理解基因调控机制,非编码遗传变异,利用该脂肪与肥胖相关基因座的案例研究,这与肥胖有很大的联系。
然后我要谈谈我们是如何将大规模的遗传变异联系起来的,我们以前已经研究过的表观基因组信号,通过编码路线图和最近的EPMAP,然后是一些用于变体解释的机器学习工具,包括深变体。
单个调节区域重要性的大量预测器,然后是深海,我们实际上有一位客座讲师,所以让我们潜入人类遗传学,这是一堂关于人类遗传学的课,压缩的,也许五分钟后,所以人类遗传学很久以前就开始了,人们早就知道。
如果你在下一代有选择地繁殖毛皮更多的动物,你最终会得到更多的皮毛,我们最后吃的是玉米而不是特桑特,这种中美洲奇怪的不可食用的植物,我们最终和人类最好的朋友在一起,而不是嗯,我请你吃饭。
人们早就明白了眼睛和头发颜色的遗传模式,诸如此类,很长一段时间以来,人们一直在假设继承是如何发生的,从古希腊开始,呃,然后延续千古,人们已经明白了你知道可能有什么,随机突变,性状随机混合,自然变异。
然后是成功者的生存,这似乎是为了达到目的,但不幸的是,呃,你知道,柏拉图与斯多葛派,你知道,越多,嗯,某种宗教观点持续存在,呃,物种的改良,和某种神的干预,还有这个呃,一直坚持到拉马克,然后呃。
你知道的,直到达尔文,用嬗变的概念,还有一个概念,即有一种复杂性的力量推动生物体变得更加复杂,当然,达尔文走过来说,对不起,还不错,而是随机变化,通过选择获得的站立的自然变异。
然后幸存下来的给了这种驱动力的外表,如果环境变得复杂,遗传学领域大约与达尔文同时开始,尽管孟德尔的工作在接下来的五十年里没有被重新发现,许多人无法调和孟德尔所展示的简单遗传学,在他的PS中。
复杂的遗传学在人类中可见,人们注意到眼睛颜色和头发颜色的持续变化,身高,你知道的,肤色在某种程度上,那么多不同的人类特征似乎是在一个连续体中变化的,而不是你知道的,离散,呃,套,相比之下。
孟德尔展示的是颗粒遗传的概念,没有混合,有一些离散的遗传单位后来被命名为基因,有显性或隐性的等位基因,一个显性等位基因基本上会在再生中出现,比如说,棕色眼睛,而蓝眼睛。
你需要有一个隐性等位基因从两个谱系下来,以便只有当父母双方都是,事实上,你知道蓝色把蓝色等位基因给他们的孩子,然后是离散基因座独立分类的整个概念,你知道的,有点混搭,你知道的,概率预测的比例。
所以无论如何,这就是事态,孟德尔已经制定了继承规则,但无法将其与持续变化的生物特征相协调,在世纪之交,一切都改变了,与费舍尔和其他统计学家,基本上意识到。
连续的表型变异可以简单地用多个孟德尔基因座来解释,所以概念是是的,高度似乎在不断变化,但即使你只有五个身高基因,每一个都会把你向上或向下推一英寸,它看起来是一个连续的分布,这是非常重要的一点。
所以我想看看这次是谁跟着我,孟德尔离散遗产之间的和解,然后呢,观察到的表型性状的连续变化实际上可以用多种,报价,未引用离散位点,所谓孟德尔位点,所以你们完全支持我,百分之八十六,百分之十四零零零。
所以嗯,这是,呃,现在的基础,在过去的一个世纪里的遗传学,这基本上把我们,从理解多重孟德尔特征实际上可以解释遗传连续变异,理解遗传的分子基础,表明染色体和DNA可能是携带遗传物质的东西。
最终解决DNA的结构,理解那个结构上有点枯燥的分子,事实上,继承的基础,孟德尔一直在与偏离他的独立分类的美丽规则作斗争,这种偏差实际上成为人类遗传学的主力,怎么可能,因为。
Morgan和Sturtevant展示了彼此相近的特征,在染色体里,这又是在我们理解所有这些的分子基础之前,但靠近它的是染色体中彼此靠近的基因,倾向于偏离独立的分类,如果你在看。
黄绿色的幼苗和棕色的腹部,那么这些实际上是独立分离的,他们遵循孟德尔的规则,但是这些基因座离彼此越近,偏离越多,它们越倾向于互动,共同继承,有些东西被称为平衡,如果足够远,它们独立隔离。
但如果他们离得更近,众所周知,它们处于连锁不平衡状态,好的,那么到目前为止谁和我在一起,如果两件事倾向于共同继承,那是因为它们在染色体上实际上是接近的,如果事物独立分离,独立的排序。
那是因为他们相距甚远,好的,为青少年创造86岁更容易,真漂亮,好的,所以这基本上成为孟德尔性状映射的基础,所以回到80年代,我们已经能够在人类染色体上有一组标记,基本上是,重复长度多态性使我们能够说。
每个人携带的多态性是什么,然后寻找与这些标记共同分离的变异,为了能够追踪这些区域,不同的特征在人类基因组中编码,所以链接映射的概念是,如果我想弄清楚,我体内控制内核颜色的基因在哪里,你知道的。
UM模型系统,或者控制,嗯,人囊性纤维化,然后我就能看到它与什么分离,根据分数,我就能把它映射到基因组的一个区域,那么谁和我一起绘制基因图谱呢,使用链接,利用不同性状之间的分离频率,哇太棒了。
看来你们都是遗传学大师。
所以九十十分零零零,哇太棒了,所有的权利,所以这是传统的方法。
这是呃,孟德尔um映射,当这些特征有很强的影响时,这是可能的,在那里你可以说,好的,嗯,这个人有囊性纤维化,这个人没有囊性纤维化,让我们找出它们在染色体上的位置并绘制它们的地图。
巨大的革命发生了复杂的特征,到目前为止都没有受到这种分析的影响,并将其回顾到这种类型的分析中,在两千年里,我们看到的是这种能力不仅能绘制出强烈的效应变化,但也是人类基因组中的弱效应变异。
并开始系统地理解这些,呃,我向你们展示的例子,我自己的基因变异使我有点衰老的倾向,相关性黄斑变性,在这里,你的风险增加了两倍,这种变体只会让我增加10%的风险,因此,这些变体将无法用传统的链接方法映射。
所以我们今天要看的是,我们如何利用全基因组关联研究系统地绘制它们,这基本上是看每一个片段,基因组中的600万个片段,以及单核多态性是如何随着疾病的变化而变化的,我们很快就会进入G,所以让我们从基础开始。
变异的基础是什么,让我们看看不同类型的变异,我们将讨论片段,或单个核苷酸多态性,是一个字母的变化,我们将讨论小inde,它们是,你知道吗,t a t gg被添加到这个位置,除了已经有的C。
我们将讨论速记和重复,它们是,呃,你知道吗,gtc,gtc,gtc,gtc,在那里,我们大约每一万只诱饵熊中就有一只,然后这些大的结构变体和复制数变体在中位长度,5000个核苷酸,基本上可以插入或删除。
这些大约每百万个核苷酸就会发生一次,好的,那么到目前为止谁和我在一起,所以我们有剪子,inels,strs,结构变异和拷贝数变异,我们主要集中在片段上,但你应该意识到所有其他的变化,那么这些做什么好呢。
大多数时候他们什么也不做,因为它们大多落在非编码区域,但有时它们要么落在管制区,它们有一个效果,我们将在讲座结束时讨论这个问题,或者它们属于蛋白质编码区,然后它们有很大的效果,如果你看,比如说。
从A到T的突变这个盒子应该在上面,这实际上会导致镰状细胞贫血,基本上血细胞镰刀状,他们不能再携带那么多氧气了,这是不好的一面,好的一面是血细胞镰刀,他们不能再携带疟疾病原体了,所以说。
非洲疟疾盛行的地区,这很明显是由于对突变的选择,你知道更难,你知道的,功能正常,正常携带氧气,但这也救了你的命,如果你知道疟疾病原体碰巧让你,所以这些是全基因组关联研究的主力,也是我们周二要关注的事情。
即表达数量性状基因座,所以这些研究不是着眼于表型变异相对于遗传变异,而且与snp变异相关的基因表达变异,好的,所以说,单核苷酸多态性通常有两个等位基因,基本上如果你有C等位基因或G等位基因。
这是变量可以采取的两种不同状态,他们认同他们的摆脱,所以你会说,一八,九一一,零七一一,两个,三个,是,呃,的,所有这些变体都被聚集并内置到数据库DB片段中,在商业领域有超过1亿种已知的变体。
它们时不时地改变遗传密码,或者它们扰乱了监管区域,好的,到目前为止谁和我在一起,全基因组关联研究的主力,即单核苷酸多态性,哇哦,我们达到了90%以上,哇哦,这里显然太慢了,所以呃,九十五零零,好的。
所以另一种变化是速记和重复,所以你可以看到亨廷顿病,实际上与亨廷顿基因有关,该基因显示,而不是有九个重复的CG,cg,cg,cg,你实际上可以有三十多个重复,然后这导致了这种异常的蛋白质聚集。
它会损害神经元,导致脑细胞死亡,最终是表型效应,如情绪变化,协调,说痴呆症,等,下一种变化是插入和删除,所以说,比如说,囊性纤维化有C T插入,基本上呃,你知道吗,导致这种终结性的丧失。
最终导致肺部感染,囊肿和纤维化,你知道,也极其有害,所有的权利,所以我们要讨论的是,呃,基于参考人类基因组序列是否匹配的参考和交替等位基因,主要或次要等位基因基于它们在特定人群中是否更频繁。
祖先等位基因与派生等位基因,基于它们是否匹配人类和黑猩猩最常见的最近祖先,然后根据他们的疾病关联来确定风险等位基因和非风险等位基因,然后你应该记住,其中一些是特定于环境的,对于疟疾来说。
风险等位基因则相反,然后对于镰状细胞病,好的,然后我们将讨论共同的,和私人变体,所以常见的变异体超过人口的5%,低频变体通常定义在0。5%到5%之间,稀有方差小于0。5%,然后是私人的。
新变体通常是特定家庭的私人变体,从某一特定个人的受孕开始,然后躯体变异是一个人的子集,基本上这些都是在你的转变中发生的变体,从单个受精卵到人类,在细胞分裂过程中,你实际上可以有额外的突变,比如说。
我肺的这一部分可能有一个G,当我身体的其他部分在那个突变中有C时,因为祖细胞给了,作为一个基因产生了我肺的那一部分,好的,和我在一起,呃,一号参考文献,衍生风险和风险。
然后是常见到罕见到体细胞变异的频率,好的,太厉害了,你们在这件事上完全在行,所以八十,二十零零嗯,好的,所以嗯,我们有一个很大的挑战,在我们前面,我们有两个基因组副本,在我们的每一个细胞里。
23条染色体,两万个基因,30亿个DNA字母和数百万个多态性位点,那么我们如何找到这些疾病基因呢,所以我想让你们所有人得到的主要概念是,常见变体和罕见变体的区别是什么,所以基本上。
罕见的变体允许你做的是观察强烈的效果,变体,所以这些都是变体,呃,稍等一下,我在找,嗯。
我没有幻灯片,不幸的是,所以说,你知道吗。
呃,我要找到这道光,应该很容易。
给你,好的,所以有两种呃,变体,哎呀,哎呦,哦,给你,所以大家集中注意力,这是超级重要的,一方面,如果我们进行孟德尔分析,我们发现导致孟德尔疾病的基因,引起孟德尔病的等位基因非常罕见。它们有很大的影响。
所以它们非常罕见,它们有很大的影响,相比之下,与全基因组关联研究相关的等位基因非常常见,它们的影响非常小,这是巧合吗,一点也不,这种负相关的原因是如果某物有非常强的影响,如果它引起某种特定的疾病。
那么进化就不会让它上升到高频,好的,相比之下,如果某物的效果很弱,那么它上升到高频是完全可以忍受的,我们沿着这个轴看的原因是,因为我们根本没有能力抓住这些部分,也就是说,有大量罕见的变体一直在发生。
几乎没有效果的,这些根本没有被基因组关联研究或孟德尔研究捕捉到,但在这里,我们基本上有孟德尔研究,效果很好,因为有很强的效果,但问题是我们只需要去寻找家庭,因为这些影响是如此强烈,以至于他们。
这些变体根本不常见,好的,那么,在常见变异和罕见变异之间的反比关系上,谁和我在一起呢,频谱的两边被调谐到联动分析,与全基因组关联研究的比较,一个是对一个基因或最多两个基因的孟德尔分析。
或者你知道极少数的基因,另一个是成千上万的弱效应基因变体太棒了,所以你们是九十一五零,零零,这是真棒。
全基因组关联研究,一方面,在看很多,小效果的许多变体,这些是多基因疾病,基本上是在研究单基因疾病,你知道这些效果很强,但变体是,变异的频率在人群中是非常罕见的,一方面,这些大多是非编码的。
因为这就是你通过稍微改变电路来获得微弱效果的方法,这些大多是编码,因为这就是你如何通过直接改变蛋白质来获得巨大的效果,越来越多的地球人获得了权力,能够进入某种,你知道吗,很多,效果的多种组合。
我们能够去越来越弱的频率,然后联动分析正在获得力量,基本上能够检测到越来越多,你知道吗,卤源性疾病,但他们是,你知道,非常适应光谱的这两个方面,好的,我们已经讨论过的LinAnalysis。
我们如何在染色体上有标记,基本上告诉你你在染色体的哪个部分我在13%,百分之四十八,百分之五十四,等,然后你可以将不同的特征映射到最接近它们的标记上,以及它们与其他标记的距离。
使你能够非常精确地确定它们在DNA上的位置,好的,这就是连锁分析,你做的方式,那是家族的血统,你基本上说,好的,嗯,这是我们正在研究的一个标记,这是另一个记号笔,这是另一个记号笔,以此类推。
你可以看到这些是如何与疾病分离的,事实上,这个标记似乎与病例分离,因此,我的猜测是,无论什么基因导致了这种疾病,我正在追踪他的表型,事实上,在物理上与基因组的位置密切相关,我在这里走得有点快。
但我想确保你们和我在一起,所以链接分析的作用是它在染色体上有所有这些标记,然后当它有一个表型,它在整个群体中追踪,它问哪些标记,它是与,你就是这样想出来的,好了,现在,我知道你们很诚实。
因为我们现在是54550,哇太棒了,人类遗传学的大部分主力,计算上的大多数挑战都在这里,我们如何理解多基因变异,用于孟德尔分析的统计数据已经制定了几十年,一旦你弄清楚了基因,就没有那么多计算挑战了。
但这是一个巨大的调查领域,所以这就是我们要关注的,所以我们将研究全基因组关联研究,他们基本上收集了什么,传统上大约五五开,当我研究精神分裂症时,我要去找六万箱,我要找到六万个控件,如果我在学习任何一种。
你知道,像肥胖或糖尿病,我要去猎杀六万,查找尽可能多的控件,所以下周四我们要谈谈,呃英国,生物库和大表型队列,在那里我没有50%的精神分裂症患者的奢侈,借口,所以对于病例来说。
我最终得到的是与人口流行率相对应的分数,如果千分之一,例如携带疾病,然后在我的生物库里,只有千分之一的人会有这种表型,好的,这就是机箱控制设计,你应该知道对于基因组关联研究,我们代理的案件太多了。
所以你收集了一堆案子,一堆控件,然后你去给它们做基因型,这是非常重要的,因为我们不必重新排序,每一个个体的基因分型都非常便宜,测序人类基因组每个核苷酸花费我们一美元,那是三十亿美元。
这是对第一个人类基因组的测序,同时对一个人进行基因分型大约需要200美元,我们说的是30亿美元,而不是30亿美元的200美元,我不会在一千个控制中做一千个病例,但是为了两百美元,哦当然,给我一万箱。
给我十万箱,好的,所以基因分型技术是可能的,因为我们能够编目常见的遗传变异,我们能够对一群人进行测序,然后系统地编目人类群体中常见的遗传变异是什么,然后去看看这些变体这里是G版这里是C版。
然后创建与G版本或C版本杂交的探针,取决于你是否携带,基本上是一个的两个副本,另一个的两个副本,或两者兼而有之,不管你是纯合子,让我们说风险,纯合的,纯合的,无风险或杂合子,好的。
大家和我一起讨论案件控制的这两个概念,代表案件获得权力,但我们在生物银行没有这种奢侈,基因分型而不是测序,原因是它便宜得多,好的,那么让我们看看谁和我一起进行基因分型和病例对照研究,所以我所做的是。
我收集了六万精神分裂症患者,六万人没有,然后我看看它们的共同变体以及它们的不同之处,好的,所以我们是五十四,六零,零或四,然后你做很多质量控制,你看样品质量,你看相关性,消除有血缘关系的人。
而不是相关的,有因血统而产生的身份,也有因州而产生的身份,这是你应该意识到的两个概念,你不想让兄弟姐妹在你的书房里,因为这可以极大地增强随机方差的能力,这两个人碰巧有,即使是什么导致他们有相同的表型。
事实是我不知道他们在同一个家庭长大,或者他们分享了父母给他们的大量罕见的变体,然后你想纠正人口认证,我们会听到一些关于这一点的,下周四按阿尔的价格,所以你有一堆病例控制,你纠正了这样一个事实。
你知道日本人在这里,然后你知道欧洲人在这里,非洲人在这里等等,然后你做了很多QC,不仅仅是你的样品,还有你的剪裁,基本上确保基因型质量好,它不偏离正态分布,等位基因频率和你所期望的一样。
然后你你基本上这是QC的一种类型,在那里你做一个分位数分位数图,你基本上是在密谋,预期的p值是多少,如果这是正态分布的,这意味着什么这基本上意味着如果我采样600万个片段,我想你知道其中一个,呃。
我希望,假设一千个片段才能达到名义P值,或者十的负三,好的,所以基本上我想确保,如果我随机抽取我期望的p值,根据我正在做的测试数量,实际上匹配观察到的p值分布,我想确保这种情况发生在绝大多数发行版上。
除了信号实际所在的地方,这是真正联系在一起的地方,单核苷酸多态性没问题,所以QQ图可以让你寻找实际信号的存在,通过观察p值分布,好的,那么现在我们计算的p值是多少,P值来自卡方统计量。
这基本上是一个表格,告诉你基因组中的每一个片段,有多少箱子带着那个片段,有多少人携带等位基因,一点点那个片段,有多少控件携带了该片段的A,所以你基本上是在问,那个片段有不平衡,好的。
让我们看看这里等位基因的数字,你看我们有,你知道吗,九百箱,九百控制,很好很好,这就是我在这里所期望的,但是哇,等一下,我看到的更多,我控制中的等位基因A,所以这表明也许等位基因,不管怎样。
等位基因A具有保护性,好的,所以和我在一起的每个人,所以说,呃,我希望,均匀比,如果您希望在等位基因和等位基因G的情况和控制之间,但我看不出我看不出病例的等位基因a少得多,而对照组有更多的等位基因A。
好的,我如何衡量那口井的统计意义,我基本上可以看一个卡方统计数据,它基本上告诉我,考虑到我在这张桌子上的两个自由度,然后我可以看到一个具有两个自由度的卡方分布,基本上可以让我读出那个事件的p值。
我计算的方法是观察到的-预期平方除以预期,这就是我得到卡方分布的方法,然后我从桌子上抬起头来,我的列联表中有多少个自由度,然后就得到了它的p值,所以如果我有一个2。5的chi平方,这很远。
基本上接近于零,那是10的p值,到负7,谁和我在一起,我如何计算这些P值用于全基因组关联研究,所以我把基因组的每一个片段,我看A和G的频率,在控制的情况下,两个等位基因中的每一个。
我用卡方统计来寻找频率的偏差,然后根据矩阵的自由度数查找p值,好的,所有权利,六十二,二四四零,有什么问题吗?请把它们输入到聊天中,所以现在我可以执行了,如果有人想闭嘴问一个问题,拜托了,呃这样做。
但基本上这是,你知道的,一个非常简单的测试,简单地要求,与我所期望的有偏差吗,如果那个片段对表型没有影响,如果有一个影响,基本上意味着,我期望偶然看到分布的概率很小,这就是p值告诉我们的。
P值基本上是说我们可以拒绝假设,假设,根据等位基因对表型没有影响,我们可以肯定地拒绝它,你知道的,十到零下七,这是我所期望的,那么大的一个方块,只有你知道,百万分之一,好的,这些是p值。
我现在要在基因组中计算,我现在要在曼哈顿的一个阴谋中策划,曼哈顿的情节告诉我们,以曼哈顿镇的摩天大楼命名,曼哈顿阴谋告诉我们的是,卡方统计量的负对数10p值是多少。
这种平方统计量是在基因组的每一个片段上计算的,然后我问有多少片段有一个非常,极小p值,十到负十,十到负十三以此类推,好的,谁和我一起在曼哈顿的地块上,所以我在曼哈顿告诉我,是对数减去对数十吗。
该咬合与疾病随机相关的概率的p值,如果这个p值非常大,减去log 10 p值是非常高的,如果p值非常小,这基本上意味着这个片段与疾病没有随机联系,所有的权利,呃,七十四二一五零好的。
所以在我有了曼哈顿的阴谋之后,我可以取相同的p值,并将它们绘制在q q图上,然后我可以结合多项研究做各种额外的分析,我可以说好,呃,你知道的,在丹麦他们做了一项关于精神分裂症的研究。
在美国他们做了一项关于精神分裂症的研究,在亚洲,他们对精神分裂症进行了一项研究,所以我现在可以把所有这些,呃基本上有一个队列的组合,然后让我更有信心地评估每一个片段的关联,下一步是我们如何进行功能分析。
了解这些片段的作用是什么,比如说,我可以去打扰一下,就这样在A和G之间,然后看看它是否会改变发光活性,呃为了呃,增强器主要测量这是否是夹点,事实上扰乱了增强器,我们将在整个学期中更多地讨论这个问题。
当然,我可以做其他分析,我可以寻找基于基因的分析,我可以找路径分析,多基因风险估计,剪裁剪裁交互,我们将在,呃,下个星期二,所有的权利,挑战,当然,我们正在测试数以百万计的片段,我们是呃。
测试基因组中的每一个片段,因此,如果我看到一个p值是10到-7,我已经测试了七次,七减七,基本上是十到零下六,我测试了十到六种元素,那么也许我不应该那么兴奋,这就是全基因组意义的来源,这就是红线的作用。
这条红线基本上告诉我,考虑到我正在进行的大量测试,我不会兴奋的,除非某物的值是10的负8,好吧,或者5,10倾向于负8,如此略低于如此略显重要,这就是我们定义的基因组意义。
这基本上是基于20年前的信封背面计算,我基本上说好,我们最好再严格一点,因为我们的很多人都报告说有名义上的意义,你知道,这个领域并没有开始不信任我们,所以我们应该你知道,基于原始。
基因组中大约有一百万个独立的片段,让我们做一个信封背面的计算,基本上说,零点五除以一百万次测试,那是五的十倍减去八,这个数字就是这样产生的,事实证明,这个数字实际上相当准确,在很多呃重访之后,呃,以后。
所以我们谈到了曼哈顿阴谋,我们已经讨论过qq情节了,接下来是精细映射,好的,这是嗯,挑战它,原因是,人口仍然是一个非常小的人口,我们是,你知道的,自从我们离开非洲接管世界以来,人口非常多。
但我们的遗传变异仍然是相对较小的群体,这意味着,没有足够的时间让我们所有的片段,独立,人类基因组中只有少量的重组热点,已经,你知道的,世世代代破碎,基本上就是,当这种变异与疾病相关时。
然后附近的一堆其他变体,与该变体共同遗传的也与疾病有关,然后在我经历了这个重组热点之后,另一个重组热点,那么就没有其他变体与该变体共同继承,因此,这种因果变异的信号不会泄露出去,在这些联系之外。
这个平衡块边界,好的,所以让我回顾一下,过一会儿我们将再次深入讨论这个问题,但只有少量的重组发生在人类染色体上,跨越任何一代人跨越我们所有的世代,你知道,自从离开非洲事件以来。
这基本上意味着如果我在那个区域有一个变体,如果我在这个区域有A等位基因,我可以预测我也有,我们就叫它吧,这里的A等位基因,等位基因在那里,A等位基因在那里,A等位基因在那里。
所以如果我继承了我不知道嗯爱尔兰人,这里的呃版本,然后我到处都有继承的爱尔兰版本,但如果我继承了意大利版本,然后我到处都有意大利版,好的,那么,关于变异不是孤立遗传的这一事实,谁同意我的观点呢。
但它们是分块遗传的,因此,如果该区块中的一个变体具有爱尔兰等位基因,那么这个块中的每一个变体都有爱尔兰等位基因,好的,好的,非常的酷,所以嗯,因此我们需要做的是在我们发现该地区的联系之后。
我们现在需要去说,好的,嗯,但是那个区域的哪个单核苷酸多态性片段是,事实上对该协会负有责任,五五四一五零零,所以95%的人都在60%或以上,这是伟大的,所以呃,让我们在这里休息一下。
看看谁觉得他们学到了什么,好,所以我们在48,四十八零零,零是伟大的,然后是四个,嗯,好的,所以呃,和对速度的快速民意调查,我是不是开得太快了,太慢了,呃或者刚刚好,我肯定太快了,哦,恰到好处,嗯。
好的,所以投票的人说他们什么都没学到,也在说,啊,反正你开得太慢了,所以呃,就写百分之六十八,有点太快了,百分之二七,然后太慢了,百分之一,让我们深入研究一些结果。
所以这是克罗恩病的第一个基因组关联研究之一,由马克·戴利和他在布罗德研究所的同事们进行的,它发现了什么它在这里发现了一个区域,你可以看到所有这些点,它们远远高于基因组的意义,为什么有这么多的点。
原因是当你有一个链接不平衡区域,它们都有不同程度的联系,你看,你把它压扁,你知道的,当你展示整个基因组时,你基本上可以看到,所有这些其他片段基本上都是一字排开的,好的,所以这里有一个这样的区域。
这里的另一个这样的区域,哎呀嗯,稍等一下,当我移动的时候,国家等级被称为,你能和他们谈谈吗,我在做我的演讲,稍等一下,芭芭拉,我妻子正在上楼,两个不同的例子,其中一个也是通过链接发现的。
另一个不是通过链接发现的,所以这有点有趣,对呀,我告诉过你G在一边,然后连接在另一边,但是连锁分析也发现了这个区域,然后呃,全基因组关联研究只发现了,为什么如果你看一个也是通过链接发现的,不是十五张牌。
它的频率是百分之五,它的效果大小是三点零,这意味着什么这意味着如果你携带风险等位基因,那么你患这种疾病的可能性是其他人的三倍,患克罗恩病,相比之下,i,two,three,r。
这里实际上是一个保护性等位基因,这个等位基因降低了你的风险,所以稀有的等位基因,不太常见的等位基因降低了你的风险,这意味着什么这意味着当我做病例对照队列时,我为案子赚了很多钱。
我基本上只能找到风险增加的方差,因为我有很多案子,我很少会发现保护方差,好的,这些都是一些微妙的地方,但是你需要获得重要意义的联系谱系,对于这个有保护作用的人来说,将有3万人,三万个家庭,这根本不可行。
如果你看一个g十六l一,a g十六l一,那么它是一个风险等位基因,但这只会增加你40%的风险,而这个是百分之三百,对于这个人来说,发现40%的增长的微小影响,你需要四万度,好的,这就是为什么连锁分析。
G实际上是在普通和罕见的不同制度下作用的,这就是我想给你们看的著名幻灯片,一方面,你有一个共同的方差,g被捕获,另一方面,你有罕见的强效应等位基因,连锁捕捉到,好的,所有的权利,所以现在,呃。
我们讨论了一点单倍型,让我给你更多的背景,所以嗯再次,我们思考单倍型的方式是当你沿着基因组行走时,你基本上可以问,相关结构是什么,在所有这些并排排列的不同片段之间。
这个相关结构告诉你所有这些片段都是共同继承的,它们之间有一种联系,对不起,有一个重组热点,所有这些片段都是共同继承的,然后是另一个组合热点,所有这些都是共同继承的,热点的另一个住宿。
所有这些都是共同继承的,另一个在这里,以此类推,但它不仅仅是超级离散的,你知道这里有一个弱者,但也有很强的相关性,等等,所以基本上不是同意,否,只是重组的频率,谁和我在连接上是平衡的,呃。
这里的热点以及它们是如何在基因组上工作的,哦,对不起,对不起,错了保罗,你掉得太远了吗,你变得便宜,酷,所以呃,百分之九十的人都在六十岁或以上,这是伟大的,嗯好吧,所以这基本上是重组,呃。
然后我们可以量化它,呃,各种有趣的方式,然后呃,它因人群而异,你知道的,去非洲的染色体或略有不同,对不起,那个,你知道的,某种持续的非洲人口,与去欧洲的染色体相比,或者去亚洲的染色体彼此非常不同。
然后你可以在每个人中有不同的重组热点,然后有一种重组机制导致了这个热点,这种消除机制是由p d m 9指导的,基本上去找一个主题,然后在减数分裂过程中产生双链断裂,染色体排成一行。
每个配子都有正确数量的染色体,好的,这些双股断裂,和入侵的力量,和某种重组是排列染色体的关键,这也是你得到重组事件的原因,好的,所有的权利,所以我们现在发现了一个关联,我们如何弄清楚它是如何工作的。
所以我要告诉你们一项研究,克拉瑟和许多其他同事,呃,包括你知道的,我实验室的几个人,嗯参与了,几年前发表在《新英格兰医学杂志》上,这也许是对一个非,编码疾病位点,好的,这是从一个片段开始的。
从与疾病相关的单个核苷酸多态性,然后问,它是如何工作的,好的,然后一个人需要采取的六个步骤,呃,就是我们在这里拍的,所以让我们先潜入片段,这是对肥胖或体重指数的全基因组关联研究结果。
体重指数是衡量肥胖的指标,回到2007年,这个轨迹,它很快被更名为脂肪和肥胖相关的FTO实际上是,发现与肥胖有最强的遗传联系,所以人们基本上说,好的,这里有重要的东西,当你打开引擎盖。
就像我之前给你看的那样,你把它们并排排列,你看这里有两个重组热点,但是在这个5万个核苷酸区域中有89个常见的变体,都与疾病有关,所以这是摆在我们面前的挑战,我们如何理解,这东西是怎么工作的?
我们知道这个地区发生了一些事情,但我们不知道它是如何工作的,所以呃,步骤是什么,第一步是我们需要弄清楚它在哪里起作用,相关的组织和细胞类型是什么,第二个挑战是我们如何找到下游的目标基因。
因为这些是非编码变体,可能会影响FTO的表达,但也许它们影响了其他隐藏在远处的基因的表达,事实上,他们确实如此,我们如何在这个地区的许多变种中找到哪一个,是因果关系,就是。
如果我去基因组编辑这个或那个或那个,我会恢复表型吗,还是我需要找到正确的一个来这样做,我们怎么找到,控制它的上游调节器是什么,一个区域,其约束力因失去该变体和数字五和六而中断,我们如何建立细胞。
以及由此产生的有机体表型后果,呃,这些目标基因中,那么谁和我在一起,至少前面的挑战,的六个问题,它通过什么基因在哪里起作用,通过什么变体,然后它最终在细胞和组织层面上做什么,所以呃。
百分之一百的人都在百分之六十以上,伟大,五十三四十七零零,嗯,好的,那么我们该怎么做呢,第一个挑战是组织,这就是我们基本上看的地方,107种不同组织的表观基因组注释,整个路线图表观基因组学项目。
我们发现了这些超级增强剂,这一万两千个核苷酸增强子控制元件增强子通常很小,四百个核苷酸,也许一千个,如果你真的很幸运,但这是一万两千个核苷酸,这是一个主要的监管控制区,它正好位于这个关联区域。
它作用于白色脂肪细胞和米色脂肪细胞的祖细胞,它与肥胖有关,它决定了你的脂肪细胞是否分化为脂肪储存细胞,或者脂肪燃烧细胞,猜猜哪一个与肥胖有关,储存脂肪的人导致肥胖,燃烧脂肪的人导致了一些瘦的人。
因为它们燃烧了所有多余的卡路里,好的,这就是增强器起作用的地方,但是,我们还不知道剪断与这个过程有任何关系,第二步,正如我提到的,是找到目标基因,在这里,我向你们展示了人类基因组的重组热点。
以及附近所有的基因,你可以看到遗传关联非常紧密地局限在一个基因上,FTO,制药界超级兴奋,这就像伟大的,这里只有一个基因,我们知道是什么基因,但问题是,因为远程链接,和我们几周前谈到的远程循环。
所以其实,含有FTO遗传变异关联的区域,它是否与一堆其他基因有关,无论是右边还是左边,表明他们中的任何一个都可能是目标,因为他们正在形成这些循环,所以下一个挑战是我们如何找出。
所有这些候选基因在风险等位基因和非风险等位基因之间的表达发生变化,所以我们基本上去测量纯合子的表达,这些基因中的每一个都有风险和纯合的非风险个体,我们发现fto基因本身的表达没有变化。
取而代之的是这里的这个基因,它有很多,许多推荐块,这里的基因实际上位于一个点上,两百万个核苷酸一直到这里,几个基因之外的基因实际上是唯一两个在表达上发生变化的基因,表明x3和x5实际上是,目标基因。
到目前为止谁和我在一起,为这些非编码位点寻找目标基因,太厉害了,哇哦,你们真的和我在一起,注意风险等位基因实际上增加了表达,六十三七零式,风险等位基因增加表达,所以这是一个函数增益,这让我们意识到。
大多数时候我们都在说,哦,那个基因因疾病而失活,但没有,这两个基因,不能再绑定,下一个挑战是理解什么是因果片段,在那里我们使用调节母题分析和进化保守,我们能够确定单个核苷酸的改变。
破坏了这个进化保守的丰富母题,在那个位置有一个C,肥胖高危人群,我们去测试了一下,如果我们在CIS级别改变这个片段,如果我们在反式水平上改变上游调节器,那么我们实际上可以显示两者之间的上位性。
我来解释一下这个八十个丰富的主题是由这个,一个丰富的相互作用域蛋白,我们基本上说,我可以把上游的调节器撞倒吗,我可以改变风险和非风险个人之间的片段吗,只有当你有正确的主题,调节器处于活动状态。
你看到的压抑,如果你破坏了上游调节器或剪断,然后你看到德压抑,所以有一个上游调节器通常结合这个母题,当剪断发生时,阻遏子不能再结合,增强剂过度激活,和RX3和RX5被过度激活。
所以在增强子水平和基因表达水平上,只有完整的主题和完整的调节器才能得到抑制,这更复杂,但让我们看看谁在压力分析上跟着我,我们有了主题,我们有上游调节器,如果我们破坏两者,然后我们就有了去压抑。
如果我们打乱,如果我们两个都完好无损,那么我们就有了正确的压制,果然没问题,稍微低一点,三十五七四九零,嗯,好的,然后下一步很棒,我们有电路,我们有组织前脂肪细胞,来决定你是去燃烧脂肪还是去储存脂肪。
我们有目标基因IRX树和RX五,我们有基于基因组编辑的因果核苷酸,我们有上游调节器,里b,它实际上是如何运作的,然后我们需要看看细胞的后果,我们发现,我们的x t和rx 5与线粒体功能呈负相关。
并与脂质代谢呈正相关,事实上,个体线粒体较少的风险,它们有更大的脂肪细胞,表明从能量直流电控到能量储存的转变,我们基本上能够建立我们的模型,说我们能够从一个我们一无所知的协会地区,到剪掉,有母题的。
具有上游调节器,具有下游目标基因,并有生物过程,这基本上意味着我们可以介入并改变电路,并表明通过击倒下游的目标基因,我们可以在肥胖表型的线性之间来回转换,我们能够改变老鼠,把它们从正常体重变成超级瘦。
通过改变那个基因不被表达,然后这些老鼠在高脂肪饮食中无法增加体重,正常小鼠体重增加,这些老鼠无法增加体重,用CRISPR进行基因组编辑铸造九种基因组编辑,我们可以证明把T变成C,把C变回T。
能够改变下游靶基因的表达,然后再向下,所以从八十个丰富的主题,我打乱了主题,基因被去抑制了,阻遏子不能再结合,我恢复了那个主题,基因又被抑制了,然后我们可以从风险等位基因到保护性等位基因,把c改成t。
还原母题,然后砰的一声,生热过程,用耗氧率来测量实际上在细胞水平上完全恢复了,因此,这使得我们现在能够理解这个snp背后的机制,所以我想说我们写了一篇论文,关于三点中的一点信息。
人类基因组的20亿个核苷酸,从C到T,在脂肪燃烧细胞和脂肪储存细胞之间转换,好的,所以摆在我们面前的挑战是我们想再做一次,十二万次,我们想开发计算方法来系统地做到这一点,这就是我们今天要听到的。
来自我们的客座讲师,我希望他在这里,嗯,是呀,哦,完美的安妮来了,嘿嘿,一月,非常感谢,呃,你能分享你的屏幕并把它拿走吗,然后在星期二,我们会有很多关于,我们如何在系统层面系统地做到这一点。
所以简会告诉我们,我们可以使用我们已经听说过的深度学习技术,现在开始预测片段的影响,一次剪十二万根,而不是一次剪一个,呃果酱。
把它拿走,好的,谢谢。所以我是珍乔,我听不到你。
你的麦克风必须关闭,因为你不是哑巴,现在听我说,不,还是什么都没有,哦,你能听到他,但悄悄地,好的,让我提高音量,哦,我的音量关了,好的,太棒了珍,他们能听到你,我不能,好的,所以没事,对,是啊,是啊。
完美。
好的很好,所以我是珍,我是UT西南地区的助理教授,我很高兴,嗯,今天和你谈谈我们在部署基因组序列模型方面的一些工作,尤其是符合今天的主题,我将专注于这些模型的应用,事实上预测。
所以我将从一点动机开始,我们对研究这个问题很感兴趣,首先,我们每个人都有不同的基因组,正确和基因组可以给我们不同的特征,并可能使我们容易患不同的疾病,任何两个基因组之间都有许多差异。
甚至可能会有差异突变只有你和一个人,因此,用实验方法来研究这些问题是非常困难的,如果不是不可能的话,单个基因组变异,所以说,因此,我们希望有一个方法,计算预测这些基因组差异的影响,另一方面,当然啦。
同一个基因组产生了所有这些不同的细胞类型,相同的基因组必须在不同的细胞类型中得到不同的利用,在不同的细胞类型中调节这些表达和其他过程,当然,有大量关于这一点的研究,但我们仍然没有达到我们可以说的水平。
比如给定一个序列或给定一个特定的突变,它对所有这些细胞类型会有什么影响,所以我们想更好地了解风暴是如何,基因组序列的序列、突变和方差影响着所有这些,um细胞类型,特定条例及其对人类健康的影响。
所以我们采用机器学习的方法来利用我们的基因组序列,以及可用于建立模型的大量功能基因组数据,可以预测基因组序列和序列变化的影响。
所以我会从头开始,所以我们看到的第一个问题是我们认为,作为基于基因组序列调控的第一步,即基因组序列如何决定单个转录因子的结合,随后染色质的组织,包括组蛋白修改和计数可访问性,所以我们希望能够做到。
我们想训练模型,从整个基因组的基因组序列中预测,并预测不同转移因子和组蛋白修饰的结合,在这个序列的中心,在不同的细胞类型中裁剪可访问性,当时还没有任何基因组序列的深度学习模型。
我们选择使用深度学习模型的原因,特别是深卷积网络模型,主要是因为它满足了我们三个,嗯,我们想要构建到我们的调节序列模型中的要求,所以首先,我们希望模型能够使用大序列和长序列上下文,因为很明显。
如果你只看一个主题,你不会,准确预测GF结合是不够的,所以我们真的希望能够利用序列上下文,其次,因为我们希望利用大序列上下文来有效地使用它,然后呢,我们必须能够模拟序列不同区域之间的非线性相互作用。
第三,因为我们预测了所有这些不同的转移因子和染色质的性质,我们希望能够分享从所有这些测试中学到的序列特征,因为预测一个转移因子结合的序列模式,也可用于预测另一个相关相互作用因素的结合。
所有这些蛋白质和活塞标记都在相互作用,所以对一个人来说有信息的东西对另一个人来说也是有信息的,所以您希望模型能够共享彼此的信息,所以一个深卷积网络模型可以给我们所有这三个特征,事实上。
它在做出这些预测时非常有效,所以我只想简单介绍一下模型的实际设计,因为我意识到你已经了解了几个卷积网络模型,基于卷积网络的序列模型,所以这在当时是新的,但现在他们已经,很多研究都在使用卷积网络结构。
研究基因组序列,但基本原则还是一样的,所以在卷积网络中,我们使用卷积层来学习不同级别的序列特征,在较低的水平上,它学习,你可以把它看作是学习母题的等价物,在更高的层次上,它学习更高阶的序列模式。
比如你可以考虑的主题,所以那些较长的序列模式,并且能够学习那些分层的多层次或特征,我们必须在网络中建立一个空间缩放机制,因此,您可以通过使用池机制来实现这一点。
或者你也可以通过在卷积中引入膨胀来实现这一点,你需要引入某种空间缩放,在顶部,我们的网络,我们总是在整个序列中提取信息,我们想把整个序列的信息组合起来,有很多不同的方法可以做到这一点。
但有一点要记住如果你想做出特定位置的预测,比如说,在我们的情况下,我们想预测这个序列中心的效果,那么您希望保留空间信息,所以我们不想使用一些嗯层,比如全局最大池,这会抹去你的空间分辨率。
所以你会想要做出有特定位置的预测,那么您需要使用一些机制来保存空间信息,用这个模型训练,所以说,我们实际上有一个很好的模型来预测这些训练,载体和组蛋白修饰,我们能做什么呢。
即使模型是在整个基因组的基因组序列上训练的,而没有看到任何基因组变异,我们实际上可以要求模型对任何序列做出预测,和,这意味着我们可以用它来预测任何地球变化的影响,比如说,在这种情况下。
我们想预测把这个核苷酸从A变成C的效果,然后我们可以给模型两个序列,只相差一个变体,然后我们可以看看模型中的两组预测,对于这些变体中的每一个,如果我们预测狮子座a,我们对这个转移因子有很高的束缚。
而我们对狮子座C的束缚大大减少,那么我们预测这种变体实际上会减少反式,减少这个转移向量的束缚,所以现在的问题是我们如何知道如果我们的预测是准确的,所以当时没有多少,即使现在。
在染色质水平上改变影响的变异体的高质量例子并不多,以便地址,我们实际上研究了那些非常深入的基因组数据集,在本例中,我们研究了大约30种细胞类型的DNA序列数据集。
然后在那些深度测序的DNA SEQ数据集中,我们在这个样本中寻找有异方差的位置,对于那些杂合子变体,然后我们寻找其中一个等位基因是否更有代表性,在此数据集中比其他等位基因表示,比如说。
如果参考狮子座在以下数据中更多地表示,这可能表明这个等位基因可能比另一层更敏感,反之亦然,有了这个,我们可以得到大量的假定变体,这对DNA敏感性有影响,我们现在也可以要求模型做出这个预测。
所以我们可以给模型这个,它的序列携带这个变体,并更早地预测参考LEO和替代方案的不敏感性,并与模型预测,我们现在可以和我们的实验结果进行比较,对呀,所以我们用这个图把它形象化,在x轴上。
我们绘制了替代方案的预测,从零到一的概率尺度,在y轴上,我绘制了参考层的概率,每一个点都是一个变体,现在我们要把这个和,哦,我要用实验结果给它上色,所以如果我们的预测是正确的。
那么那些对角线的点是参考偏置的,这意味着它更敏感,对参考的dna敏感,应标记为蓝色,而那些在对角线以下的应该是更有偏向的,并且应该贴上红色的标签,事实确实如此,尤其是如果你调查这个情节。
我们的精度越来越高,如果你找那些,嗯,变体是对狮子座其他部分的预测和对赫利奥的预测之间的更强差异,或者当我们过滤最有信心的预测时,我们可以看到做出这样的预测的更高准确性。
所以我们可以用这样的曲线来量化这个性能,其中x轴本质上是到对角线的距离,在y轴上,我们看到预测的准确性,哪个等位基因非常敏感,这里的每一行都是一种单元格类型,这里的粗线是所有三种五种细胞类型的平均值。
这个评估实际上有一个特点,那个,我没告诉你,在我们的标准中出现假阳性实际上是强有力的,所以我们正在检测那些参考层和替代的有偏方差,我们不能保证,但不保证,我们检测到的每一个变异实际上都有因果影响。
所以这可能会有假阳性,但如果我们的模型是好的,然后它就能过滤出真正的积极因素,当我们设置一个阈值,筛选强烈预测会产生强烈影响的变体,对呀,所以如果模型好,然后它就能挑出真正的积极因素并预测它的方向性。
如果模型不能做到这一点,那么它就不会有更高的精度,所以这允许我们评估这一点,即使是那些不完美的,去标准,我们也为组蛋白标记QTLS做了这个,这些变异与组蛋白标记有关但不一定是因果关系。
我们可以看到我们也可以预测,与较高组蛋白标记有关的等位基因,最后对于过渡因子,我们最初没有做这个评估,因为测量传输因子发现的芯片棒数据集通常具有较低的覆盖率,但实际上,后来,一个独立小组也做了这项评估。
向大家展示一下,DC实际上也很擅长预测,瞬态因子数据集的狮子座不平衡,即使测量噪音更大,我们有能力预测这些变体的影响,现在我们可以,当然啦,适用于预测任何变体,包括那些我们从未见过的,例如。
对于单个序列,我们可以将所有可能的单核突变引入序列的每个位置,并预测其效果,我把这种方法叫做硅诱变,和硅负极生成,我们可以这样看序列,所以我们知道这些位置的突变会降低这个转移因子的结合。
而其他一些突变会增加这种转移载体的结合,我们可以将其应用于几种不同的非致病性突变,我们看到的是,不仅仅是已知的突变在影响这种转变因子方面有报道的影响,绑定,我们还预测了围绕这一点的许多其他突变。
这个有类似甚至更强效果的网站,这意味着如果将来,我们有一个患有同样疾病的病人,但是有不同的突变引起同样的效果,即使它不是最初的突变,我们也许可以预测这种突变可能有,可能通过相同的机制引起相同的疾病。
那么我有多少时间,通常这节课两点五结束,但我们通常会说百分之一百的时间是30,我想过了三十岁可能不是个好主意,好的,所以我的目标是30完美,好的,现在我要告诉你们另一个分子水平效应预测的例子,当然。
在我们能够预测铬水平的影响之后,我们希望能够预测,我们是否能特别研究清表达水平上的变体的影响,在这方面有很多挑战,我不会说这个问题已经解决了,这个问题远未解决,但这是我们第一次尝试解决这个问题。
其中一个实际上,预测基因表达的两个挑战是,首先,它依赖于更大的调节序列,所以你需要考虑一个更大的区域,其次,实际上训练数据更少,提供训练样本,所以我们考虑基因表达的预测。
那么我们就会受到基因组中基因数量的限制,所以我们没有无限数量的训练样本,所以我们必须聪明地构建我们的功能,不要过度拟合此数据集,所以这样做是为了解决第一个问题,我们实际上只看一个40千比特对的广阔区域。
并应用了一个预先训练的泵送液位预测模型,在这个窗口的每个不同位置预测,使用滑动窗口,所以我们实际上预测了每个剖面的空间模式,现在有了这种特殊的社区配置文件模式。
我们想训练一个模型来预测这个模型中的基因表达,我们实际上只是使用正则化线性模型,它学习每个量子图谱对每个不同位置的基因表达的贡献,所以我们从每个基因表达谱预测中了解到这些平滑的贡献模式。
我们如何用线性模型来做到这一点,所以说,他们看到的每一条曲线实际上都是基函数的线性组合,指数基函数,为了做到这一点,我们可以。
其实很简单,我们可以在这里改变我们的空间模式。
现在我把它表示为一个矩阵。
这里的每一列都是不同的空间位置,我用多个指数基函数变换它,申请下游,上游5个,和,我们可以计算这些空间特征的加权和,对于这些指数基函数中的每一个,导致多个概括的空间特征。
现在如果我们在这些线性空间特征上训练一个线性模型,我们实际上是在学习这些指数基函数的线性组合,关于这些组合图谱对基因表达的贡献。
当然啦,这些常见的剖面也是从序列中预测的,所以现在我们可以做同样的把戏,我们可以预测任何变体对基因表达的影响,我们也可以用类似的方法来评估,所以现在我们使用的是关于情商的数据,tls。
我们知道哪个变体与,变体的哪个LEO与更高的表达有关,我们也看到我们可以非常准确地预测所有这些方向性,使用我们的方法跨多个数据集,所以我想只要有时间,我就会跳过剩下的部分。
我会说我会说我很想听到自闭症的故事,呃变体,尤其是因为我认为这种罕见的极端是特别有趣的。
好的,我再给你们讲一个关于自闭症的故事,伟大,所以说,所以说,我们喜欢运用我们的能力来预测,基因组变异对实际人类疾病数据的影响,对呀,所以我们考虑的一个应用是这些新的,包括突变导致自闭症等疾病。
所以正常的突变是一个突变家族通常在人类群体中非常罕见,这是一种只在你身上的突变,但不是你父母中的任何一个,我们通常对这些基因组突变知之甚少,特别是对于正常的非编码突变,所以这很难归因于。
这些非限制是否会导致疾病,所以在自闭症的情况下,我们以前不知道的,正常的编码突变是自闭症的主要原因,我们现在知道的关于我自闭症的大部分知识都是从编码突变中学到的,但目前还很难发现模仿的贡献。
这是我们掌握的数据,所以我们有来自单纯性家族的自闭症突变教派,这意味着我们有一个自闭症个体和另一个没有自闭症的个体,也就是我们的控制,所以我们可以从患有自闭症的两个问题中获得突变。
然后是不受影响的兄弟姐妹,然后我们可以比较这两组突变看看是否有显著的差异,如果我们用数字来比较这两组突变,实际上很难看出区别,即使你分集到不同的基因组区域。
所以我们认为也许我们可以用不同的方式来看待这个问题,现在我们有能力预测这些突变的影响,所以我和我的合作者克里斯制作了这些来训练,这两套不同的模型,所以一个类似于我所说的深海,预测腐烂剖面。
另一个被训练来预测铁结合蛋白的结合图谱,它预测铁水平的影响,所以现在有了这两个模型,我们实际上可以将突变的影响总结为一个分数,在dna水平和rna水平上,现在我们可以比较程序突变和简单突变。
看看问题突变是否比简单的限制有更强的影响,对,这确实是我们看到的,所以我们看到了这两个问题,对于DNA水平和C和RNN水平,与兄弟姐妹相比,我们在问题上看到了更强的影响,我们看到更强的效果。
如果我们专注于以前已知与自闭症相关的基因集,通过编码突变,这些只是精选的基因集,所以在这里我给你看,我们在这项研究中考虑的基因集,所以在所有的基因集合中,并且有多次假设校正,在所有这些测试中。
这些基因集是校正后有意义的,我们看到有最强的是,比如说,大脑表达了影响眼睛和结合蛋白结合的基因,也适用于所有这些重要的类别,我们看到问题带的影响比兄弟姐妹更大,这也证实了我们正在检测一个贡献。
从这些突变到自闭症,最后,我们还想做一些公正的分析,所以这里我们使用的是以前已知的基因集,我们希望能够看到非编码突变的贡献,以相对公正的方式,这在健身房是很有挑战性的,因为我们缺乏统计能力。
所以在单个基因水平上说这是不可能的,与兄弟姐妹相比,我们在程序中看到了更强的影响,所以我们做了一个基于网络邻居的分析,所以现在我们在看,所以给定一个基因网络。
我们已经从以前的研究中得到了关于功能关系的信息,关于我们现在可以看到的单个基因及其网络邻域的基因,与兄弟姐妹突变相比,我们是否有更强的效应程序突变,所以我们可以做一个加权测试。
这是由所有邻里基因的网络连接加权的,对感兴趣的基因进行比较,现在我们看到这些是网络邻居,强烈地丰富了,与兄弟姐妹相比,在问题上有更强的影响,这些基因实际上聚集成两组,所以一个是突触相关基因。
另一个是染色质调节相关基因,实际上,这两个群体碰巧是享有特权的群体,以前在自闭症个体中发现的UM编码突变表明了这个问题,所以这表明编码所指示的机制的收敛,和非编码突变,所以我就停在这里。
去看我最后一张幻灯片,让我们感谢我所有参与这些研究的合作者,如果你有任何问题,也可以给我发邮件,也就是,伟大,非常感谢你我看到你想用你的代码,早些时候,你想炫耀一下,呃,哦耶,所以我们有一个。
我们有一个序列模型库,实际上是为了帮助你开发,训练和评估序列模型,这也是我们所依赖的图书馆的模型,我们欢迎您使用它并给我们反馈,非常的酷,这个图书馆是由一个才华横溢的学生开发的,有一个下巴。
它有一个非常漂亮的希腊名字,是呀,月亮女神,所有的权利,太感谢你了。
所以我想让每个人都告诉我,呃,你们觉得自己学到了什么,呃,让我们看看真棒,太厉害了,我看到很多掌声,太棒了看看那个,百分之百,这真的是最好的,百分百的零,这太棒了,好的,太厉害了,再次感谢你的精彩演讲。
感谢大家留下来。
P13:Lecture 13 - GWAS mechanism - 爱可可-爱生活 - BV1wV411q7RE
所以欢迎大家今天我们将讨论gewas机制,所以我们继续上次到现在的课程,看全局变量,如表观基因组富集,查看EQTL或表达式,数量性状,基因座,并研究调解和因果关系,我们将有朴永进教授的客座讲座。
来自不列颠哥伦比亚大学,我们要简单回顾一下,gwas和查找映射和位点机制剖析,然后我们将研究全球浓缩分析的不同方法,利用表观基因组学推断作用调节剂的组织,细胞类型与靶基因。
然后我们要看eqtls或表达式,数量性状,位点与中介,了解中间分子表型,遗传变异最终作用于疾病,然后我们要看看全基因组关联研究的主力,也是线性混合模型的eQTL,研究混合效应和随机效应。
固定效应和随机效应,以及这些如何混合在一起进行表型的最终预测,然后我们要看看多基因风险评分,以及我们如何对所有变体求和,你知道许多预测表型的修改,然后呃,我们要看看遗传力,然后呃,你知道吗。
在这里的某个地方,我们要过渡到客座演讲,我们将在星期四的课上讨论剩下的主题,就在艾尔的价格的客座演讲之前,所以呃,让我们直接跳进去,所以我们上次讲的是第一个,在少量影响大的变体和非常。
非常多的小效果变体,以及孟德尔分析是如何捕捉到这些非常强的效应变体的,而全基因组关联研究主要捕捉常见的变体,它们本质上大多是非编码的,大多是微弱的影响,否则它们就不会上升到高频,因此,在人类群体中。
对常见的强效应变体有一种固有的选择,导致了孟德尔变体之间的二分法,这些变体没有被引用,允许未报价上升到高频,然后是不允许高效果大小的常见变体,我们还讨论了常见的变体,事实上落在单倍型块中。
其中一个特定的公共变体与同一块中的许多其他公共变体共同继承,这使得很难推断有时数百种变体中的哪一种是,事实上,当我们发现这种块与疾病的联系时,这是因果关系,我们看到了一个机械剖析非编码关联的例子。
从确定组织和细胞的作用类型开始,基于这些表观基因组丰富,我们今天要更多地讨论,利用eQTL预测目标基因,我们今天要更多地讨论,利用贝叶斯精细映射推断因果核苷酸,我们今天要更多地讨论。
并利用调控母题丰富来推断上游调节器,以及细胞和器官表型,以及我们如何将所有这些应用于fto轨迹,与肥胖最强的遗传联系来推断电路,一旦我们有了电路,能够真正操纵电路,为了逆转疾病表型,所以今天。
我们将深入研究一些全球性的方法,使我们能够同时在数千个基因位点上进行这些类型的推断,所以我们将研究全球浓缩分析的方法,预测疾病相关组织,监管者,细胞类型与靶基因,所以再一次。
我们的目标是了解曼哈顿的这些情节,呃,看看功能驱动程序是什么,这些山峰背后的机械基础是什么,这里真正令人兴奋的是,是因为我们不是一次研究一个山峰吗,我们不必只是说好,我们首先要研究fto轨迹。
然后我们要去孤立地研究那个位点,然后是孤立的这个位点然后是孤立的那个位点,取而代之的是,我们要做的是说出所有这些基因座的共同点,通过共同研究它们,我们将能够推断属性。
可以让我们回到这些基因座中的任何一个,并利用这些特性,换句话说,如果我们发现在所有这些基因座中都有一种浓缩,在一个轨迹中重叠的许多变体中,许多不同类型的增强剂,我们可以说,啊哈。
脂肪细胞增强器重叠的那个,更有可能是因果关系,因为我在所有这些基因座的全局范围内看到了这个属性,好的,那么到目前为止谁和我在一起,上,使用公共全局属性来学习跨越所有这些轨迹的东西的概念。
然后用这些东西回到单个基因座,看看它如何应用于这些基因座,伟大,所以我们在61,三个,五个,四零,零,所以目标,当然啦,遗传学的基础是我们将有一些公正的因果关系,我们将用它来研究疾病机制,预测目标基因。
治疗学与个性化医学,机制的挑战是,在这些地区的绝大多数,没有蛋白质编码改变,这是全基因组关联研究的一个特点,专门寻找常见的变异,和复杂特征的特征,它们实际上是由成千上万的弱效应变体控制的。
这些变体主要是非编码的,所以这意味着目标基因是未知的,因果变体尚不清楚,细胞的作用类型,途径和机制尚不清楚,所以我们在今天的课上要利用的,所有这些用于细胞电路表观基因组注释的数据集。
以及所有这些用于预测哪些主题的深度学习模型,呃,哪个基序中断更有可能产生表型后果,当改变这些变异时,哪些目标基因在表达上发生了变化,等等,等等,许多这些高通量验证研究,我们将在本学期晚些时候讨论。
所以关键的想法是,我们不会一次只看一个地方,我们要看所有的,所以我们要学习,比如说,所有与身高相关的遗传变异,所有与一型糖尿病相关的遗传变异,有血压,胆固醇等等,等等,关键的想法是这些特征可以相互控制。
那个,通过观察身高和一型糖尿病之间的差异,有血压和胆固醇的人,我们将学习一些不仅仅是公共财产的东西,可能更经常与疾病相关的长单倍型的特性,等等,对这些特征中的每一个都是如此。
我们将研究所有基因座的全局重叠,当你观察所有与身高相关的遗传变异时,你问,它们是否经常重叠增强子注释,在干细胞中活跃,然后你会看到这里的丰富,但对其他的来说不是,一型糖尿病也是如此,我们要问。
与1型糖尿病相关的遗传位点和免疫功能之间的全球重叠是什么,血压,我们会发现与血压相关的基因变异是重叠的,心脏活性增强剂,肝脏中相关胆固醇或重叠增强子的遗传变异,等等,如此,每一个特征都是如此。
我们要找到某个p值阈值的所有相关区域,我们要把所有的片段,可信区间内的所有单核苷酸多态性,我们通常用r的平方大于8,所以回到这里的这张照片,我们试图在这个轨迹之间找到一个全球富集。
这个基因座和许多其他与疾病相关的基因座,但我们不知道这个区域内的哪个变体是驱动变体,所以说,我们只是简单地考虑所有的片段,在可信的间隔内,然后在所有共同选择的,我们将考虑可信区间内的所有步骤。
然后我们要评估,如果这些片段和组织特异性增强剂之间的重叠,和,我们将保留显示出某种显著丰富的组织,我们将评估这种浓缩,使用超几何统计量,二项式统计量,某种概率,给定增强器注释覆盖的所有片段的分数,因此。
我们偶然预期的分数,与我们发现的实际重叠该特征的分数相比,然后我们要重复所有的特征,这将是我们矩阵的行,和所有列,对于所有的细胞类型和组织,这些细胞和组织将成为我们基质的柱,好的。
所以当我们这样做的时候,我们发现与所有这些不同特征相关的遗传变异,在这些组织中活跃的所有增强子中,所以我之前给你们看了身高的例子,与身高相关的遗传变异,特别是富含增强子,胚胎干细胞中的um活性。
与许多免疫特征相关的遗传变异,富含T细胞和B细胞增强剂,血压变化正在增加,特别是作用于左心室的增强器等等,诸如此类,好的,所以我要停在那里,看看到目前为止谁和我在一起,我们如何进行这些全球丰富。
以有效地寻找财产,这将使我们能够独立地解释任何一个疾病位点,好的,所以我们在六十七,二九五零零,这太棒了,有时会有惊喜,例如,我们很惊讶地看到,阿尔茨海默病没有全球丰富的增强剂,活跃于大脑。
取而代之的是,阿尔茨海默氏症被强化为增强剂,CD14+细胞单核细胞活性,我们的发现,事实上,阿尔茨海默氏症有两种不同的成分,阿尔茨海默氏症的免疫成分很早就被激活了,然后是阿尔茨海默氏症的神经元成分。
在疾病进展的后期被抑制,和,事实上,阿尔茨海默氏症的浓缩是非常具体的,在14个以上的细胞中告诉我们这可能与小胶质细胞有关,这些也用光盘十四标记,这是两个循环巨噬细胞的细胞表面标记。
循环单核细胞和组织驻留巨噬细胞,包括小胶质细胞,这是大脑的特殊巨噬细胞,这基本上告诉我们,神经元不是主要作用于,阿尔茨海默氏症的基因变异可能有什么作用,在大脑的免疫细胞中首先起作用。
然后这导致我们实际上假设了这一点,你知道的,许多年前,我们一次又一次地发现,越来越多的证据表明基因变异似乎首先在免疫细胞中起作用,而不是神经细胞,好的,这样我们就可以开始对所有这些丰富的东西进行聚类。
在这里圆圈的不同组织之间,和圆形盒子里的盒子里的不同行业,使我们能够,比如说,看看胆固醇和肝脏,溃疡性结肠炎,这是一种炎症性肠病,这两者都涉及免疫过程和消化组织,心率极化与左心室高度。
用胚胎干细胞和成纤维细胞,然后阿尔茨海默氏症坐在这里的免疫力中,呃,性状,但特别是单核细胞,而不是任何这些循环呃,适应性免疫细胞,好的,所以呃,我们现在可以开始在贝叶斯框架中使用这些信息,回去说。
哪些与疾病相关的基因变异更有可能发挥作用,所以我们要用的是,一种贝叶斯方法,允许我们说,嗯,如果我有一组全局的表观基因组注释,我可以用我观察到的丰富作为经验先验,这让我可以说,在没有任何g的情况下。
这是一个轨迹的证据,我希望重叠的片段,假设免疫细胞中的增强子更有可能发挥作用,在克罗恩病或阿尔茨海默氏症中,所以这给了我先验,或,反过来说,如果我发现与精神分裂症相关的基因变异,在中枢神经系统中。
这再次给了我一个强有力的先验,如果一个片段重叠,中枢神经系统增强剂,更有可能是因果片段,好的,这里的每个人都和我一起讨论我们如何服用这些丰富的药物,然后把它们变成前科。
所以当我们在一个特定的位置上有多个片段时,我们可以说与,一些东西,这与全球图景一致,更有可能是因果关系,我们现在是5 8 3 7 0,五零,所以我们现在可以用这个来说,好的。
让我们现在结合这个来自表观基因组注释的先验,根据来自GIS汇总统计的证据,开始建立一个后验概率,即一个特定的变体是因果关系,所以我们基本上要结合一号的信息,片段在哪里的先验,这不仅仅是一个随机的先验。
这是观察到的经验先验,从全球浓缩中获得的,然后任何一个位点的证据,然后说,基于所有这些变体的初始得分,后验概率是多少,这些变体中的每一个都被预测为因果关系,好的,所以说,这现在需要数百个SNP。
这些精神分裂症基因座或克罗恩病基因座,然后优先考虑那些既显示出很高可能性的,基于G是基于表观基因组重叠的高先验,因此后验概率很高,这里的每个人都和我在一起,我们如何结合来自经验基因组富集的先前证据。
具有基因位点特异性,遗传位点特异性与特定关联重叠,然后寻找基因组中每一个片段的后验概率,伟大,所以我们在63,三二五,零,零,当我们这样做的时候,我们基本上发现被优先考虑的片段,使用这种后验概率方法。
在一种方法中呃,我小组中的尤利开发了一个叫做里维埃拉的,这些片段更有可能是进化上保守的,与基因组关联研究直接优先考虑的其他片段相比,它们更有可能在TL中本地化,和数字基因组足迹。
这些是高分辨率的DNA可访问位点,这就是现在,你知道的,关于我们现在如何开始系统地理解这些基因座的一个关键想法,所以这是你知道的,我们五年前做的工作,从那以后,我们极大地扩大了表观基因组的数量。
以及我们可以这样做的分析类型,就在几周前,我们在EPMAP上发表了这项新工作,它在许多方面是表观基因组路线图的追随者,从127个P基因组扩展,到八百三十四个基因组,这基本上扩展了这张桌子。
我们以前从54个丰富的Gtrait,到五百三十四个富饶海峡,更有趣的是,我们现在有三万个基因组范围内的相关变体,富集增强剂,这基本上给了我们许多高度特定的联想。
我们现在可以利用我之前给你们展示的网络绘制遗传方差,通过它们的变体遗憾的遗传性状,它们重叠的增强子,开始谈论认知特征,比如精神分裂症,抑郁症,教育程度,智力的一些衡量标准,数学,最高数学课,等。
对大脑中活跃的增强剂,大量的单核细胞,血液相关性状,免疫特性,等,在免疫细胞中活跃的增强子等等,等等,我们能看到的另一件事是,极其多因子的特征,这些特征有很多,许多不同的丰富,我们现在可以开始做的是。
将所有与这些性状相关的遗传位点划分到特定的组织中,它们是重叠的,所以令人兴奋的事情之一不仅仅是说,哦太好了,有一件T恤重叠了,但要说得好,在某些情况下,有多个组织以显著的方式重叠,这些呃。
冠状动脉疾病相关,呃,snps,我们现在可以开始划分所有的基因座,到肝脏重叠的地方,或者重叠冠状动脉的,重叠甲状腺的,脂肪组织等,我们发现非常有趣的是,与这些基因座相关的生物学功能是截然不同的。
使我们能够将这些非常复杂的特征划分为它们更简单的组件,我们也可以在单个基因座的水平上做到这一点,通过询问,如果我在基因组范围内,显著基因座及其P值,然后我问,这个位置的片段之间的距离是多少。
在这些组织中活跃的增强子,这些距离有时短至30个核苷酸,或者一点一千个核苷酸或者两点,三千核苷酸,这样您就可以开始对直接重叠的基因座进行优先级排序,或者有时很远的基因座。
有一些很酷的例子实际上突出了多因素,的,你知道的,冠状动脉疾病的复杂性,有一些与肝脏重叠的基因座,其他心脏重叠的,和其他重叠的东西,只是为了带你浏览这张照片,这些是我们前面看到的相同的G是汇总统计数据。
这些是曼哈顿的地块,但放大到这些基因座,然后你可以找到有一个片段的地方,一个单一的核苷酸变体,非常紧密地联系在一起,而其他的都比较低,这里的断裂重叠了,特别是一种肝脏增强剂,他实际上与P的发起人有联系。
c,九号基因,这已经被证明是一种非常可靠的治疗冠心病的药物靶点,这里有另一个例子,其中不是一个片段和一个关联,我们现在有两个基因座,一个在这里,另一个在那里,似乎独立地联系在一起。
但这两者实际上都被预测与心脏相关基因有关,这是另一个,你可以看到这些非常多的片段,所有这些都属于与性状相关的增强子,所有这些都与相同的两个基因有关,一个表达在心脏,一个表达在肝脏,好的。
所以谁在这里跟随我的整个概念,把这些复杂的特征,把它们分成片段,然后沿着轨迹列表,观察与不同类型增强子重叠的基因座,然后将它们与目标基因联系起来,所以六十二,三个,一个,零,八,零。
我们现在能做的另一件事是不要问,我可以利用现有的基因座,并优先考虑它们之间的因果片段吗,但我们也可以选择没有达到全基因组意义的新基因座,所以这里是十的负数,你知道的,5乘以10到负8基因组宽显著阈值。
那是红方块顶部的虚线,然后上面的任何东西,它在全基因组范围内具有重要意义,这基本上是说有许多基因座与心率极化有关,在这个特殊的例子中,这些例子正在上升到全基因组的重要性。
我们现在能把注意力集中在那些没有引起全基因组意义的东西上吗,然后用同样的方法,我们有可能来自全基因组关联研究,然后我们有一个来自全基因组丰富的先验,重要的是,它允许我们现在开始优先考虑子阈值基因座。
有时比全基因组意义低三个数量级,所以要做到这一点,我们基本上使用机器学习方法,使我们能够预测,哪些片段更有可能在全基因组范围内具有重要意义,然后使用这些特征作为预测器来优先考虑亚阈值变体。
你可以看到其中一些是,你知道的,十到零下五,这是三个数量级,小于十到零下八,小于10到负8,所以说,事实上当我们去实验测试它们时其中许多都显示了额外的证据,所以使用硫磺记者或三维染色质确认捕获。
我们实际上可以看到,其中许多实际上是联系在一起的,以很有意义的基因为目标,如果你放眼全球,你看这个,在亚阈值位点中被预测为靶点的基因,对于相关的基因组关联研究来说非常丰富。
这项最初的研究是针对QT间隔的,有不同的时间,心率极化点,有Q R S T等等,心率两极分化的地方,然后QRS是一个不同的间隔,事实上,其中许多都非常丰富,这些基因在小鼠表型中的缺失,你又看到了。
使用这种方法优先考虑的基因非常丰富,然后我们取了其中的两个基因,而我们,你知道的,我们看到我们确实可以,我们能够改变这些基因的心脏极化持续时间,尽管在某些情况下,它们比基因组范围的意义要远一千倍,好的。
所以谁同意我的这个概念,我们不仅可以理解没有节点SI,但我们也可以通过学习基因组范围内的特征来发现新的基因座,然后应用这些特征对亚阈值基因座进行优先级排序,好的,所以七十二八零零零,如此如此,呃。
他们觉得自己今天学到了一些东西,所以让我们在这里交换杆子,谁觉得他们学到了一些很棒的东西,让我们看看,非常的帅气,所以四十二,四十二,十一,零五,然后在速度方面,到目前为止速度如何,我是不是开得太快了。
恰到好处,太慢了,太厉害了,好的,所以大约50%的人说刚刚好,你认识的很多人,有点太快了,几乎没有人说太慢,好的,所以呃,现在我们切换到eqtls,所以我们基本上已经讨论过了,只是一个简单的总结。
我们如何机械地解剖这些基因座,然后我们如何通过表观基因组学利用全球丰富,推断相关组织,细胞类型与靶基因,现在让我们更深入地研究目标基因,通过观察表达,数量性状基因座,所以这里的想法是。
不要把疾病视为最终的表型,它是一种全球性的有机体表型,我们不会把表达看作是中间表型,我们将研究疾病的中间分子表型,这个想法是我们想弥合基因变异和疾病之间的差距,这是一个非常非常长的差距。
有成千上万的基因变体贡献极其缓慢,对疾病的反应极其缓慢,而不是看着那个非常大的差距,我们要说,嗯,让我们把注意力集中在特定的组织上,让我们关注特定的表观基因组机制,特异性基因表达改变。
和我们可以在体内测量的表型的特定末端,而不是谁患有阿尔茨海默氏症,然后我们也许可以说这个片段特别影响大脑,特别是大脑内的增强剂,特别是增强子下游基因的表达,特别是淀粉样蛋白,最终是疾病,所以挑战。
当然啦,这些中间表型中的许多实际上可能是疾病的结果,而不是疾病的原因,和许多其他可能只是环境变化的原因,影响疾病和基因表达模式,其他人可能实际上是在对抗这种疾病。
所以他们实际上可能会增加表达来对抗这种疾病,因此,操纵它们实际上可能会让事情变得更糟,而不是让事情变得更好,其他的可能只是相关的,而不是因果关系,所以我们今天要有一个客座讲座,关于因果关系推理。
但我们也可以做的是,利用遗传变异的单向箭头,根据这些特征来推断哪些是遗传的结果,哪些是疾病的后果,特别是,我们要看的是,遗传改变如何与表观基因组和转录改变相关,这些与疾病有何关联。
以及我们如何将两者结合起来来实际研究因果关系,第一步是研究遗传变异与表观遗传变异的关系,这是数量性状基因座的基础,所以特异性表达qtls或甲基化qtls,关键思想如下,而不是测量。
不管是不是阿尔茨海默氏症,我们要测量一个数量性状,这就是QT部分的数量特征,我们要测量一个数量性状,比如身高,我们要问,我有多少个A或G等位基因副本,我是,纯合子aa,杂合子a g或纯合的,gg。
基于人的基因型,我可能会问那个人有多高,这是一个数量特征,但不是使用有机体的数量特征,我要用中间分子特征,即基因的表达水平,或cpg位点的甲基化水平,所以表达量交易位点或甲基化数量性状的整个基础。
基因座是我要找的片段,其价值,其交替等位基因的数量,比如说,如果是零,一两个,实际上与甲基化水平有关,或者附近基因的表达水平,所以让我们看看到目前为止谁和我在一起,所以五个,八,四,两个,零,零,零。
事实上,我们发现了成千上万的甲基化QTL,这些地方,如果我知道那个人受孕时的基因型,我可以很有把握地预测,九十三岁的人大脑中的表观基因组,他们死后,这也意味着我现在可以开始估算这些中间分子表型。
这样我就可以学习甲基化KTL,这让我可以从遗传学中预测甲基化,我现在可以用它来预测甲基化,然后将甲基化与疾病联系起来,所以让我们简单回顾一下,全基因组关联研究正在关注这一点。
遗传变异与疾病之间的很长箭头,这需要成千上万的人,为了能够发现这些非常微妙的影响,TLS和表达TLS的甲基化在做什么,将个体的数量限制在几百人而不是几千人,这让我们现在开始研究与中间分子表型的关系。
为什么那是可行的,因为只有这么多的遗传变异会影响增强子的活性,这些都是围绕增强子的非常局部的东西,这个基因也是如此,是呀,当然可以,也许有二十种变体,但没有一千种变体,这二十个变体在基因组中非常本地化。
使我们拥有更多的力量,而不必测试每一个片段,就像我们在疾病的情况下所做的那样,因此,通过将这一差距弥合到这些中间步骤中,我们有效地让这些特征变得更有营养,而不是极其多基因,他们现在更寡占。
这使得我们现在可以用更少的个体进行这些eQTL分析,谁在这些地方和我在一起,微妙之处,和更原始的天性,事实上,这些效应的大小往往更大,因此我可以有更多的力量去发现它们,因此,我需要更小的队列来发现它们。
好的,我们在七十二,八零零零,这是从G到疾病的前两个,从遗传学到中间分子表型,这可以是甲基化表达,或者你现在说出它的名字,就像一个G是全基因组关联研究,研究与疾病和遗传学的相关性,M是甲基。
广泛关联研究正在研究疾病和甲基化之间的相关性,但是虽然疾病的箭头是单向的,即遗传性变异很可能不是疾病的后果,但不是疾病的原因,甲基化与疾病之间的相关性更有可能是BI,疾病可能导致甲基化差异的方向箭头。
就像甲基化差异可能导致疾病,估算的甲基化是甲基化的遗传成分,因此,如果我发现甲基化与疾病之间的相关性,它更有可能是疾病的单向箭头,所以关键的想法是我们要学习一个g-2m模型。
使用更少的个体和更简单的表型,我们要把甲基化全部归因于,g为队列,因为我只需要那个人的基因,所以如果我能在这里花7万4千,我可以做七万四千年,因为我只需要遗传学,然后我们要寻找基因型驱动的甲基化。
这与表型的相关性,例如阿尔茨海默病,好处是我们有更大的队列和更大的力量,我们专门研究基因成分,当然还有后勤方面的挑战,也就是说,有时我们只有汇总统计数据,我们没有完整的基因型。
所以我们要看看用线性模型克服这个问题的方法,通过将这些统计数据直接输入几张幻灯片,好的,所以谁觉得他们,在这里学到了一些东西,好的,所以我们在56,三十八,零零六。
以下是这项估算的甲龙水关联研究的一些结果,在一个没有任何基因组范围的基因座中,你可以看到这里是负2,到负4,到负6,十到零下八度就在上面,但整个染色体没有全基因组的显著影响。
我们发现许多这些片段在基因组范围内并不重要,现在在用它们来预测甲基化时变得很重要,然后关联甲基化,这怎么可能,如果它只是一个单一的片段和一个线性模型,那我就不需要经历这些了,但情况是我们现在有多张照片。
允许我们预测甲基化,因此,我们可以在甲基化关联二号的指导下结合它们的影响,我们在看一个小得多的片段子集,即只有影响甲基化的,因此,我们需要纠正的假设要少得多。
所以这基本上增强了我们的信号来发现更多的驱动程序变体,我们可以通过遗传学来做到这一点,甲基化,到转录,对疾病,然后研究混杂因素,以及它们是如何影响每一种关系的,然后利用我们现在能开始预测的一切。
疾病表型介质,我们基本上可以说,在某种程度上,哪个基因是遗传影响的第一反应者,遗传变异的第一次影响,然后调节遗传变异的影响,或者疾病遗传变异的结合,我们在全基因组范围内发现了紫色的显著位点。
以及在孤立的情况下没有达到全基因组意义的位点中,这里用灰色显示,看中间表型是,事实上,一些已经被非常好地研究过的东西,有很多模型可以做这些表达式,数量性状基因座研究,所以你知道你基本上是在分离细胞。
你在测量表情,然后你会看到数百个受试者的数千个基因的表达,然后你还测量了这些个体的DNA变异,你在做各种各样的质量控制评估,基本上看一下,呃,每个人的基因型,然后你就,你基本上是在问。
A等位基因或G等位基因有多少个副本,我在每个地方都有,但请注意,我不只是在零,一份或两份,我首先把它归一化为0和1之间,然后是2,这是一个模糊的测量,不完全是零,一两个,当我们问的时候。
我们在这里看到了同样的事情,基因型与甲基化有什么关系,不仅仅是一切都为零,一切在一一切在二,例如人口效应,比如呃,你知道的,批量效应,各种额外的全球变化驱动因素,因此,我们在这里显示的残值不一定为零。
一二,他们是,它们是残差,可以是小数值,好吧,我们这样做,在基因型方面和表型方面,在我们做了所有这些校正之后,最终eQTL研究只是一个线性回归,我们在问,我如何预测表达作为基因型的函数,和一些协变量。
这些协变量可以是年龄,性,人口认证,各种技术协变量,等等,等等,然后最终我们会问,这条曲线是否遵循了预期与观察到的分位数图,这个q q图,基本上告诉我们的是统计数据被很好地校准了。
有多少片段偏离了这个期望,使我们现在能够开始预测这种中间分子表型的遗传驱动因素,像表达规则等等,然后我们可以注释,在这一切的基础上可视化和解释结果,这个非常简单的回归模型,基本上是在说,作为基线的函数。
我对那个基因中的个体的表达水平是多少,再加上一些线性贝塔效应,基因型大小和一些残差,所以我们要预测我们的表型,它将表示为alpha,这是基线,加上基因型的贝塔一号,然后呢。
我们将把所有额外的协变量作为额外的回归相加,带性别的测试版二,随着年龄的增长,你知道的,然后是这些个体基因型的各种主成分,它可以告诉我们原产地,他们可以告诉我们一些全球性的。
一些表达原理组件基本上告诉我们,比如说,PC 1可能是我在一周的哪一天做的实验,PC 2可能是我实验室里的谁,做了实验,PC三可能是多少钱,我的甲基化阵列中的二硫化硫转换,呃。
PC4可以是多长时间我排序这些,嗯读,等等,好的,所以我们把所有这些都放在那里,呃,基因型原理成分与表达追求成分,所以我们,包括这些附加协变量的模型,这包括基因型,更能解释表达的表型变量。
而不仅仅是基线模型,这是表达数量性状基因座研究的基础,我们可以用Ylic分析来补充这一点,这是在干什么,它基本上是在说,而不仅仅是要求每个人,AA个人、C个人和CC个人的费用是多少,总基因表达量是多少。
这基本上是EQTL的基础,一个表达数量性状基因座代替,我们可以要求的是一个AC个人,实际上在他们的每个细胞中都有两个等位基因,如果我将来自该个体的读数划分为包含一个等位基因的读数。
与来自同一人同一细胞的C的另一个等位基因相比,然后呢,在整个基因座上共同继承的,我基本上可以说,哇哦,我可以把A基因型和等位基因联系起来,该等位基因的特异性表达,似乎比其他等位基因有更高的表达,好的。
所以说,而不是问A与CA与CC个体的总表达式是多少,我只研究杂合子个体,然后比较他们其中一个副本的表达式,妈妈给了我一个A,爸爸给了我一个A,给了我C,谁在等位基因上和我在一起,具体,哎呀,对不起。
在狮子座上,特定um,基因型效应,因此,不仅仅是寻找AC和CC个体的全球效应,我将寻找等位基因的特定效应,呃,这是杂合子的,两个等位基因存在于完全相同的地方,呃,轨迹,好的,所以我们有百分之五十。
四十四六然后是零,这是伟大的,嗯,所以基本上我们要取样,提取RNA和DNA,然后分阶段进行单倍型,然后将读数分为等位基因1和等位基因2,然后寻找狮子座特有的表达式,还把所有的阅读结合在一起。
然后寻找总表达式,我们将区分这些读数,在同一杂合子个体内,区分一点具体的效果,当然,我不必只使用基因型特异性效应,和等位基因特异性效应,我也可以把它们组合起来,我基本上可以说,对于我测试的任何特定地区。
给定一个特定的片段,所以这是片段,这是表型测量,我可以问G对GG对AA个人的总阅读深度是多少,我也可以问G和A之间的烯丙基不平衡是什么,对于那些杂合子个体,将最大限度地增加两个不同观测成分的可能性。
其中一个将基于总读取深度,这将是QTL效应,我们会问,你知道用贝塔负二项式观察,你知道特别的,在全球范围内使用个体的基因型和特定参数,另一个将处于不平衡状态,使用贝塔二项式分布,一次又一次。
相应的全局参数,我们也可以要求回应切割,询问,对特定环境条件的反应,例如,片段二可能不是ETL,或者剪断一个可能不在L,剪断二可能在L,它总是在那里,也总是不在那里,但是片段三可能是对QTL的回应。
也就是说它只会变成一个TL,对特定刺激的反应,所以基本上只有当细胞被激活时,对免疫挑战的反应,那么我看到GG和GA之间的表达式有什么不同吗,和AA基因型,所以这是另一个重要的概念,也就是说。
这些eqtl不一定总是存在的,他们可能只出现在,在特定情况下,呃协会,所以呃,勇进,如果你在那里,你能不能,请打开你的视频,我可以在顶上看到你,甚至举起你的手,嗯哦完美,你在这里真棒,所以嗯,如约而至。
我们要过渡到永吉的演讲,然后我们将讨论这些额外的主题,在星期四讲座开始时,所以只是为了,回顾一下,我们谈论的是第一,对G的回顾是,我们如何机械地解剖基因座,第二,我们通过表观基因组学研究了全球富集分析。
还有这些呃,组织特异性富集,这些调节剂特有的浓缩,以及与疾病相关的目标基因和细胞类型,然后我们看表情,数量性状位点与这些中间分子表型。
所以勇进现在要讲的是,我们现在如何利用这些方法并开始研究因果关系推断,我们如何推断这些基因座中的哪一个是,事实上对疾病起因果作用,哪些是简单相关的,疾病表型所以阳晨把它拿走了,你很安静,好的。
你只要静音就行了,好的,我应该分享我的屏幕吗,或者是的,去吧。
好的,呃,是啊,是啊,很高兴见到你,各位,嗯是的,所以我们将讨论因果关系,所以我只想简单地提到一件事,因果关系这个问题已经存在很长时间了,所以将近一百年,所以这是一个例子,公设,基本上。
你如何证明这样的微生物是一种致病的疾病,你就是这么知道的,这些家伙想出了这个标准,以确保他们声称的是真正的因果关系,令人惊讶的是,这一切,很好地捕捉到了因果关系的所有概念,所以这对我来说很有趣。
然后这也意味着不知何故,呃,科学家们已经很擅长定义因果关系,所以他们知道他们在照顾什么啊,但是机器学习的人往往忽略了,呃,那个方面,他们认为你知道数据可以代表一切,但这不一定是真的。
所以这就是为什么我想把这个讲座,呃,因果推论在某种程度上是我们已经知道的,但是原因推断告诉你,你知道的,你如何以更正式的方式从数据中提出因果问题,这就是那种,呃,方向,所以因果推断是一种宽泛的,呃。
文学,有两大类,一个是因果效应文学,另一个是因果发现文献,所以我所说的因果效应是,基本上你有一个因果模型,呃,也许科学家们会想出某种X到Y的因果图,整个目的是测量tau,因果效应。
这是一种被表述为参数的形式,使用数据矩阵,发现的代码有点难,因为您只得到输入数据,但是捕获估计值所需的输出,不知何故,这些变量之间的因果关系是什么,所以他们是两个不同的人,但我将更多地关注因果效应推断。
所以因果效应推断,所以有两个,呃,研究人员的主要两大阵营,嗯他们嗯,他们本质上是相同的精神,但他们有不同的术语,不同的行话,我称之为实验者的人,他们依靠干预和实验,所以其他校园依赖于反事实推理。
所以实验者是他们要求的是某种操作,如果你把某个变量x设置为x,呃,会发生什么,结果变量y,那是他们的问题,所以整个研究的方向是,你如何确保你的条件概率几乎等于你的,呃,介入概率。
反事实推理是一种更哲学的,他们问的是什么,如果我们有一个集合x到1,或者x对0,结果有什么不同,这就是他们的要求,所以这些人实际上是这项工作的先驱,所以因果推理的第一个策略是,呃,我们要看看这些,呃。
实验列表法,呃,其实我们更熟悉,因为它真的依赖于图形术语,假设你的因果关系是X对Y,嗯,然后我们,它们通常用图x箭头到y x原因y来表示它们的因果关系,这实际上与Y的概率不同,给X对不起。
然后另一个概念是,你必须我们必须,呃,介绍是一种能力,所以从变量x到z,有一个可以到达的地方,基于这个因果图,所以另一个概念是,他们介绍说这是一种条件和调整,所以我所说的条件反射是指你设定了一些价值。
随机变量y,比如说,所以这是一个基本的回顾,我可以很快过去,所以另一个测试可达性的概念,你,他们引入了D分离,这是呃,你能从变量x到z,使用因果图上的,如果你在中间没有观察到任何东西,所以是的,x到y。
x到z,有一个依赖关系,然后Y也是常见的原因,那么它也在x和z之间,也有依赖性,然而,另一个结构是呃,正好相反,我们称之为对撞机,所以x和z实际上是独立的,嗯,如果你不观察Y,这是一个v型结构。
所以恰恰相反,但如果你有条件,y是中间的变量,那么x到z,你在这个线性链中挡住了去路,所以常见的原因案例也是一样的,如果你在Y上的情况,变量x和z是独立的,然而,另一个案例呃对撞机。
这是你分享的共同效果,如果你条件Y,那么x和z变得依赖,如此有条件地依赖,所以这些是常见的规则,但你可以在更深入的情况下扩展这种常见的效果,所以如果你有一个后代,你的共同效果是有条件的。
那么x和z是相依的,有条件依赖,使用这种因果推断方法,我们实际上可以问一些因果关系,因果图形语言,你实际上可以问因果问题,这里是我首先列出的四个步骤,我们需要建立一个因果模型,它实际上来自,呃。
你的领域知识,在这种情况下,再见,他第一次想出了这种图形语言,所以用,研究他对豚鼠的基因分析,那么第二步就是因果关系和,什么是反因果关系,鉴于你的因果结构模型,这实际上是这个因果推断的一个关键组成部分。
假设你对识别从x到y的因果效应感兴趣,它是一个绿色的箭头,但也有可能存在反因果路径,那个,呃,我们,我们通常称之为后门路径,所以因为这个后门路径,你对条件概率的解释不等于y的概率,给定x的两个介入概率。
所以这实际上创造了你的相关性,不是因果关系,所以呃,通常在后门路径中,有一个后门变量,不知何故,如果你能明智地利用这些后门变量,然后您可以阻止返回路径,这实际上有助于您识别,呃,前门路径x至y。
那么你是怎么做到的,这是一个,这是所有的图形概念,i,e,介绍了呃D分离,如果你离开呃,x到y,除了前门小路,然后您实际上可以阻止返回变量,所以这是一种练习,嗯,所以说你对x到y感兴趣。
那么变量的后面是什么,所以我们基本上是从后面看的,所以y到x,除了你的前门路径之外,还有什么潜在的后门路径,所以说,所以如果你有什么条件,那么我可以阻止这个光谱路径,那是一个,那是一个。
基本上是方法的共同问题,那就说你的条件是C4,在这种情况下,那么这个,您创建,对撞机模式,所以对撞机模式的问题是如果你以C4为条件,然后创建另一条路径,所以这就是为什么你需要其他条件,所以在这种情况下。
如果你挡住C2,然后你就可以封锁所有的后门路径,那么你就可以确定你的Y概率,给定x对x等于这个条件概率,所以在这种情况下,你所做的实际上是释放你所观察到的东西,所以这就是你如何识别你的因果效应。
所以还有其他可能性存在,但是您必须小心这个图形模型的方向性,所以如果你呃,看方向性,所以如果你在这种情况下,我只是翻转了上一个例子中的方向,没有必要担心后门路径,因为这些都是对撞机模式。
所以在这种情况下,如果你有条件,你拥有一些东西,那你就制造了一种偏见,所以嗯,所以说,问题是,在,在实际情况下,我们对这些变量没有足够的知识,所以比如说,复杂的疾病,复杂的呃,基因表达模式,比如说。
我们不,我们,我们,我们没有所有的环境影响,遗传效应,它们可能影响复杂的疾病和基因表达,所以这给了我们一个研究问题,所以另一个最大的问题是你,嗯是有时你可以观察到的变量,环境因素,它们也可以碰撞到。
所以这意味着,呃,如果你不以对撞机为条件,你,你不创建后门路径,但如果你以对撞机为条件,那么您正在创建另一个后门路径,这实际上导致了问题,那么我们如何在不接触对撞机的情况下调整混杂器,那是。
这是这项研究的真正关键问题,那么我们该怎么做呢,它基本上是呃,在实践中,如果你的变量足够简单,然后你可以进行干预,你可以呃,明智地设计你的实验,然后我们可以随机将x分配给某个x星。
那么您实际上可以打破混淆器与x变量之间的依赖关系,然后你就可以测量做x等于x开始的效果,Y是你的结果效应,所以这实际上是由呃创造的,你知道的,罗纳德·费舍尔很久以前,嗯他嗯,创造了随机对照试验的概念。
他在那里做农业实验的策划实验,他基本上随机分配肥料不同的地块,然后你可以实际测量对因果效应的无偏估计,所以在我们的基因组学问题中,问题其实是,有时会变得更复杂,但有时会变得更容易。
原因是遗传学我们有另一个变量,这是G,给你一个很好的处理,我们如何理解x对y的原因,这看起来很像一个调解问题,所以G遗传遗传变异的好处是,没有影响g的遗传效应,遗传对环境没有影响,继承遗传变量路径。
所以这给了我们一个几乎两个操作,遗传的遗传变异是自然的,随机对照试验,所以如果你,g到某个g星,然后你可以测量这个,所以这实际上为许多问题打开了一扇新的门,在许多情况下如此。
x的一个do等于中间层中的一些x,只是有时候,这是不道德的,如果你,如果你知道这是一种潜在的致病基因,你不想创造,有时也是不可能的,因为这些变量在现实生活中很难操纵,还有你,即使你能做到这一点。
所以设计一个随机实验真的很难,你可以直接对x变量进行操作,但在遗传学的帮助下,你实际上可以阅读,就把这个分配给,让我跳过这个,是啊,是啊,这是一种呃的想法,孟德尔随机化思想。
所以它很久以前就已经被创造出来了,在一九五一年由费舍尔,基因型是非常随机的,原作如此,基因型不受上游任何环境因素的改变,我提到教授,凯尔西提到,一些在假定的调解研究中,这样我们就可以接管,你知道的。
了解基因型与中间表型之间的一些关系,然后我们就可以理解中间表型和,和,千禧年随机化是使用,呃,大自然的运作,嗯,所以这是乔治·戴·史密斯大力推广的,呃,他基本上表明了基因型,如果你知道基因型到表型。
疾病表型,如果你知道基因型到中间表型,那么你实际上可以估计这个,呃,整个链条中间缺少什么,所以利用GEO之间的关系和TL之间的关系,比如说,所以历史上的那个是,呃,同样的概念实际上是由呃创造的,呃。
一些医生,呃,在一九八六年,所以最古老的,他展示了他使用ae的最古老的例子,呃,蛋白质序列,几乎相当于基因型,然后他表明血清和,胆固醇和癌症风险,嗯,所以这个想法是,呃,非常简单,然而。
有一些它受到假设的严重影响,因为正如你所知,这个因果图,如果你知道替代路径,那你就违反了一百万个偏差假设,这意味着你不是真的,呃,这个,你可以从这两个中估计出的贝塔,呃,关系不是真正的因果效应,所以说。
然而,人随机化已成功地应用于基因,包括eptl和gs的整合研究,所以如果你知道地理位置,有的剪到疾病,有的剪到表情,如果你告诉,那么估计是极其简单的,其实,所以你只要把华丽效果再除以效果。
这就给了你剪裁的中介效果,嗯,正如您在本例中所看到的,eq,效应和地缘效应,在这个例子中,斜坡基本上捕捉到了基因对疾病的影响,所以这个也是非常,呃,高度鲁棒性,呃,在许多保险箱里,是啊,是啊。
这是你可以做的另一种方法,这与估算研究很相似,你可以先做回归,呃,y on g,然后在g上的另一个回归x,然后你可以把它们和y和x加g结合起来,然后你可以用回归参数和中介效应来估计beta,呃。
在这个因果链中,社会科学的人的发展大多是阿尔法乘以贝塔,然后他们估计标准误差,这也是调解的另一篇经典论文,所以到目前为止,我们已经研究了原因,呃,你知道的,化是有意义的,然后,然后,这是一个损失。
也类似于,呃,呃,随机对照试验,实际随机对照试验,嗯,因为大自然实际上给了我们基因型,随机控制的基因型实际上随机地扰乱了你的中间变量,这给了你一个关于疾病结果的随机对照试验的方法,比如说。
所以MMR和Jason研究的挑战基本上是,通常很难,呃,当您有备用路径时,所以如果你不太了解这个问题,那么中间的衬里可能会误导,不知何故,呃,如果你不知道未知的混乱。
或者未知的混杂物是x和y之间的对撞机,和g和x之间的对撞机,那么在这种情况下,所以你不知道要不要调整一下,或者你应该离开它,它是它是不清楚,这是另一个你必须做的研究问题,然后第二个挑战我觉得,是关于。
这与我自己的研究密切相关,是呃,在许多情况下,我们有QTL研究和GI研究在一个单独的队列中,所以这意味着在许多情况下没有联合创始人,然而,在许多多个中介变量之间,多轴和多表型方面,有一个未知的混杂物。
这实际上造成了一个更大的问题,原因是如果你以某种方式以中间变量x为条件,那它就是一个,它创造了一个对撞机结构,那表示你非常,呃,你是,您正在创建返回变量,然后你的耶,mmr方法在这种情况下无效。
同样的方法,如果你在更多的表型上,然后创建另一个后门,然后你可以,这就产生了一个问题,那是另一个挑战,所以我将介绍的第二种方法是呃,对于因果效应推断是,呃,这是一个毁灭因果推理模型,所以这是呃。
前一个主要是图形化的方法,它在流行病学中被大量使用,许多人,第二种方法较少,呃,呃,用于基因组学社区,所以这是一个反事实的推理,所以它基本上是在问一个问题,如果我们。
一些人赋予了一些不同的价值而不是我们观察到的,所以这里的符号是,呃,为什么你的疾病基因表达或疾病结局,你感兴趣的东西,然后W是你的赋值,所以疾病分配,一个疾病分配零,在这种情况下。
你会看到你想观察的东西,都是为了同一个人,所以同一个人,你可以,呃有,如果符号w等于z,然后你会观察到这个,如果你有一个符号w为零,那你就会有这个,所以这是路由潜在结果框架的正式定义。
这实际上提供了一种衡量因果效应的方法,当你的赋值是一种离散变量时,所以你有x协方差,这可能会混淆,然后你有赋值变量,它是wi i表示它为零表示控制,一个意思是活跃的,Y I是你观察到的单位的结果。
所以潜在结果的定义是,是你的潜在结果,呃,控制分配,在你的领导下,这是一个潜在的结果,你知道案件分配,所以它本质上造成了一种归责问题,因为你必须说你有六个人,然后你有,呃最初分配的是0 1 1 0。
零一,类似的东西,然后你的潜在结果,第一个个体的零实际上是你观察到的,但是你有一个实际的计数,呃结果,你根本观察不到,就是你一个,呃,也就是,呃,未知,那是另一个案子的失踪,第二个人,正好相反。
所以至少有一半的值实际上丢失了,如果你想问真正的因果问题,所以如果一个疾病任务是一个,那么你为什么我观察到一个实际上是Y I一个,为什么我失踪了Y我零所以,然后反之亦然,用于健康控制,所以理想情况下。
你会想观察每个人的差异,所以赋一赋零,不同的是你的因果效应,个别因果效应,嗯然后是的,然后从技术上来说,不可能填满所有的东西,所以没有任何假设,所以我们必须给出一些假设,所以首先你会假设呃,它是独立的。
呃,一切都是,呃,每个单元都独立于另一个单元,这是因果关系的一个或多或少的条件,所以这是一种稳定的治疗方法,所以我对疾病的治疗,或者我或我对疾病的治疗,呃,药物实际上是独立于别人的,呃,你知道的,转让。
数值以及第二和第三个假设也非常关键,所以第二个假设很强,忽略能力,也就是,呃,你说什么,与你的潜在结果无关,这意味着你的生物机制与你被分配的任务无关,所以如果你这样这意味着生物机制对你的实际。
你被分配到,给定这个协变量,呃,重叠是一种平滑,这意味着呃,你会得到每个不同协变条件的赋值,所以这意味着它不一定是零或一,它必须在中间的某个地方,所以用这个假设我们实际上可以问,呃,非常有趣的问题。
所以这里有一个卡通片,呃,演示这种潜在结果方法的玩具示例,所以说你不知何故分配了你的药物,这是阿尔茨海默病的药物,所以有点,减少淀粉样蛋白,那么你的任务,如果你是这样,它就变成了一个,你知道如果你是。
嗯,呃,是啊,是啊,如果你的协变量在这种情况下正在老化,如果你变老了,如果你是老年人,那么医生倾向于更频繁地给这种补充剂开处方,你的结果在某种程度上是疾病的结果效应,怎么。
然后你也会对你的结果产生一些衰老的影响,让我跳过这个,然而在这个呃,这个假的例子,如果你只是观察相关性,贸易,交易的药物与未治疗的药物,所以你的淀粉样蛋白在增加,这说明这个药好像没什么用,但是呃。
原因是因为你你的医生倾向于更频繁地开处方,呃,病人需要这种药,所以说,然后如果你看看标准化年龄之间的关系,然后淀粉样蛋白浓度,它往往会增加,只是这个假例子,嗯然后然后因果关系,呃,有人进来了,然后这个。
如果你首先要看你的年龄和你的任务之间的关系,你可以看到有一些偏差,你可以拟合一些倾向函数,它基本上是一个逻辑回归函数,呃你,如果你是所有的人,你倾向于更频繁地开处方,所以这是我们想要调整的倾向,嗯。
但是是的,然后如果你看看经过处理的颜色组和未经处理的颜色组的图表,它们是一种线性关系,然而,有一些群体智慧的差异,所以如果你做了,呃,随机对照试验肯定在减少,呃,淀粉样蛋白效应,然后呃,这里。
这张图实际上教会了我们很多关于这种方法的东西,所以基本上你有一个条约和未经处理的不同肤色的群体,然后也在标准年龄的轴上,然后淀粉样蛋白-结果,嗯,然后你马上就能看出,用这一点来比较这一点是不公平的。
右极端对左极端比如案例和控制,你不会想那样做的,看起来你在比较,呃,苹果到橙色,所以在这种情况下,所以你必须,然后我们问一个反事实的问题,如果你随机分配样本会发生什么,随机分配药物给人们。
然后扭转这种情况的一个方法,呃关系是用倾向得分,你可以用不同的方法给点加权,所以你认为这个点是一个,有点极端,但我认为与这里的要点相比,这并不重要,与这里的点相比,以此类推,所以从数学上来说。
这是一个非常直观的,所以你可以看到呃,治疗组的平均值w乘以y除以倾向评分,与倾向成反比,等等,未经治疗的人也是这样,那么理论上它达到了,呃,平均潜在结果的治疗潜在结果,未经治疗的平均潜在结果。
所以你可以看到区别,我们就是这么做的,嗯我溜掉了,是啊,是啊,让我跳过,是啊,是啊,是啊,是啊,让我让我跳过证明,嗯然后是的,我们之前看到的条约小组不知何故有更高的淀粉样蛋白,就像它一样,然而,如果你。
如果你不加区分地权衡它们,你就会,你认为这实际上是非常重要的,与中间的某个地方相比,这也比中间更重要,然后你就可以看到,呃,关系算是恢复了,呃,通过关系,所以这是一种因果关系的味道,呃,呃,由,呃。
可能的成果框架。
哎呀,哦,对不起,为什么。
好的,很抱歉,嗯是的,然后让我介绍一些最先进的,反证是,呃,就像我提到的,这是一个或多或少的归责问题,就像以前的理论家那样认为,所以基本上填满这一切,呃问号,他们嗯,它实际上是最近进来的,呃。
机器学习社区对此很感兴趣,这是一种最先进的纸张和调整,嗯,基本上是法纸,然后他们想展示你能以某种方式做因果戈斯吗,所以嗯,基本上这里A是一个等位基因,所以事业的分配,然后是未知的混杂物,他们想要的是你。
呃,消除这种对疾病结局的影响,嗯,这是一种特殊的结构,因为我们有很多电话,引起变量的潜在调用,然后一个结果变量,嗯,但他们的主要想法实际上很简单,如果你以某种方式对这个进行矢量化,呃,分配变量。
它是一个剪裁矩阵,基本上你可以捕捉到这个多重原因混淆器,通过假设,他们认为单一的原因会混淆,呃不存在,那是他们的假设,考虑到你实际上可以估计Y A对一些,呃,作为多课程混杂器的功能,而是来自美国人民。
这实际上已经是我们已经在做的事情了,所以我想我不认为,呃,在某种意义上的实用价值,如此如此,但不管怎样,你们这些人在用什么,呃,人口pc,呃调整GWAS的潜在混杂效应是,不知何故。
在潜在的结果框架中也是有意义的,第二个嗯策略,其实更有趣的是,这是一篇非常简单写得很好的论文,呃基本上因为我喜欢喜欢,我逃避的一切都是一种归责问题,所以考虑到一些混乱,呃,潜在混杂变量,你想把这个。
呃一个潜在的结果,你还想估算零的潜在结果,那么这是一个你必须估计两个函数,功能一和功能二,然后用这个,你实际上可以估算所有这些θ,所以直接把缺失的,呃,潜在结果,呃,这其实很管用,他们用贝叶斯,呃。
回归树,呃,她用回归树,然后正如你所看到的,与线性模型进行了比较,紫色的线条,好多了,因为你实际上可以捕捉到数据的复杂曲率,然后用这个你可以看到每个人,基本上每个酒吧,你可以测量单个的因果效应。
所以条约与未治疗,等等条约与未治疗,所以有些人可能有更高的治疗效果,有些可能会有更低的,呃,这里可能有更低的,所以这实际上是估算估算问题的一个很好的方法,在潜在结果中,所以这张纸的美妙之处实际上是,嗯。
她实际上包括了一些R代码,上面写着一行,嗯,实际上这是一个非常好的,所以是的,您可以使用这种代码拟合贝叶斯回归树,然后你可以估计治疗和未治疗之间的差异,在这种情况下,您必须根据自己的研究定制。
如果你想用这个,嗯最后一个,呃,如果我有时间就让我,我有那么多时间吗,不是真的,但是呃,你知道,人们可以随时签收并收听录音,我想好吧,所以让我把这个做完,呃只是为了完整,呃,到目前为止。
我们已经看了因果效应文献,另一个方面是因果发现,它是从数据中学习因果图结构,所以传统的方法,我也为这个方向投入了很多时间,基本上你有一个高维数据矩阵,然后你有一些潜在的因果模型,你有图形结构。
然后我们比较这种基本可能性的概率,你在生成数据,给定这个图形模型,然后你比较一下你是否可以通过改变图表结构来提高分数,这是一个非常非常难的问题,这是一个组合优化问题,然后有人证明了这是NP难题,嗯。
但是是的,然后另一个问题是这个结构,呃可能无法根据可能性函数本身来区分,因为你没有足够的,您可能没有足够的数据量,您可能只是或者您的模型没有很好地定义,所以在这种情况下,没有办法打破平局,在这种情况下。
所以在这个案例中,在这个结构化学习案例中,我认为突破实际上来自生物学,所以它基本上是利用遗传学的力量,它们基本上扰乱了所有这些基因,然后他们测量基因表达,在这种情况下,单细胞,比如说。
然后你可以有所有不同扰动的牛矩阵,摄动条件,所以用这个罐子你可以以某种方式学习网络,所以以前我们有2000年初的,我们有一个基因表达矩阵,但在引入了这种扰动之后,我们实际上可以极大地麻痹所有的扰动。
然后我们也可以测量所有这些矩阵,多重矩阵,这实际上为因果结构学习创造了一个非常不同的环境,所以这里是,呃,我们这些天人们使用不同的原则,而不是基于分数的可能性,你知道枚举枚举,所以这里是呃。
依赖于不变性条件,这意味着只有一个因果模型真正生成数据,呃呃,但是所有不同的扰动条件,然而,嗯,结构保持不变,所以他们用这个假设,他们有点用,识别,数据的因果结构是什么,这实际上是乔纳斯·彼得的论文。
从它写得很好,所以你有一个无扰动基因,基因敲除二和三基因敲除四等等,所以这是我的,这是玩具的例子,所以基本上你有三个实验,所以x基因x 1和x 3受到干扰,击倒击倒,呃x 4 x 3击倒,呃x两个击倒。
利用这种扰动研究,你能更好地恢复你的结构吗,所以你从某种模型开始,所以在这种情况下,我的模型是y=x,一个变量加上一些ε,这是我的模特,所以问题是这个模型是不变的吗,在不同的摄动条件下。
所以你对Y有观察,如果你有一个不安的这个,你得到了Epsilon Y,在实验2中,然后你得到了这个观察和实验三你观察到了这个,所以在这个例子中,实验一实验二实验三你有一个y变量,然后呃然后看看你的呃。
你假设模型可以始终如一地很好地解释你的数据,或者始终如一地以同样的方式解释你的数据,实验一,你得到这个εy,它是呃不没有预测,如果实验二,你有x,1,x,1,这就取消了,实验3 x 1 x 1取消了。
所以基本上Epsilon就剩下了,这意味着它是你的残余物,在不同的扰动条件下是相同的,所以你的不变条件有点满足,在你目前的模式下,你不能拒绝任何实验,但是,如果在这种情况下包含了一些错误的预测器x3。
所以在这种情况下,你观察到y x 1 x 3,我们可以做同样的练习,对于实验一和实验二,你基本上有相同的,呃,εy是残差,然而x一和x一x一取消,然而,为了实验,这三个你可以看到一些奇怪的结构。
所以你的Epsilon Y将被取消,因为你不知何故包括了y y实际上是x3的后代,呃,所以这意味着,呃,这意味着你得到了不同的残差,那么你可以你必须拒绝这个,呃,实验三,这意味着您的模型不是不变的。
所以这种原则,所以呃,第二个实验是,是啊,是啊,基本相同的想法,所以不知何故嗯,但不知何故,这并不完美,因为不知何故,您的模型可能无法区分您的不变性条件,所以在这种情况下,你仍然可以包括x2,如此如此。
然而,在实践中,这非常有效,所以他们真的做到了,呃,实际基因敲除实验作为疾病的验证,呃预测标签,所以他们把它命名为因果回归,所以他们实际上扰乱了基因表达,然后与其他回归方法相比,为什么会发生什么。
基本上把所有的数据都当作观测数据,不是扰动数据,然后你会看到,因果回归与,你知道的,典型回归,所以扰动实验越多,呃,你一定会走得很远,你得到了,你可以改进你的模型,所以耶,所以我想,我想就是这样。
我可以简单地提到因果三角测量,嗯,所以最近科学界有很多讨论,重现性,所以你知道,乔治,戴夫,史密斯和彼得·利普顿,他们说,而不是重复你必须做的同样的实验,如果你想发展,呃,一些因果算法或因果发现。
那么你必须有多个正交证据,这与我们在发现的因果关系代码上看到的很相似,按不变性条件,所以如果你,如果你有什么,那么它必须在不同的实验条件下保持不变,就是这样就是这样太棒了。
谢谢。谢谢大家留下来,感谢Young的精彩演讲,让我们为留下来的人做一个快速的民意调查。
我只是觉得,哦好吧,我不再登录,所以我做不到好吧,谢谢大家,请为Young的精彩演讲鼓掌。