《人类表型组研究进展报告2022》全文正式发布

组计划

The Human

Phenome Project

表型组是生物体从胚胎发育到出生、成长、衰老乃至死亡过程中,形态特征、功能、行为、分子组成规律等所有生物、物理和化学特征的集合。人类表型组是后基因组时代生命科学的战略制高点与原始创新源,开展人类表型组计划已成为国际学界共识。

我国自2015年起就前瞻布局人类表型组国际大科学计划。以金力院士、王辰院士、徐涛院士为代表的我国科学界在香山科学会议上率先系统提出开展人类表型组大科学计划的科学倡议,并成功吸引了国际顶尖科学家美国Leroy Hood院士与英国Jeremy Nicholson院士成为国际人类表型组计划(International Human Phenome Project,IHPP)的联合发起人。人类表型组国际大科学计划的核心科学问题是“解析基因-表型-环境之间以及宏观-微观表型之间的关联与调控机制”,这也是现代生物医学的核心问题之一。人类表型组计划的主要目标是绘制人类表型组参比图谱作为生命科学与生物医学的新一代科研“导航图”。这一目标获得了国际科学界的广泛认同与积极参与。

2017年“国际人类表型组计划(一期)”作为首批上海市市级科技重大专项启动,为这一国际大科学计划的先导示范与加速推进注入了关键动力。2018年,国际人类表型组研究协作组(IHPC)以及中国人类表型组研究协作组(HPCC)在上海正式成立,标志着国际人类表型组计划由科学界率先实质性启动。截至2022年,已有来自20个国家的24位顶尖科学家(含14位院士)加入IHPC理事会。

IHPC积极发挥人类表型组国际大科学计划的战略指导与规划协调中枢角色,稳步推动大科学计划向前迈进:2020年将“新冠肺炎和其他重大疾病的表型组学研究”、“表型组研究技术体系与科研基础设施构建”以及“表型组学研究中的标准操作程序(SOPs)”三大方向确定为优先聚焦的方向,并分别于2021年和2022年审议通过了人类表型组计划开展具体国际合作的三项关键指导与原则共识,即《人类表型组科研数据跨境共享与开放的原则共识》、《人类表型组相关测量框架性指南》和《共建人类表型组协同研究系统(PhenoBank)的倡议》,为国际人类表型组计划的标准化体系构建和协同研究打造基础,也为表型组研究领域提供了指导。

 2022年是“国际人类表型组(一期)”项目实施的第五年。在国家和上海市支持下,以复旦大学为代表的中国科学家团队,已在人类表型组计划和基础研究中奠定引领优势,取得了四项“全球第一”:建成第一个跨尺度、多维度、一站式人类表型组精密测量平台;完成第一个每人测量24000余个表型的自然人群深度表型组队列;绘制第一张人类表型组导航图,发现150余万个表型之间的强关联,大部分为科学界首次发现;研发全球第一套多组学标准物质。2022年人类表型组计划在表型精密测量、质量控制与标准化工作、表型组大数据计算与分析等关键领域都产生了突破性成果,多篇科技论文入选Web of Science高被引和热点论文。国际人类表型组计划旗舰刊Phenomics创刊后发展迅速,入选中国科技期刊卓越行动计划高起点新刊项目,并正式收录于PubMed Central (PMC)数据库。

人类表型组研究领域科技论文发表数量于2022年达到历史新高。围绕着IHPC三大优先聚焦方向,纳入表型组数据的多个国家级大型队列及数据平台公布了创新科研和应用成果,表型组数据的质量控制和可及性也成为多国布局的重点;表型组研究范式应用于传染性疾病和慢性非传染性疾病,推动疾病防诊治的发展;人工智能、成像技术、语言处理等加速了人类表型精密测量的发展,并提供了更广泛的表型数据。

《人类表型组研究进展报告2022》聚焦上述表型组领域研究热点和国际动态,总结2022年人类表型组国际大科学计划最新进展、表型组领域各国战略布局以及科技前沿动态,以期以人类表型组学为视角对生物医学前沿的发展态势方向及关键方向提供战略性透视与预测。

《人类表型组研究进展报告》是中国人类表型组研究协作组(HPCC)、国际人类表型组研究协作组(IHPC)、上海国际人类表型组研究院、复旦大学人类表型组研究院以及中国科学院上海营养与健康研究所战略情报研究部等机构联合定期发布的系列领域进展报告。本报告的撰写得到了国际人类表型组研究协作组的24位专家、中国人类表型组研究协作组的91位专家的大力支持与指导,特此致谢!

c28589cc71c238df53762b052429ef74.jpeg

人类表型组:科学概念与大科学计划

(一)表型与人类表型组

基因和环境相互作用决定人体特征,人体特征即表型(Phenotype)。表型组(Phenome)是生物体从胚胎发育到出生、成长、衰老乃至死亡过程中,形态特征、功能、行为、分子组成规律等所有生物、物理和化学特征的集合[1]。

0321ace253c8a0a9a18436fd2142cf5e.png

图1 表型组定义

表型包括宏观表型和微观表型。宏观表型包括影像学表征、体貌特征、疾病病征、健康状态、环境适应能力等;微观表型包括转录、蛋白质、代谢物、细胞免疫、微生物等等。现代生命科学和生物医学的核心问题就是揭示宏观表型的微观机制。当前研究往往聚焦于对单一种类微观表型特征,如细胞、分子或基因组水平的变化,对于宏观表型的全景精密测量和宏观表型相互之间的关联机制目前仍然缺乏系统性研究。而要系统性地回答现代生命医学揭示宏观表型的微观机制的核心问题,就需要以整体性和系统性的观点,整合和分析不同组学层次等多尺度表型组数据,揭示基因、蛋白质和代谢等多个层面之间的相互作用和调控网络,以达到对生物系统的全面理解[2-6]

自人类基因组计划启动推动了基因组研究的突破性进展,促进了以基因图谱为基础的诊断和治疗的精准医学发展,给科学技术、医药临床、公共服务等多个领域带来深远影响。然而发展至今,由于遗传机制的复杂性、表型的复杂性以及因环境暴露涉及的复杂疾病等原因,人类基因组研究遭遇瓶颈,为了降低其复杂性研究范式转变进入了表型组研究时期。国际学界多位领军学者倡议推动发起表型组国际大科学计划[4, 7],国际人类表型组计划应运而生。

近年来,国际生命科学界对表型组关注与重视日渐增强,越来越多的科学家认识到人类表型组将接棒人类基因组,成为后基因组时代的战略制高点[8]。解析基因与表型间关联成为生命健康领域着力发展的方向。聚焦生命科学和生物医学的核心问题,通过大规模表型全景精密测量与数据系统解析,贯穿和破解基因-表型-环境、宏观-微观表型之间以及宏观表型项目之间的关联与调控机制,将助力生物医学研究并推进科技创新发展,帮助实现对疾病与健康的精准干预,保障人民生命健康。

(二)国际人类表型组计划

1、发展历程

以复旦大学为代表的中国科学界自2014年起就开始在“测一切之可测”理念指导下筹备发起人类表型组计划。2015年5月,金力院士倡议发起并组织召开了“国际人类表型组研究”香山科学会议,会上国际“代谢组学之父”英国Jeremy Nicholson院士、国际人类基因变异组学会主席Richard Cotton教授和金力院士、赵国屏院士、王辰院士等多位专家学者一致提议发起国际人类表型组计划。2016年5月,复旦大学在上海组织召开了“首届国际人类表型组大会”,金力院士在大会主旨报告中首次提出了人类表型组计划的核心任务与路线图。本次大会上,由金力院士,美国四院院士、拉斯克奖获得者、“系统生物学之父”莱诺伊·胡德(Leroy Hood)院士,英国皇家医学科学院院士、国际“代谢组学之父”杰瑞米·尼克尔森(Jeremy Nicholson)院士三位科学家共同发出的“国际人类表型组研究计划”倡议获得了国内外科学家的一致认可和积极响应,奠定了我国在组织国际人类表型组计划中的领导力与话语权[9]

2016年,“国际人类表型组”被国务院批准列入需要布局的重大科学基础工程。2017年11月,上海市首批市级科技重大专项对“国际人类表型组计划(一期)”予以立项支持,为这一国际大科学计划启动先导预研并加速推进注入了关键动力。在前期中外科学界已经具备的合作基础上,复旦大学在上海市重大专项支持下,积极规划组织模式顶层设计与推进路径,加快推动构建大科学计划全球协同的网络布局。

2018年10月,复旦大学在上海主办“第二届国际人类表型组研讨会”,各国科学家就人类表型组国际大科学计划的实施路线图、合作机制与组织架构达成重要共识。本次大会上“国际人类表型组研究协作组(IHPC)”和“中国人类表型组研究协作组(HPCC)”正式成立,来自17个国家20家机构的20位顶尖科学家组成了首届IHPC理事会并一致同意启动人类表型组大科学计划的先导研究,标志着人类表型组大科学计划正式由科学界先行启动。

ed97f85138cd4192ba871dc911a6fa6c.png

人类表型组国际大科学计划的构想目标是绘制全球人类表型组参比图谱。这需要全球数个甚至数十个团队通过“分布式”的协同测量与数据协同分析实现,对国际科技合作的组织协调提出了极大要求。IHPC的成立标志着由中国科学家倡议发起的国际人类表型组计划已得到多国科学家的认同和参与。截至2022年,IHPC汇聚了美、英、德、澳大利亚、哈萨克、加纳等20个国家24个高校科研机构,理事包括14位各国院士及10位领军科学家;HPCC共有91名协作委员,其中33位院士,协作单位/机构69家,其中38家高校科研院所,27家三甲医院,4家国内知名企业,共同推进人类表型组国际大科学计划。

7f159b84b84545da8e4f666fcac8c35c.png

图2 国际人类表型组计划目标

2、国际人类表型组研究协作组(IHPC)

(1)IHPC简介:

国际人类表型组研究协作组(英文名“International Human Phenome Consortium”,缩写为IHPC)于2018年10月在上海成立。中国科学院院士、复旦大学校长金力,美国科学院、医学院、工程院、艺术与科学学院院士、“系统生物学之父”、美国系统生物学研究所教授Leroy E. Hood以及国际“代谢组学之父”、英国皇家医学科学院院士、澳大利亚莫道克大学教授Jeremy Nicholson担任IHPC理事会的共同主席。协作组现有来自美、英、德、哈萨克斯坦、加纳等20个国家的24位顶尖科学家(其中14位院士)为理事会成员。理事会下设“标准与技术规范”、“知识产权、数据共享与数据安全”和“伦理与法律社会问题”三个专业委员会,秘书处设在上海国际人类表型组研究院。

联合创始人

共同主席

22ac921ce4cd7d97046f90fd8f1437e9.png

秘书处:中国·上海国际人类表型组研究院

5b3fe3a59e5e22cdae095dd073c4989f.png

秘书长:

2a470f89c73a59d8333396e9ee90a224.png

目标:

着力构建国际协同创新网,凝聚全球人类表型组研究力量,全面推进人类表型组国际大科学计划。

使命:

Ø 利用国际和多学科力量,从基因-环境-表型到人类健康层面,积极探寻微观与宏观表型之间的关联及机制。

Ø 通过使用物理、化学和生物指标,从分子、细胞到生命体各层面发现人类特征和疾病的起源以及多样性。

Ø 应用新发现的知识和技术来创造改善人类健康的新范式。

(2)积极布局人类表型组领域国际科技治理

2019年:成立上海国际人类表型组研究院

2019年,经上海市政府批准,由复旦大学等单位发起成立的上海国际人类表型组研究院正式建立,金力院士任首任院长。研究院定位为:人类表型组计划的战略智库,表型组标准化工作的创新中心,面向全球科学家的数据共享与信息管理平台,推动国际、国内合作的服务协调机构,生命科学与生物医药领域的高水平研发机构和高质量产业化机构。作为大科学计划的组织枢纽,上海国际人类表型组研究院于2019年底起正式承担了国际人类表型组研究协作组(IHPC)和中国人类表型组研究协作组(HPCC)的秘书处职能,确保人类表型组计划组织推进的两大协同机制与核心网络稳定运营。研究院协同国内外科研机构、团队与资源网络,共同实质性推进人类表型组国际大科学计划,推动生命科学与生物医药领域的原创性、交叉性和颠覆性研究;面向健康医疗设备、新型诊断试剂、原创新药、健康管理产品等相关领域,全面开展人类表型组相关产学研合作,加速精准医疗与精准健康管理等产业发展。

2020年:加强国际协同机制组织化建设,明确人类表型组大科学计划优先推进的三大方向

国际人类表型组研究协作组致力于构建全球协同创新网络,加强大科学计划国际协同机制组织化建设。IHPC第二次理事会正式确定将国际协作组秘书处设于上海国际人类表型组研究院,并设置“标准与技术规范”、“伦理、法律与社会规范”、“数据共享”三个专业分委会。

在IHPC秘书处的组织推动下,第二次理事会与就进一步推进人类表型组国际大科学计划的优先发展方向初步达成共识,认为近期应优先聚焦“新冠肺炎和其他重大疾病的表型组学研究”、“表型组研究技术体系与科研基础设施构建”以及“表型组学研究中的标准操作程序”三大方向。

2021年:人类表型组科研数据跨境共享原则

在IHPC第三次理事会上,经过各国科学家的充分探讨与协商,就人类表型组大科学计划下科研数据跨境共享与开放的基本原则,在兼顾安全和开放的前提下达成了六点共识,包括采纳“FAIR (Findable, Accessible, Interoperable, and Reusable)”原则,即“寻获性,可及性,互用性和复用性”;安全合规;数据标准化原则,IHPC将致力于研究和建立国际人类表型组科研数据标准化体系;不同类型、级别的数据适用不同的分享与开放;多模式分场景共享;鼓励各国科研团队通过科研实践探索国际科研合作与数据跨境共享的最佳实践[10]

2022年:倡议全球共建人类表型组数据协同研究平台(PhenoBank)

在IHPC第四次理事会上,经过各国科学家的充分探讨与协商,就《人类表型组测量指南》、《共建全球人类表型组数据库(PhenoBank)倡议》达成共识。《人类表型组测量指南》是为了适应人类表型组研究日趋增长的测量需求,达成人类表型组相关标准操作程序开发的框架指南,为编制相关人类表型组标准操作程序提供指导,保证不同机构间以基本一致的测量与科研操作流程,保障来自不同国家、机构、实验室平台的研究数据具有可比性,而这是进一步开展国际大科学计划的基础。《共建全球人类表型组数据库(PhenoBank)倡议》提出了共同建设全球性的人类表型组数据库及处理系统的宏大构想。倡议提出,建设一个全球多中心的人类表型组数据汇集、管理、分发、协同平台——PhenoBank, 为全球参与表型组研究的科学家提供服务,并为最终实现绘制全球性的人类表型组“导航图”目标提供平台与技术基础。

根据倡议的设想,未来人类表型组数据库PhenoBank平台主要宗旨与使命包括:建立一个智能的数据收集、规范化、共享和分析系统,帮助研究人员开发新的表型组数据分析方法和应用;将允许多方合作制定一系列数据标准,并将实现跨国家和机构的协作数据的合规共享与协同处理;将提供一个专有的管理服务系统,提供从标准化数据收集到数据共享的综合数据服务;将创建一个智能的、可扩展的、可信的执行环境,最终使人类表型组国际大科学计划的参与者能够高效、可靠和协作地访问表型组数据集,并获得对人类表型组的新见解[11]

(3)引领国际人类表型组研究发展

IHPC理事在各国积极引领人类表型组研究,中国、美国、澳大利亚、英国、印度、马来西亚、新加坡等国纷纷发起人类表型组相关科研计划并建设研究平台(图3)。在国际人类表型组计划引领下,分子表型组学、早期癌症筛查、多组学生物标志物筛选等多方面已取得突破性成果,促进了IHPC框架下国际科技合作。

815932441e05120d71ba0cdf25881a10.png图3 国际人类表型组计划引领下多国发起人类表型组相关科研计划并建设研究平台


3、中国国际人类表型组研究协作组(HPCC)

中国人类表型组研究协作组(HPCC)由复旦大学金力院士、中国医学科学院王辰院士和中国科学院大学徐涛院士担任共同组长。HPCC旨在整合国内高校科研院所、医疗机构和产业界等在人类表型组学领域的优势,发展表型测量技术、制定相关标准和规范,实现中国团队在人类表型组研究领域的重大突破、形成主导全球协作的中国合力,共同推动人类表型组国际大科学计划的实施。

截至2022年底,HPCC有91名协作委员,其中33位院士;协作单位/机构69家,其中38家高校科研院所,27家三甲医院,4家国内知名企业。近年来,在国内各协作单位的共同努力下,尤其是HPCC各位委员的大力支持下,HPCC整合国内人类表型组研究力量、推进我国人类表型组领域原始创新和协同攻关并取得了显著进展。2022年度HPCC委员在顶级科技期刊《自然》(Nature)、《科学》(Science)、《细胞》(Cell)、《柳叶刀》(Lancet)、《美国医学会杂志》(JAMA)和《英国医学杂志》(The BMJ)上发表了14篇新冠、衰老、肿瘤、表型机制等领域高影响力科研论文,引领了生命健康领域科技创新。

4、探索国际大科学计划的新型组织模式

在牵头组织推进人类表型组国际大科学计划过程当中,中国科学界积极探索以新型组织模式引领大科学计划稳步推进:

——组建了1家新型研发机构:上海国际人类表型组研究院作为牵头实施大科学计划的组织枢纽,高质量发挥其协同研发、数据共享、标准化创新、成果转化、战略智库等功能作用;

——构建起2张协同创新网:一是由来自20个国家的24位科学家(其中14位院士)组成的国际人类表型组研究协作组(IHPC);二是由来自国内69家机构的91位委员(其中33位院士)组成的中国人类表型组研究协作组(HPCC);

——贯彻3个“带动”的国际合作推进策略:以科学界合作带动国家间合作、以双边协同带动多边协同、以“一带一路”国家积极参与带动发达国家加大投入;

——打造4大科技公共产品:包括Phenomics国际学术期刊、人类表型组系列国际国内高端学术大会、国际人类表型组标准化创新中心和生命健康科技智库。

人类表型组:全球布局与发展态势

作为生命科学热点领域,多国加速布局人类表型组领域,2022年多国启动建设科研和数据相关基础设施,持续支持表型组学研究与转化计划,国家级大型纵向队列中表型组学测量及研究比重持续加大。

(一)中国:持续支持表型组学研究与转化

1、打造国际人类表型组计划坚持基础

2022年,以复旦大学为代表的中国科学家团队在国家和上海市的支持下,在人类表型组计划和基础研究中奠定引领优势,取得了四个“全球第一”:建成第一个跨尺度、多维度、一站式人类表型组精密测量平台;完成第一个每人测量24000余个表型的自然人群深度表型组队列;绘制第一张人类表型组导航图,发现150余万个表型之间的强关联,大部分为科学界首次发现[12];研发第一套多组学标准物质,为全球推进人类表型组计划奠定坚实的标准基础[13, 14]

2、打创建并积极发展表型组学国际学术期刊

2021年1月,上海国际人类表型组研究院与施普林格·自然出版集团联合创办Phenomics(《表型组学》)期刊,聚焦表型组学这一新兴交叉学科研究,旨在搭建该领域的全球学术交流载体,推动表型组学理论创新和学科发展;致力于发展成为服务于表型组学这一特定的生命科学研究领域的国际高水平期刊。经国际学界协商确定Phenomics为IHPC会刊、人类表型组国际大科学计划的旗舰期刊[12]。Phenomics期刊创刊后发展迅速。2022年,Phenomics入选中国科技期刊卓越行动计划高起点新刊项目,同年10月正式收录于PubMed Central (PMC)数据库[15]

3、打造重要学术交流平台

上海市积极探索以新型组织模式引领大科学计划稳步推进:组建了1家新型研发机构——上海国际人类表型组研究院作为牵头实施大科学计划的组织枢纽,同时构建起国际人类表型组研究协作组(IHPC)和中国人类表型组研究协作组(HPCC)2张协同创新网,共同打造表型组学重要学术交流平台。

2022年9月17日,第四届中国人类表型组大会暨湖南省大健康产业发展促进会在湖南长沙湘江新区开幕。大会聚焦“表型组学与个体化诊疗”的主题,吸引了全国高校科研院所、研究型医院、生命健康产业、投资机构和相关政府部门的代表,汇聚湘江之滨,交流表型组学与生物医学最新研究成果,探讨生命科学与大健康产业未来发展趋势,为人类健康重大问题寻求未来研究方向和科技解决方案。第四届中国人类表型组大会被中国科协《2022年重要学术会议指南》收录,被权威机构确认为具有公信力、引导力、影响力的重要学术会议[16]

国际表型组计划团队也积极推进科学界合作。2022年开始,由上海国际人类表型组研究院、复旦大学和美国表型组健康组织(Phenome Health)共同举办中美表型组双边交流会,与会学者围绕数据计算与分析、技术平台建设与应用、标准化创制和表型组学队列研究等四大关键领域进行了全面交流。会议认为,双方团队对表型组研究的理念高度一致,研究工作各有侧重,高度互补,并一致同意将加快在上述四大领域的深度协同,加速推动人类表型组国际大科学计划,同时也确定每年定期举办表型组中美双边交流会[17]

4、推进表型组领域科技成果转化

为推动“人类表型组计划”及引领生物医学研究的范式变革与全新突破策动精准医学和大健康产业的跨越式发展,由上海国际人类表型组研究院、国家医疗器械产业技术创新联盟共同主办的“科创中国丨第五届(2022)中国医疗器械创新创业大赛人体精密测量专场赛决赛暨2022人体精密测量创新创业大赛”,经过选拔,来自全国的18支项目团队获奖,产品覆盖分子、细胞、器官等多维度跨尺度表型精密测量。

(二)美国:持续投入人类表型组研究计划

1、发起美国人类表型组倡议

2022年,国际人类表型组计划共同发起人、IHPC共同主席、美国四院院士Leroy Hood发起美国人类表型组倡议(US Human Phenome Initiative),计划通过由美国系统生物学研究所(Institute for Systems Biology,ISB)、谷歌公司等多个合作伙伴组成的生态系统,在10年内创建100万人的纵向表型数据,并促进卫生技术和生物医学研究的创新,通过数字双胞胎群体等技术为每个个体开发预测模型,以推动个性化医疗的实施。

2、投入建设表型组相关平台

美国国立卫生研究院(National Institutes of Health,NIH)启动Bridge2AI项目为人工智能在生物医学的广泛使用奠定基础。该项目的关键步骤是为机器学习分析生成新的数据集和最佳实践,语音与健康研究项目“Voice as a Biomarker of Health”得到了资助。“Voice as a Biomarker of Health”项目的数据包括嗓音障碍 (喉癌、声带麻痹、喉部良性病变);神经系统和神经退行性疾病(阿尔茨海默氏症、帕金森症、中风、渐冻症);情绪和精神障碍(抑郁症、精神分裂症、双相情感障碍);呼吸系统疾病(肺炎、COPD);儿童语音和语言障碍(语言和语言延迟、自闭症)。为了解决临床实践中小数据集、数据所有权及隐私的伦理问题、偏见及数据多样性的缺乏等问题,该项目正在创建一个大型、高质量、多机构和多样化的声音数据库,该数据库与来自其他数据(如人口统计学、医学成像和基因组学)的身份保护/无法识别的生物标记相关联。由于人类的声音成本低,易于存储,随时可得,利用人工智能通过声音诊断疾病可能是达到精准医疗可及性的革命性一步。

麦吉尔大学蒙特利尔神经病学研究所(The Neuro)宣布与 Illumina、武田开发中心美洲公司、罗氏开展新的研究合作,为帕金森病和 REM 睡眠行为障碍等神经系统疾病创建一个强大的药物发现平台,将支持对大约 1000 个患者样本进行测序,目标是完成 16000 名患者的全基因组测序,6000 名患者的深度表型分析,以及从患有各种神经系统疾病的患者身上开发 500 个干细胞系。

3、青光眼/近视OCT表型分析联盟于2022年启动表型数据收集

青光眼/近视OCT表型分析联盟(Glaucoma / Myopia OCT Phenotyping Consortium,GMOPC)是2020年2月在美国加利福尼亚州洛杉矶成立的由研究者发起的临床研究联盟。该联盟由7个国家的13个临床中心组成,为获取OCT图像、数据存储和检索提供了一个新的研究平台,以实现高效的审查、质量控制和安全访问。临床研究人员将整理三个强大的新数据集:第一个由没有青光眼的高度近视患者组成,第二个由患有青光眼的高度近视患者组成,第三个由患有早期青光眼的非高度近视患者组成,旨在解决青光眼和近视结构异常检测中的一系列悬而未决的问题。2022年初,德国海德堡工程公司宣布成为该联盟商业伙伴,为其提供一整套硬件和软件:用于捕获前房和生物测量数据的ANTERION,用于后节成像的下一代SPECTRALIS,专为临床试验配置新功能的HEYEX EMR,以及图像管理和第三方设备集成平台HEYEX PACS,以促进全球研究社区内的安全数据共享。

(三)澳大利亚:建设世界级设施支持分子表型组研究与转化

澳大利亚卫生部发布了2022-2023财年健康与医药领域预算,其中最大的一笔预算经费63亿澳元提供给支持澳大利亚健康与医药领域研究和创新的长期资助计划“医疗研究未来基金”,用于实施其第二轮10年资助计划,涉及患者、研究任务、研究人员、研究转化四大主题的21个研究计划[18]

2022年澳大利亚默多克大学宣布通过在Harry Perkins医学研究所安装超高场核磁共振(NMR)波谱仪来更好地了解复杂疾病。超高场核磁共振能力旨在支持领先的研究人员在健康、疾病分析、营养和环境方面进行以发现为导向的研究。澳大利亚国家表型组中心(ANPC)目前拥有核磁共振仪器的全套设备,具有全球顶级的基于NMR的生化数据采集能力,可用于检测一系列疾病,包括 COVID-19、糖尿病、心血管疾病、痴呆和其他代谢疾病[19]

ANPC也宣布与布鲁克公司合作推出了一种新的基于核磁共振的表型组学研究工具,以解决和理解长期COVID-19症状。该工具使用了ANPC主任Jeremy Nicholson教授及其团队发现的代谢标志物的组合,使研究人员能够监测早期风险因素以及感染COVID-19后的恢复情况。ANPC研究人员正在使用这种技术同时评估多种生物学作用机制,目的是为适当的干预措施提供可操作的信息,以帮助Long-COVID患者加速康复[20]

(四)英国:启动最大健康研究项目

英国2020年颁布政策文件《基因组英国》(Genome UK),强调基因组学基础设施结合深度表型测量和临床表型数据的重要意义。2022年,英国颁布政策文件《基因组英国:2022-2025在英国范围内实施的共同承诺》(Genome UK: shared commitments for UK-wide implementation 2022 to 2025),英国生物样本库(UK Biobank)作为世界上最大、最密集的基因和表型描述纵向队列,被视为英国重要研究资产,将持续获得政府和产业界支持[21]

英国启动了当前最大的健康研究项目“Our Future Health”项目,计划纳入500万名参与者,项目人数将接近英国成年人口的10%,希望对国家人口的健康状况有一个广泛的认识,同时开发新的预防和治疗疾病和健康状况的方法,包括癌症、老年痴呆症、心脏病、关节炎、糖尿病和中风等。

Our Future Health项目是英国健康数据研究联盟(UK Health Data Research Alliance)的成员,该联盟是由领先医疗保健和研究组织组成的独立联盟,旨在为大规模研究中以符合伦理方式利用英国健康数据建立范本。Our Future Health致力于以最高的标准、政策和流程保护参与者的机密性,同时最大限度地帮助研究人员攻克重大疾病。参与者的数据会被隐匿身份并安全保存在符合严格安全标准的可信研究环境中,具备健全和透明的访问流程,以确保注册研究人员可妥当地获得数据和样本[22]

2022年初,该项目试验阶段启动,通过与英国国家医疗服务体系(NHS)血液、移植以及英国国立卫生研究院(National Institute for Health and Care Research,NIHR)生物资源的合作招募了3000名志愿者。在试验研究阶段,Our Future Health项目将在3000名志愿者中测试其操作和程序,以确保整体系统运行良好。目前,通过NHS献血中心招募的志愿者已经完成了在线健康调查问卷,并在获知情同意将他们的医疗记录信息以及捐赠的血液样本与Our Future Health项目联系起来。

(五)德国:在表型组合作和数据共享领域持续发展

2022年6月德国人类基因组-表型组档案(German Human Genome-Phenome Archive,GHGA)签署协议,成为欧洲基因组-表型组档案(European Genome-Phenome Archive)的国家节点之一,并于11月加入了新成立的欧洲基因组数据基础设施(European Genomic Data Infrastructure,GDI)项目。GDI项目是数字欧洲计划下由欧盟委员会和参与成员国共同资助,旨在实现欧洲“1+百万基因组计划(1+MG)”。通过创建数据基础设施,确保在整个欧洲安全地访问基因组学和相应的临床数据,以便更好地进行个性化医疗保健和卫生政策制定研究。目前已有英国、挪威和25个欧盟国家签署了成员国协议,将促进国家跨境联合网络,用于生物医学研究和个性化医疗解决方案。其中德国部分将储存在GHGA中的基因组数据连接到泛欧GDI基础设施,建立与新的欧洲网络的技术和法律互操作性。GHGA将与genomDE密切合作,为GDI基础设施建立德国节点。在此目标下,除欧盟支持外,GHGA还得到了德国联邦教育和研究部(German Federal Ministry of Education and Research,BMBF)、德国癌症研究中心(German Cancer Research Center,DKFZ)和蒂宾根大学( University of Tübingen)提供的资金支持。

2022年9月,随着数据中心和联合控制协议的签署,所有GHGA数据中心在联邦数据基础设施的法律框架下,通过总部位于DKFZ的GHGA中心协调多个数据枢纽。

(六)日本:持续资助日本基因型-表型档案

日本基因型-表型档案(Japanese Genotype-phenotype Archive,JGA)是由日本科学技术振兴机构(Japan Science and Technology Agency,JST)国家生物科学数据中心(NBDC)项目部合作提供的用于永久存档和共享生物医学研究项目产生的所有类型个体遗传水平和表型数据的服务。由日本生物信息和DNA数据库(DDBJ)中心运营,与DDBJ运营的功能基因组学(Genomic Expression Archive,GEA)、代谢组学(MetaboBank)共同使用国家遗传学研究所(National Institute of Genetics)的超级计算机算力。JGA包含从个人收集的独家数据,处理后所有数据都会被加密。JGA授权将数据发布给特定的研究用途和研究人员。JGA管理、存储和分发信息的方式由严格的协议控制。JAG与主要的基因组-表型组受控访问数据库如NCBI database of Genotypes and Phenotypes (dbGaP)和EBI的欧洲基因组-表型组档案(EGA)等合作。2022年DDBJ发布的年度报告中JGA的年度提交数量增速极快,达到247%。2021年JGA接受了250份提交文件,总计410 TB的数据;已分发了240项研究、396,471份样本和453 TB人类数据[23]

(七)以色列:完成大规模前瞻性纵向队列招募

以色列大规模前瞻性纵向队列10K主要目标是研究不同个体在疾病易感性、临床表型和治疗反应方面观察到的变化,旨在开发疾病发生和进展的预测模型,并发现具有诊断、预后和治疗价值的新分子标记物,于2018年开始招募。计划在25年内对40-70岁之间的10000名参与者进行数据采集和随访。基线收集的信息包括病史、生活方式和营养习惯、生命体征、人体测量、血液测试结果、心电图(ECG)、踝臂压力指数(ABI)、肝脏超声和双能X射线吸收仪(DXA)测试。分子图谱包括转录组、蛋白质组、肠道和口腔微生物组、代谢组和免疫系统图谱。连续测量包括使用连续血糖监测(CGM)设备2周的血糖水平和使用家庭睡眠呼吸暂停测试(HSAT)设备3晚的睡眠监测。血液和粪便样本被收集并储存在-80°C的储存设施中,以备将来研究。10K是以色列迄今为止最大的纵向研究之一。研究人员认为,在分析基因和环境影响的相对贡献时,研究以色列人口具有优势,因为以色列人口相对相似的环境和习惯[24]

(八)新加坡:启动最大的纵向研究项目

新加坡于2022年启动了名为SG100K的最大纵向研究项目,具有里程碑意义的综合人口健康研究将在几十年内对10万名新加坡人进行研究,以确定与新加坡流行疾病(如糖尿病、高血压和癌症)相关的社会、环境、生活方式和遗传因素。由于西方和亚洲人口在健康风险方面存在巨大差异,SG100K研究可以为精准医学开发更好的工具铺平道路,以预测和预防新加坡人和其他亚洲人口的慢性疾病。SG100K将从NTU LKC医学院、Saw Swee Hock公共卫生学院、新加坡眼科研究所和新加坡国家眼科中心以及新加坡国家心脏中心的四项现有队列研究中登记的所有种族的70,000名参与者中获取数据。其余的3万名参加者将在今后两年内逐步征聘。在研究过程中,将通过电子病历、疾病登记和邀请进一步随访等综合方法监测SG100K参与者的长期健康结果。为研究收集的信息包括腰臀围、血压、身体健康、肺功能、身体组成、骨骼健康、心血管健康、认知能力以及葡萄糖和胆固醇水平。关键的生物样本,如血液、尿液和皮肤角质层胶带采样也将被收集。SG100K将与新加坡精密健康研究(PRECISE)合作,分析血液样本,以评估人口中的基因组和其他相关分子变异。

(九)印度:成立阿育吠陀卓越技术中心

印度理工学院焦特布尔分校成立了由印度政府阿尤什(AYUSH)部赞助的阿育吠陀卓越技术中心(AyurTech Center of Excellence,CoE),将阿育吠陀和技术相结合,为精准医疗开发循证解决方案,是一项利用人工智能和数据科学,以可负担的成本实现以个性化医学的倡议。新的卓越中心旨在建立人工智能驱动的综合框架,用于人口和个人风险分层以及早期可操作的精准健康干预措施。印度理工学院焦特布尔分校为AyurTech设施提供了用于表型分析、分子生物学、化学和设备开发制造和表征的区域[25]

(十)法国:多项表型组研究项目被列入国家级资助计划

胰腺肿瘤异质性转化基因组学项目(Translational Genomics of pancreatic Neoplasia Heterogeneity,GeNeHetX)使用基因组学、组织学、生物学和分子分析,结合人工智能算法,获得法国国家健康与医学研究所(Inserm)和法国国家科学研究中心(CNRS)合作的Atip-Avenir 计划资助。深度测量和分析消化道癌症中分子组织成像的基于人工智能的成像生物标志物的多尺度优化策略(Multiscale Optimised Strategy for Artificial intelligence-based Imaging biomarkers)获得法国大学医院联合会(Fédérations Hospitalo-Universitaires,FHU)转化和临床项目支持。

人类表型组:年度研究进展

2022年是国际人类表型组计划在科学界启动的第五年。经过五年的发展,人类表型组研究领域奠定了表型精密测量技术、表型组标准化和质量控制、表型组学数据汇集分析的基础。与此同时,国际学界的表型组研究也进入了爆发式增长的阶段,人类表型组研究领域发文量持续增长。2022年度,人类表型组领域发文量前十位(含并列)领域为:遗传学、生物化学与分子生物学、传染病、微生物学、药理学、免疫学、肿瘤学、化学、科学技术其他专题、细胞生物学以及神经科学神经病学(图4)。

c2a3d6100e3b363932905ba9af5b4b31.png

图4 人类表型组研究2022年度科技论文发文前十位情况*

(一)“国际人类表型组计划(一期)”项目进展

1、概况

基于Web of Science核心集SCI期刊数据,在上海市首批市级科技重大专项对“国际人类表型组计划(一期)”支持下,多领域表型组学相关研究取得进展。截至2022年底,中国、美国、法国、英国、荷兰等65个国家(图5)的200余家研究机构共发表科技论文1076篇。发表的科技论文除临床与生命科学外,还涵盖了化学、农业环境与生态、电气工程和计算机科学、物理、社会科学、工程与材料科学、地球科学、数学以及人文等多学科,展示了表型组学研究领域学科融合和综合发展的趋势。

7da42e28c4bcdefb7995483391d1a50d.png

图5 “国际人类表型组计划(一期)”年度发表论文合作国家情况

“国际人类表型组计划(一期)”开展的五年中,科技论文发表前十位的研究领域分别是生物化学与分子生物学、工程、基因遗传学、科学技术其他主题、计算机科学、神经科学神经病学、细胞生物学、生物技术应用微生物学、肿瘤学和数学计算生物学(图6)。从发文类别可以看出,国际人类表型组计划的科研项目奠定了表型相关测量技术、工具基础,同时发展了表型组数据分析计算能力,并在上述基础上着力解析宏观表型的微观机制,转化应用则主要集中在慢病如肿瘤、神经系统疾病等方向。

32e78a1eee3ef3c294704aee699af92a.png

图6 “国际人类表型组计划(一期)”发表科技论文数前十位研究领域情况

2022年度“国际人类表型组计划(一期)”项目发表论文前十位的研究领域分别是:生物化学分子生物学、科学技术其他主题、基因遗传学、工程、神经科学神经病学、计算机科学、细胞生物学、生物技术应用微生物学、数学计算生物学以及肿瘤学(图7),其中有多篇入选Web of Science高被引和热点论文:在一项针对多达76755名精神分裂症患者和243649名对照个体的两阶段全基因组关联研究中,多国研究团队报告了287个不同基因组位点的常见变异关联,确定了与精神分裂症病理生理学相关的生物学过程并显示了精神分裂症和神经发育障碍中常见和罕见变异关联的趋同[26];参与绘制的与人类身高相关的常见遗传变异饱和图谱,针对540万多种族个体的大型全基因组关联研究阐明了与身高相关的12111个单核苷酸多态性(single nucleotide polymorphism,SNP) 几乎解释了归因于常见遗传变异的身高遗传力[27];报道了新型冠状病毒Omicron亚谱系威胁着当前疫苗和抗体治疗剂的中和功效,并证明疫苗促进剂的重要性[28];提出了一种新的PRS构建方法PRS CSx,在跨群体遗传重叠和发现GWAS样本量的性状方面改进跨人群多基因预测[29];通过多组学研究明确肠道菌群失调和肠屏障功能障碍可能通过影响宿主免疫平衡在COVID-19的病理生理学中发挥作用[30];揭示了微生物群和结直肠癌间关系,并证明了多个功能标志物作为直肠癌诊断以及潜在治疗靶点的可能性;展示了一种飞秒SRS成像方法在诊断胃癌时显示出高准确性,具有同步胃镜检查和组织病理学诊断的潜力[31];发现整合素αvβ3的内源性调节剂Legumain信号传导可能是预防和治疗胸主动脉夹层的新靶点[32];首次利用大型人群队列证实了代谢相关脂肪性肝病(MAFLD)这一最新疾病表型的远期健康效应[33];精确量化了多种族群体的指纹花纹,发现人类肢体发育相关基因在指纹花纹表型的形成中发挥了关键作用,有望通过肤纹表型实现特定疾病的早期识别与筛查[34]

ed3cac3c16c50fea8b85d3a06ab4ce55.png

图7 “国际人类表型组计划(一期)”2022年发表科技论文数前十位研究领域及占比情况

2、达成四项“全球第一”

经过五年的布局与发展,国际人类表型组计划上海核心团队已在基础科研领域奠定了引领优势,取得突破进展并达成四个“全球第一”:

一是建成第一个跨尺度、多维度、一站式人类表型组精密测量平台。复旦大学已在张江复旦国际创新中心建成全世界首个跨尺度、多维度人类表型精密测量中心,可一站式集成测量从宏观到微观多个尺度的人类表型。该中心覆盖从微观的蛋白质组、代谢组、核酸组、细胞到宏观的生物医学影像、人体外观、皮肤、睡眠、生物电、心理等15大类不同尺度的表型组测量。

二是完成第一个每人测量24000余个表型的自然人群深度表型组队列。截止2022年12月9日,共有1072名常住上海、身体健康的志愿者完成了在人类表型组精密测量平台2天1夜的检测,形成了近3PB的表型组大数据,这是是目前全球第一个也是覆盖表型指标最多、规模最大的健康人群表型组学纵向队列。

三是绘制第一张人类表型组导航图,发现150余万个表型之间的强关联。其中约39%为跨尺度关联,且大部分关联是科学界首次看到。在全景导航图的指引下,表型组学研究能够获取大量多维度、跨尺度的关联信息,从而指导新型表型调控机制的发掘与验证。

四是研发第一套多组学标准物质“中华家系1号”, 开创了生物医学“度量衡”新体系,将提升生命科学创新的源头质量,为全球推进人类表型组计划奠定坚实的标准基础。

3、研发全球首套多组学标准物质

2022年8月,复旦大学与中国计量科学研究院共同研发的中华家系1号组学标准物质(Quartet)正式获批国家一级标准物质。长期以来,生命科学领域存在实验重复性问题,针对实验室间操作过程、校准、检测以及持续的重要需求,复旦大学与中国计量科学研究院共同研发了全球首套多组学标准物质,在生命科学领域建立了生命测量的基准,在此基础上建立从组学数据产生到分析全过程的标准规范与质量控制体系,确保了组学数据的质量和研究结果的可靠性。项目牵头人石乐明教授参与了上海市标准化创新中心(国际人类表型组)的标准化研究,围绕“数据产生、数据分析、数据解读”等研究阶段,进行人类表型组研究数据的全方位质量控制,提升了人类表型组数据的“准确性、溯源性、一致性”,有利于深度挖掘和利用人群的生物样本和表型组学数据,促进人类表型组学的系统思维设计,支持全表型关联分析,推动精准医学的发展。目前,Quartet已被中国国家卫生健康委临床检验中心、欧洲转化医学研究先进基础设施(European Advanced Translational Research Infrastructure in Medicine (EATRIS) Plus)等国内外一百余家科研机构进行了广泛应用,扩大了中国标准物质的国际影响力。

25092f5d6c78cc55861558e68a8c008b.png

4、持续推进人类表型组领域标准化工作

“国际人类表型组计划(一期)”持续投入标准化工作。在2022年,IHPC中国科研团队推动了在信息安全技术、生物特征识别、生物样本处理等标准化专业领域等多项国家标准发布和实施(表3)。同时,项目与上海市遗传学会、上海市生物信息学会、上海人类学学会等标准化技术委员会紧密合作,承办了多次标准立项审查和标准技术审查会议,落实了团体标准管理制度,确保团体标准修订工作的科学、公正和高效,已经有6项标准发布。

上海国际人类表型组研究院作为IHPC秘书处所在单位,牵头起草了国家标准《基因组信息学  高通量基因表达数据可靠性评估准则》草案及项目建议书。该项目修改采用国际人类表型组计划发布的国际标准ISO/TS 22690:2021《基因组信息学 高通量表达数据可靠性评估准则》,有助于保证高通量基因表达数据质量控制,具有重要的科学研究价值,可以满足相关设备的研发推广、临床诊断及创新药物开发等应用需求,提升生物医药产业集群和企业产品质量,促进生命健康领域的高质量发展。

4bf089fff465c9f77d70711f141eb4a0.png

(二)基于队列的表型组学成果不断加速涌现

基于人群的纵向队列研究是研究遗传和非遗传风险因素与疾病发生发展间关系的重要基础。随着跨尺度、多维度表型检测技术、数据生成基础构架和数据分析方法学的进步,表型组学在医疗健康领域中的潜力已获得认可[35, 36]。近年来,随着人类表型组计划在科学界的影响力提升,多国大型队列研究将深度表型测量纳入基线数据中。2022年,美国、英国、德国、以色列、韩国等多国大型队列广泛应用深度表型测量与表型组大数据分析方法,并取得了多领域成果。

1、深度表型测量与大数据分析在多国大型人群队列中广泛应用

美国All of us研究项目首次发布了超过315,000参与者的数据示范项目。由于参与者以许多不同的方式贡献数据,因此该队列可以进行前瞻性、回顾性、横断面和嵌套病例对照分析,反映了具有广泛信息的多种族参与者,再现了如吸烟与癌症表型等已知的关联,项目数据集和工具为队列增长和未来研究奠定了坚实的基础,推进了改善人类健康和推进精准医学的计划任务[37]。基于该项目的电子健康记录数据及参与者Fitbit设备捕捉到的步数被证实与人类表型组中的慢性病风险有关,为降低疾病风险所需的活动水平的临床指导提供了现实世界的证据基础[38]

英国2020年颁布政策文件《基因组英国》(Genome UK),强调基因组学基础设施结合深度表型测量和临床表型数据的重要意义。作为英国具有国际影响力的基因和表型描述纵向队列,2022年,一项对英国生物样本库(UK Biobank)所有参与者WGS分析并记录了表型变异数据的研究得到广泛关注。冰岛雷克雅未克大学联合deCODE Genetics公司、安进公司等团队对来自UKB的150,119个个体的WGS数据进行分析,重点介绍了发现的具有较大影响的罕见变异性状关联,还报告了那些没有通过全外显子组测序确定的变体与疾病和其他表型之间的关联性,这是迄今规模最大的全基因组测序工作[39]

德国莱比锡文明疾病研究中心(Leipzig Research Centre for Civilization Diseases,LIFE)在2022年发布了专注于特定的表型和疾病的纵向人群队列成果,队列基线评估计划包括身体和医学检查、计算机辅助个人访谈、基于计算机或纸质的自我管理问卷、心理测试以及血液和尿液样本的临床化学病理学,针对年龄≥65岁的参与者的额外计划侧重于认知功能、脑部MRI、对抑郁症状和警惕性的详细评估,以及多范式脑电图。在2017年开始的随访中,新引入了一些评估,如生物电阻抗分析,下肢动脉超声检查等。目前已发布的结果包括脑部MRI、认知、基于三维激光的人体测量、视网膜OCT以及声音相关研究[40]

以色列魏茨曼科学研究所纵向深度表型队列于2022年发布了肠道微生物组关联图谱,从来自以色列和美国的 34,057 名个体中收集了不同的表型和肠道微生物群分析得出关联图谱,并使用在微生物组数据上训练的机器学习模型,展示了在两大洲人类队列中的预测准确性[41]。通过分析肌痛性脑脊髓炎/慢性疲劳综合征(ME/CFS)患者和健康对照者对微生物群和病毒抗原的抗体反应并结合数据训练机器学习算法表明,针对肠道微生物群的免疫反应代表了标准血液测试之外的独特信息层,为 ME/CFS 提供了改进的分子诊断,为与炎症性肠病和以长期疲劳症状为特征的疾病(包括 新冠感染长期综合征)的比较研究奠定了基础[42]

韩国一项基于10,000个体健康检查队列的表型精密测量对136个性状进行全表型关联研究,并通过使用英国生物银行和日本生物银行项目进行了跨种族比较。这项基于健康检查数据库PheWAS结果的综合分析将为研究人员和临床医生提供多种表型和遗传变异之间网络的全景,为精准医学的实际应用奠定基础[43]

2、表型组学支撑复杂疾病的精准医学研究与临床实践

一项使用了美国电子病历和基因组测序(eMERGEseq)、英国生物样本库(UKB)和范德比尔特大学医学中心遗传性癌症登记处(HCR)数据集的遗传关联分析了与遗传性癌症基因相关的表型,揭示了23个遗传性癌症基因中的种系变异,这些与遗传性癌症基因相关的新表型可能有助于癌症的早期发现和管理,强调了基因组医学中使用电子健康记录(HER)的潜力[44]

肺血管疾病表型学(Pulmonary Vascular Disease Phenomics,PVDOMICS)是一项精确医学倡议,通过深度表型测量来表征肺血管疾病(PVD),将临床指标与组学测量相结合将增强对PVD的理解,并有助于更新PVD分类。2022年PVDOMICS基于1193名受试者的PVD临床特征和无移植生存率研究,招募了整个PVD谱系的受试者,包括轻度和混合病因的PH,按WSPH组别划分5组。发现包括一氧化碳扩散能力低和右心房容积指数增大分别是1-3组和1-4组PH的共同特征;计算机断层扫描中意外地经常出现磨玻璃样斑点;1组PH有睡眠改变,3组PH的生存率最差,有助于对PVD的新理解,并完善当前的PVD分类[45]

X连锁视网膜劈裂症(XLRS)是一种X染色体隐性遗传视网膜疾病,目前尚无有效的治疗方法。2022年发表的单中心连续回顾性观察性研究,对1999年至2020年间确诊XLRS的成人和儿童进行了随访,对遗传、临床和视网膜影像学表现进行分析。发现XLRS具有高度的表型变异性,但相对中心凹和最佳矫正视力保留至成年后期,可以进行更准确的预后[46]。另一项针对双眼发育性缺陷的Axenfeld-Rieger综合征的研究通过全面的遗传和临床数据分析,对目前最大的该综合征队列进行遗传和表型表征,发现不同致病变异的表型特征并制定特异性管理计划[47]

循环蛋白质(Circulating proteins)与许多疾病有关。一项与遗传变异相结合的固体组织和生物流体中蛋白质水平变异的测量为深入了解功能提供了途径。该研究对5368个个体进行了大规模的蛋白质基因组学研究,揭示了遗传变异与2091个血清蛋白之间的4035个独立关联,其中36%以前未报道。该研究将蛋白质测量与队列的深度表型相结合,为遗传学、血清蛋白质水平和复杂疾病之间的相互作用提供了新的见解[48]

基于荷兰2015-2020年荷兰确诊肾母细胞瘤儿童队列的表型数据、疾病特征和诊断测试结果,鉴定出遗传易感因素的患病率至少为33%,高于先前研究的5%-24%。根据该结果,研究团队建议鼓励在临床遗传学家的咨询下对所有肾母细胞瘤患儿进行标准基因检测,在不可行的情况下,决策支持算法(如 MIPOGG 工具)可用于优先对儿童进行基因检测[49]

自2006年启动的加州大学自闭症表型项目旨在确定有临床意义的自闭症亚型,这项正在进行的纵向多学科研究已涵盖400余名儿童,根据神经、生物学、行为、临床特征或发育轨迹继续分组,以识别自闭症个体中的亚型。该研究为自闭症和同时发生的疾病异质性提供了更深入的特征,并为一些亚组提供了干预措施和临床护理指导,最终改善自闭症患者和家庭的生活质量[50]

3、人工智能应用于高通量精确表型分析

利用人工智能对大型队列产生的数据集进行集成学习正在成为生物医学知识和突破的主要驱动力[35]。斯坦福医疗中心与Cedars-Sinai医学中心(CSMC)多个团队研发了一种人工智能(AI)工具,可以识别和区分两种通常容易被忽视的危及生命的心脏病——肥厚型心肌病和心脏淀粉样变性,证实了深度学习算法在测量左心室尺寸,以及肥厚型心肌病和心脏淀粉样变性的左心室壁厚度增加的患者识别诊断方面的准确性[51]

机器学习的方法被应用于青少年大脑和认知发展研究中。一项收集了2016年至2018年的11869名9-10岁青春期前儿童的基因型-表型数据,评估了24个复杂性状的全基因组多基因评分,以评估自杀念头和行为风险,发现全基因组多基因评分与环境之间存在显着的相互作用,遗传风险因素和早期生活压力水平与总体自杀念头和行为风险增加有关。这项研究的发现和定量模型可能有助于识别自杀风险高的儿童的并早期干预和预防[52]

细胞计数数据的迭代机器辅助排列分析软件(Iterative Machine-assisted Permutational Analysis of Cytometry Data)在唐氏综合症的人群进行了深度免疫表型定量分析中发挥了重要作用,能够快速识别唐氏综合症与其他自身免疫性疾病共有的免疫失调的许多特征,可能应用于1型糖尿病患者的晚期免疫衰老或其他自身免疫性疾病[53]

4、表型组相关数据质量控制、开放与获取成为学界关注重点

2020年国际人类表型组计划确定“表型组学研究中的标准操作程序(SOPs)”作为这些全球合作的大科学计划优先聚焦的方向,体现了学界对于表型组数据标准化工作的重视。2021年IHPC第三次理事会上经各国科学家的充分探讨与协商,最终审议通过《人类表型组计划科研数据跨境共享与开放原则》并达成共识,以促进国际人类表型组计划更高质量的数据分析与开放。2022年,IHPC第四次理事会进一步就《人类表型组测量指南》、《共建全球人类表型组数据协同研究平台(PhenoBank)倡议》达成共识,适应人类表型组研究日趋增长的测量需求,保证不同机构间以基本一致的测量与科研操作流程,保障来自不同国家、机构、实验室平台的研究数据具有可比性,倡议建设全球多中心的人类表型组数据汇集、管理、分发、协同研究平台——PhenoBank,为全球参与表型组研究的科学家提供服务。

在国际人类表型组计划为全球协同研究打造关键性基础工作的同时,多国大型国家队列也在加强数据质量和可用性。美国国家队列All of Us于2022年首次发布了基于云的研究工作台,在满足研究可查找、可访问、可互操作的公平原则,并可重复使用。该项目采用了早期迭代数据发布和建立示范项目的理念,目的是评估研究数据集和平台的质量、有用性、有效性和多样性[37]。德国国家队列(NAKO)在德国18个研究地点搜集了大量数据,为数据质量保证和整合储存建设了位于格赖夫斯瓦尔德大学医学中心和海德堡的德国癌症研究中心的集成中心,中央数据管理包括负责管理个人身份数据的独立信托办公室、检查数据的综合中心、生物样本存储信息的实验室信息系统以及用于科学评估的数据和生物样本的应用和提供转移办公室[54]

(三)表型组学成果有效助力传染病的早期诊断与个性化护理

在2020年召开的第三届国际人类表型组研讨会上,国际科学界就进一步推进人类表型组国际大科学计划的优先发展方向初步达成共识,“新冠肺炎和其他重大疾病的表型组学研究”成为优先聚焦的方向之一。随着全基因组关联应用于传染病研究并取得成功,科学界开始倡议应用如全表型组关联、深度表型测量等更多创新方法来克服当前局限性,通过更精确的表型、增加队列多样性来破解病理和生理学途径[55]。2022年,表型精密测量与大数据关联分析的表型组研究范式被广泛应用于新型冠状病毒感染、神经系统朊病毒感染、传染性腹泻等传染性疾病研究,在疾病传播链条、社区和医疗保健、健康水平与疾病预后分析、药物耐药性等多方面取得成效。报告在此摘取部分高引用科研成果举例。

1、新型表型组学工具明确新型冠状病毒感染生物学后果

新型冠状病毒感染具有急性和慢性长期影响,可能会给个体患者和医疗保健系统带来重大的新挑战。澳大利亚国家表型组中心利用核磁共振技术来识别新的诊断分子生物标志物,并将这项研究开发为临床核磁共振检测技术。该表型组学技术可检测炎症性糖蛋白标志物和脂蛋白结合物等高度特异性的生物标志物信号,在一分钟内提供快速诊断,可用于临床血液样本检测,并有助于诊断包括严重头痛,极度疲惫,心悸和脑雾在内的新冠长期衰弱症状[56]。研究团队正在将该流程应用于其他病毒检测和改善当前患者护理。

新型冠状病毒感染因疫苗接种、感染亚型、患者健康情况等存在多种生物学后果。针对住院重症患者和非住院康复患者的多项器官、免疫和分子水平的纵向研究,全面解析了新冠感染的生物学后果,并为患者个性化护理提供了理论和实践基础。在分子水平上,有研究团队提出患者完全康复需要免疫反应的分子表型及相关代谢失调的逆转,年龄和严重程度成为调节其正常化时间的因素,这又与动脉粥样硬化生成相关趋化因子单核细胞趋化蛋白-1(MCP-1)的变化相关,提示缓慢代谢正常化导致动脉粥样硬化风险增加,这也与观察到的患者心血管疾病发作次数一致[57]。在英国生物样本库前瞻性队列研究中发现40-69 岁男性的感染风险高于女性,年龄较大、超重和2 型糖尿病患者的睾酮浓度较低的男性新冠感染相关结局较差[58]。德国对于非住院新冠感染者的多器官评估研究显示,从轻度至中度感染中康复的受试者表现出与肺、心脏、血栓形成和肾功能相关的亚临床多器官病变的迹象,没有结构性脑损伤、神经认知或生活质量受损的迹象[59]。来自英国生物样本库的456,422名参与者新型冠状病毒感染住院与405种健康状况和生活方式因素之间的遗传关系研究发现,一系列与体脂相关的特征、母亲吸烟、基础代谢率、淋巴细胞计数、辐照点炎及相关综合征,腿部血栓和关节病是严重COVID-19的致病危险因素,而高等教育程度、体育活动、哮喘和从不吸烟状态可以预防疾病,对新型冠状病毒肺炎患者的风险分层及其严重后果的预防具有重要意义[60]

2、表型组学精准数据为新冠患者治疗和管理提供依据

回顾性多中心队列分析美国阿拉斯加州、蒙大拿州、俄勒冈州、新墨西哥州、德克萨斯州和华盛顿州普罗维登斯圣约瑟夫健康中心分娩人群母胎结局的研究结果证实,新型冠状病毒肺炎疫苗接种可以预防不良的母婴结局[61],疫苗接种和加强针可促进更好的母胎结局。研究结果对怀孕期间接种疫苗的安全性和有效性的担忧提供了实践基础,有助于减少对疫苗的犹豫[62]。另一项回顾性多中心队列研究使用了来自普罗维登斯圣约瑟夫健康电子健康记录的临床数据,评估了在美国阿拉斯加州、加利福尼亚州、蒙大拿州、俄勒冈州、华盛顿州普罗维登斯或卡德拉克地点以及瑞典分娩的母亲新冠感染对出生结局的分析,结果表明,无论新冠感染的严重程度如何,孕妇都将受益于妊娠早期或中期感染后加强监测和产前护理[63]

凝血功能障碍和血栓栓塞是重度新冠感染的强烈合并症因素。重症监护新冠患者和中度感染者的凝血表型和分子表征研究发现,可溶性P-选择素(soluble P-selectin),sCD40L,纤维蛋白原和PAI-1的诱导表明在COVID-19患者需要重症监护之前的中度阶段血小板和凝血系统的激活,将有助于为患者设计更好的血栓预防措施,以限制病程进展[64]

针对新冠长期症状的慢性疲劳和生理-躯体症状研究发现,血氧饱和度降低和体温升高在很大程度上可用于预测慢性疲劳综合征和新冠长期症状的生理情感表型[65]。患者健康相关生活质量的降低在很大程度上是由新冠急性感染期和长期症状期间神经免疫和神经氧化途径的严重程度预测的[66]

百万退伍军人计划中复杂疾病的遗传学研究表明,新冠感染严重程度与严重和不良结局的潜在危险因素相关的疾病之间存在共同的遗传结构,不同血统的基因型-表型之间的不同关联可能会观察到异质结果,在考虑治疗目标时需要谨慎[67]

3、表型组研究理念拓展应用于传染病研究

腹泻是儿童死亡主要原因之一,在中低收入国家志贺氏菌分别是痢疾和中度腹泻的第一和第二大主要病原体,针对志贺氏菌对现有抗菌药物的耐药性情况,研究团队应用高通量表型筛选技术,并通过体外和体内表征跟踪先导化合物,确定了几种已知的抗志贺菌抗菌化合物类别,并提出替比培南匹酯(Tebipenem pivoxil)可用于治疗中低收入国家耐药志贺菌和其他肠道病原体引起的严重腹泻[68]

单核细胞增生李斯特菌(Listeria monocytogenes)由于其毒力和天然抗应激表型而成为公共卫生和食品安全的挑战。通过表型和基因组分析揭示了临床和食物相关的单核细胞增生李斯特氏菌分离株的毒力和应激弹性,具有潜在的公共卫生风险,产生的广泛的基因组和表型数据为制定改进的李斯特菌控制策略和政策提供了基础[69]

表型组范式研究也应用于导致致命性神经退行性疾病的朊病毒的基础和临床研究中。冷冻电子显微镜(cryo-EM)和淀粉样蛋白3D重建的计算方法被应用于高度感染性离体朊病毒原纤维的近原子分辨率结构,为理解哺乳动物朊病毒菌株多样性提供了结构基础[70]。通过临床、神经病理学和组织病理学表型特征鉴定出新的散发性克雅氏病(Sporadic Creutzfeldt-Jakob disease)亚型,为老年人群神经退行性痴呆的鉴别诊断和临床患者的预后提供了理论基础[71]

(四)表型组学研究范式加速对非传染性疾病理解

当前全球疾病谱随着环境因素、生活方式、遗传性因素和医疗保健水平在发生变化,抗生素和疫苗的应用让传染性疾病的发病率和死亡率明显下降,而慢性非传染性疾病逐渐成为全球主要死亡原因。根据WHO2020年公布的数据,全球10个主要死亡原因中有7个是非传染性疾病[72]。表型组学研究为表型精准分类、疾病分型和精准医学应用打造了基础。报告中摘取了高引用科技论文和IHPC专家推荐案例。

1、揭示阿尔兹海默病遗传风险

阿尔茨海默病(Alzheimer's disease,AD)是一种以进行性认知功能障碍和记忆减退为主要特征的神经退行性疾病,临床表现为记忆障碍、失语、失用、失认、视空间技能损害、执行功能障碍以及人格和行为改变等。随着人口老龄化日益严重,AD已成为全球最重要的社会医学问题之一。AD发病机制尚不清楚,携带相似或相同易感基因的个体在发生AD风险、其病理程度和临床表现中出现差异,功能基因组学研究开始借助转录组、表观基因组和表型数据来确定阿尔兹海默病可能的疾病遗传途径[73, 74]

由美国系统生物学研究所和阿尔兹海默病遗传学联盟于2022年共同发布的18至90岁健康成年人的多组学分析中,从成年早期开始与AD相关的遗传变异即在血液中表现出来,且早期和中期的如胆固醇监测,缓解炎症,以及可能的HSV-1预防和/或病毒载量管理可作为预防目标,证实了深度表型队列数据在揭示疾病遗传风险和生物学线索中的潜力[75]。研究团队提出阿尔茨海默氏症认知教练(COCOA)试验,在两年内的多个时间点收集每个参与者的心理测量、临床、生活方式、基因组、蛋白质组、代谢组和微生物组数据,并用于系统生物学分析,数据驱动的健康指导将提高依从性,协助个性化多模式干预,并改善患者的预后,尤其是那些处于AD谱系早期阶段的患者[76]。初步结果表明降低AD风险的实践是可行的[77, 78]

血液代谢组学与AD风险关联研究从147827名欧洲参与者的3项代谢组全基因组关联研究(GWAS)中选择了119种独特的血液代谢物,对国际阿尔茨海默病基因组学项目的63926名欧洲个体进行MR分析,并进一步应用全表型组MR分析来确定代谢物干预的潜在靶向作用,发现四种代谢产物,其中硫酸表雄酮、5-α-雄甾烷-3β-17β-二醇二硫酸盐和鞘磷脂介导多种疾病的风险,谷氨酰胺对4种疾病的风险有有益影响[79]

2、衰老的表型组学研究

由于人类表型定义的不完整和不精确,造成支撑人类疾病和表型的生物学机制研究受阻,且造成疾病诊断和医疗护理的混乱。在英国基于电子健康记录(HER)相关的英国生物样本库识别和重新分类了502505名参与者的皮肤衰老相关表型,改进了表型分类,并证明了表型间关联,增进了对疾病表型分类和临床研究的理解[80]

中国如皋纵向老龄化研究队列通过测量1699名老年人的肱踝脉搏波速度(baPWV)评估动脉硬度,并利用日常生活活动和起立行走试验(Timed Up and Go test)评估功能性残疾和行动受限,发现动脉硬度与老年人功能障碍和活动受限显著相关[81]。超常血管衰老在列宁格勒围城战幸存者中也被发现与生物衰老相关,并提示儿童早期饥饿和压力影响成年后心血管系统状态[82]

另一项基于中国如皋纵向老龄化研究队列1822名老年人的免疫标志物与衰弱风险相关性研究发现,中性粒细胞与淋巴细胞比率(NLR)和全身免疫炎症指数(SII)水平较高的个体发生偶发性衰弱的风险更高,可用于预测临床上的偶发性衰弱[83]

基于中国台州的影像学研究纳入了707名社区参与者的脑部MRI与步态评估,发现较差的步伐与多个区域的皮层厚度较薄相关,包括与运动功能相关的区域(如初级运动皮层、运动前皮层和辅助运动区)、感觉功能(如中央后回和中央旁小叶),视觉空间注意(如枕外侧皮质和舌回),以及识别和认知(如梭状回和内嗅皮质),为老龄人口步态的神经机制研究提供了有价值的线索[84]

通过分析威斯康星州纵向研究(WLS)8511名欧洲血统成年人的18年认知和行为数据记录,发现年龄和认知能力的全基因组多基因评分(GPS)存在显著的交互作用,额外的表型分析确定了认知能力GPSs与认知/行为表型之间的几个关联,如相似性任务、数字序列任务、智商得分、高中班级排名、参加文化活动(如音乐会、戏剧或博物馆)以及看电视。这是首个认知和行为表型进行表型组分析的研究,揭示了认知能力对老龄人群认知能力下降的新的遗传保护作用[85]

3、促进癌症的基础研究与临床转化

癌症是全球第二大死因,近年来全球癌症负担持续增长,给个人、家庭、社区和卫生系统带来巨大负担。美国癌症研究协会(American Association for Cancer Research,AACR)于2022年发布了基因组学证据肿瘤信息交换(Genomics Evidence Neoplasia Information Exchange,GENIE)项目进展,公开了具有里程碑意义的GENIE 9.1公开版本包含了来自美国、加拿大、英国、法国、荷兰、西班牙的19个癌症中心超过100,000名肿瘤患者的110,000余个肿瘤数据,展示了通过集中数据资源协调这些真实世界数据的使用,GENIE已成为评估基因组指导的临床试验设计,揭示癌症亚型驱动因素以及为使用基因组数据提供信息的强大资源。可扩展的数据基础设施和治理框架通过生物制药合作和扩展支持额外的患者深度表型测量和分析,促进更多新的数据类型产生[86]

深度表型测量为肿瘤异质性提供了见解。目前,治疗决策通常依赖于诊断或疾病进展时有限的肿瘤组织样本的分子特征,但没有考虑到肿瘤的复杂性及其随时间的不断演变,这对患者临床结局至关重要[87]。2022年多篇表型组学研究综述、论文系统探讨了表型异质性对癌症诊断和治疗方法的促进:评估癌细胞衍生的外泌体的分子特征为乳腺癌精准分型和个性化治疗提供了可能性[88];针对表型异质性的脂质体制剂对于胶质母细胞瘤的整合治疗促进了对该病的理解和治疗潜力[89];通过成像和转录组学追踪免疫细胞和患者癌症类器官的动态相互作用的BEHAV3D系统鉴定出包含具有强大连续杀伤能力的T细胞行为簇,是表征细胞免疫疗法的表型异质性的有力工具,可以支持个性化实体瘤靶向细胞疗法的优化[90];癌症影像研究中基于人工智能的图像分析在改进乳腺癌风险评估和改进个性化筛查测量方面展示出巨大潜力[91];模块化碱基编辑活动“传感器”以高通量方式识别癌症相关突变,有助于在细胞和动物模型中对癌症变体进行功能性研究[92];肢端黑色素瘤转录图谱确定了新的免疫治疗靶点[93];非小细胞肺癌治疗前进行B细胞表型分析可避免治疗中免疫相关不良事件,如自身反应性T细胞活性增强、自身抗体形成或严重的自身炎症后遗症等不良后果[94]

(五)表型组学研究技术体系持续迭代创新

1、表型影像学成为表型组学研究的重要工具

表型影像学(phenomic imaging)是指通过利用一种或多种生物医学成像技术方法,对人体或生物体进行研究,并且使这些被研究的表型结果“可视化”。表型影像学将研究对象的解剖结构、组织器官功能、细胞代谢与生物化学过程等从宏观到微观的各种特征,以二维或三维图像的方式展现出来。它既是表型组学中全面贯穿宏观与微观表型的重要线索和纽带,也是表型组学中将人体精密测量“数字化”后,实现“可视化”的重要方法和目标[95, 96]。表型影像学除了传统医学影像学用于疾病诊断的功能外,还可用于表型精准评估、定位和定量表征[51],从高通量数据中提取高度代表性的结构或功能特征[97],疾病易感性评估等[98]

2022年,表型组学领域有多篇表型影像学科技论文成为领域关注热点。从大脑图像中提取有意义和可分离的表型信息的多模态多对比度图像融合可辅助识别多尺度多维生物标志物,解决传统数据分析方法无法识别病理生理机制,有助于预测疾病演变和药物反应,加深对疾病的理解,并为临床试验提供支持[99];超声心动图结合深度学习算法用于心室肥大高通量精准表型分析,提高了量化心室肥大和预测左室壁厚度增加风险的能力[51];心脏核磁共振表型影像模型可用于预测心脏疾病风险和不良结局风险[100, 101];基于X射线的乳腺癌表型影像数据为评估疾病风险提供了参考[91];使用常规CT图像进行放射组学的风险分层可提供系统性硬化症互补的肺部病理表型,为预后信息和临床决策提供支持[102];在罕见病的精准诊断、预后和试验治疗中展示了巨大潜力[47, 103];多重静态组织成像方法的最新技术可以通过多光子活体显微镜(MP-IVM)可视化细胞动力学,为研究原位免疫细胞相互作用提供了成像技术与复杂数据分析能力[104];利用超声检测监测和实时更新胎儿表型为发育障碍的临床理解打造了基础[105];新型成像手段如 PET/MR 一体机可为临床提供更丰富的解剖及功能代谢的复合诊断信息,新型PET 分子影像探针通过反映淋巴瘤的代谢变化、功能改变、基因突变和组织学特征等病理生理过程,为解码淋巴瘤表型和探索治疗相关机制提供有力工具[106]

2、人工智能应用于复杂表型组数据集整合

随着表型组学研究范式应用于生命健康领域,多维度跨尺度表型组精密测量生成了大量深度表型数据集,其复杂性为解析疾病的演化和进展带来了挑战。人工智能显示出对信息整合、分析、预测和临床应用的潜力,正在应用于生命科学研究和临床疾病诊断[107]。包括机器学习和深度学习技术的人工智能的潜在应用,在医学和医疗保健领域呈指数级增长[108]。2022年,多篇综述和科技论文报告了人工智能在表型组检测、数据分析和模型预测领域的应用潜力,报告列出了部分高引用文章和采访专家提供案例。

基于人工智能的图像分析在疾病的风险评估和精确筛查中展示了潜力。人工智能应用于乳腺X射线表型和乳腺断层扫描数据合成和使用[91];机器学习在明确精神病学的分子表型并鉴定跨物种生物标志物中的作用,为开发精确和个性化的精神障碍预后和诊断提供了新的机会[109];使用深度卷积神经网络识别医学图像数据中的特征模式在近年来的罕见病诊断中取得巨大进步[110];新的基于视觉和语义信息融合的深层组织学异质特征聚集网络(Histology Heterogeneous Feature Aggregation Network,HHFA-Net)用于检测大肠癌的组织病理学表型[111];机器学习和深度学习技术用于表征脓毒症患者表型,准确预测了生存率并确定了与患者生存和死亡率相关的表型[112];机器学习框架被用于识别心血管疾病重要预测因素和开放更稳健性能的风险模型[113];机器学习与专家指导相结合,应用于提高先天性免疫缺陷疾病表型术语疾病注释的准确性,为先天性免疫缺陷疾病的诊断和研究活动奠定基础[114];自动多模式测量与机器学习算法相结合应用于获取和分析自闭症谱系障碍的啮齿动物模型,有助于全面理解社会行为复杂性[115];机器学习方法被应用于识别自杀风险[52, 116],有助于早期筛查、干预和预防;机器学习算法的应用使得阿尔兹海默疾病理解方面取得长足进步,并为潜在的新疗法和精准医学方法奠定基础[117]

3、表型组精密检测及分析技术不断创新

在细胞水平检测技术上,新的单细胞蛋白质组学的工作流程将微流控芯片、多功能蛋白质组样品制备和数据独立采集(data independent acquisition,DIA)质谱相结合,用于单细胞水平蛋白质组学分析,提供了一体式细胞表型、分析灵敏度和鲁棒性,为单细胞蛋白质组学应用提供了基础[118]

多参数流式细胞术能够同时定量测量单个细胞的多种表型参数(蛋白、核酸、离子水平、酶活性等),并在短时间内完成数以万计细胞的检测,是获取单细胞表型组数据的极佳工具[98]

基于电感耦合等离子体质谱法(ICP-MS)的高通量多元素定量检测方法为人体生理、营养和环境科学等相关的元素组学研究提供了有效的新工具和重要的元素定量数据[119]

基于DNA的电化学传感器和信号放大策略被用于MicroRNA检测,由于其检测灵敏度高,成本低,不依赖于大型检测设备等优势,在用于构建便捷式的 miRNAs传感器以及用于疾病的早期检测方面具有独特的优势[120]

光学分子成像是在基因组学、蛋白质组学和现代光学成像技术的基础上发展起来的新兴研究领域。通过将光学成像技术与疾病特异性成像探针相结合,可以在体和离体高特异和高灵敏地检测表观遗传生物标志物,使研究者能够更好理解表观遗传在肿瘤中的作用机制,促进临床转化研究[121]

重构性别偏向性族群融合历史的新方法MultiWaverX利用常染色体与X染色体共享历史事件的规律,通过数据量相对更丰富的常染色体推断人群混合模式,进而估计性别偏向性参数,可以有效克服由于X染色体较短,数据量较小带来的模型推断不稳定的缺陷[122]

图形特征提取工具3D-IBEX提供了一种高分辨率的多重3D成像方法已被用于分析小鼠的肺、淋巴结、视网膜和角膜以及人类的视网膜和空肠,产生大规模组织结构的无缝视图,同时获得多个标记物的单细胞分辨率,从而能够识别离散的细胞亚群和结构,将为薄组织切片中缺失的稀有细胞亚群的表征、组织中轨迹被切片破坏的神经和血管等结构的可视化,以及病理学基质的中尺度组织域的描绘开辟新的途径[123]

表型精密分型方法的概念框架AudioChip用于解构和量化复杂的听力表型,有助于描述和量化个体听力测量的内部同质性和异质性,识别基因型-表型关系,记录听觉表型的纵向变化,并在病例对照组中配对个体进行遗传关联分析[124]

基于自然语言处理的数字表型工具Boamente使用自然语言处理和深度学习模型对文本进行分类,以识别自杀意念[116]

人类表型组:年度进展

1、首次发现指纹花纹和肢体表型之间存在强关联,助力识别潜在疾病风险

指纹作为肤纹的一种,因其永久稳定和唯一性,又被称为“人体身份证”。2022年中科院上海营养与健康研究所汪思佳研究员团队、爱丁堡大学Denis Headon教授团队和中科院院士、复旦大学校长、IHPC共同主席金力教授团队联合国内外十余家科研机构在国际顶尖期刊《细胞》(Cell)杂志发表论文《肢体发育基因构成人类指纹花纹差异的基础》(Limb development genes underlie variation in human fingerprint patterns)[34]。研究团队研究在表型整合领域取得突破,将单个手指的指纹花纹进行整合,形成了复合表型,并发现EVI1基因的变异位点与中间三枚手指指纹的复合表型显著相关。团队进而发现EVI1在人类胎儿组织中从肢体发育到皮纹形成过程中,支持其发挥塑造四肢和手指作用的主要是表达于肢体发育期的间充质细胞,而非皮肤发育期的上皮细胞。这进一步说明,指纹相关基因通过调控肢体发育,影响指纹花纹的形成,而非传统认知的调控皮肤发育。

该研究成果首次发现与指纹相关的基因显著富集在肢体发育与形成的相关通路而非皮肤发育相关通路明确了人类肢体发育相关基因在指纹花纹表型的形成中发挥了关键作用。这一关键发现,为肤纹与人体其它表型,尤其是疾病易感性的关联研究提供了重要理论基础有望成为解析宏观与微观表型关联的经典范例。

2、分子表型组学为新冠感染者提供综合征评估框架

表型组学是对在整个生命活动中基因与环境相互作用的系统性研究。分子表型组学主要关注细胞或生物组织的化学和生化特征(如代谢物、蛋白质、转录因子等),以及它们在疾病发生、发展及恢复过程中如何呈现特异性变化。这对于了解新冠肺炎等突发性疾病的分子特征以及它们带来的系统性影响至关重要。深度表型检测这些分子特征,可为个体疾病发展和病理状态提供全景式视野[125]

“代谢组学之父”、英国皇家医学科学院院士、IHPC共同主席、Phenomics副主编、澳大利亚莫道克大学健康科学副校长Jeremy Nicholson教授在《表型组学》(Phenomics)以封面论文在线发表了题目为Molecular Phenomic Approaches to Deconvolving the Systemic Effects of SARS-CoV-2 Infection and Postacute COVID-19 Syndrome的综述文章,系统阐述了分子表型组学为新冠患者提供综合征评估框架的重要作用[126]

2022年,Jeremy Nicholson教授与合作团队在Nature Immunology上发布新冠患者基于分子表型组学数据的免疫学预测成果[127]。通过详细的纵向表型数据,覆盖215名不同严重程度新冠感染者感染后12个月的情况,并与45名健康个体进行比较,合作团队发现先天免疫细胞数量以及犬尿氨酸和脂质代谢物水平在患者体内的协同变化预测了消退率、死亡率和后遗症影响。从这些数据中,团队生成并在线发布一个复合特征,以根据疾病发作后不久测量的分子和细胞参数预测患者的康复情况,生成全身恢复或缺乏恢复的预测模型。该模型基于训练和测试队列进行了稳健的性能和评估,已可供他人进行使用,引发领域关注[128]

3、美国表型组健康组织提出并推进“科学驱动的全面健康”(Scientific Wellness)系统理念

美国四院院士、中国科学院外籍院士、IHPC共同主席、Leroy Hood教授于2017年发布了先锋100健康计划成果,在相对大量人群中进行临床试验、代谢组、蛋白质组、微生物组以及活动测量等广泛、多次的数据检测,与基因组数据结合,首次阐明个人密集动态大数据可为健康(无临床症状)人群提供可操作的可能性(actionable possibilities),进而通过生活习惯、膳食营养和极早期医疗行为降低发病风险,增强健康[129]。大型队列的纵向多组学数据、临床试验和生物标志物分析为理解从健康到疾病的转变奠定了基础[130]。此后Hood教授团队基于多年科研成果和Arivale商业人群队列数据验证,组建非营利性组织表型组健康(Phenome Health),将表型组学成果应用于健康护理中,推动医学范式从疾病护理转变为健康护理,提出“科学驱动的全面健康”(Scientific Wellness)系统理念并发起美国人类表型组倡议。

该倡议计划招募100万人,结合医疗记录、可穿戴设备和表型组测量结果和大数据分析处理并生成个人 “表型组学”档案,旨在破解并详细描述个人纵向健康状况,并为人们提供可保持更长时间健康的可行性建议。卫生系统联盟Guardian Research Network、谷歌公司等已成为表型组健康组织战略合作伙伴,将在健康大数据领域发挥表型组驱动全面健康的优势。

4、全球首套多组学标准物质为表型组研究数据生成、分析与整合奠定基础

随着生物医学研究进入大数据时代,多组学数据分析已成为生命科学前沿领域最重要的研究工具之一,多维度数据挖掘与整合分析,可以帮助科学家实现从基因组到表型组、贯穿微观和宏观尺度的系统分析,极大提高了人类解读复杂生命系统的能力,对更加深刻、精准地破解肿瘤、遗传病等各类疾病的发病原因与微观机制,寻找更有效的干预手段奠定了重要基础。高质量数据生成、可靠的数据分析整合以及全球科学界一致认可的统一标准成为领域亟待解决的根本性问题。

由复旦大学/上海国际人类表型组研究院石乐明、郑媛婷团队联合中国计量科学研究院方向、董莲华团队共同完成了全球首套多组学标准物质“中华家系1号”研制。多组学标准物质包含同批次大批量产生的DNA、RNA、蛋白质、代谢物,旨在确保分子表型组数据跨批次、跨实验室、跨平台、跨组学的可比性和准确性。通过在国内32个研究中心运用24种主流技术平台对标准物质进行了深入全面的表征,获得了包括基因组、表观基因组、转录组、蛋白组和代谢组在内的多组学大数据。在此基础上,提出了一系列质量控制指标,构建了高置信的标准数据集,为多组学技术、实验室性能、分析算法的评估提供了高质量的“基准真值”。 

首套标准物质推出即引起业内广泛关注,获得领域专家高度好评。目前,中华家系1号系列标准物质已被国家卫健委临床检验中心、欧洲转化医学研究先进基础设施(European Advanced Translational Research Infrastructure in Medicine (EATRIS) Plus)等国内外一百余家科研机构进行了广泛应用,扩大了中国标准物质的国际影响力。

5、表型组学为传统医学提供现代科研视角

2022年初,上海中医药大学国医大师施杞和附属龙华医院王拥军教授、唐德志教授带领团队率先在《中医杂志》刊文,详细论述中医表型组学的概念[131]。中医表型组学是指以中医核心理念为根本,以大型人群队列为基础,采用多组学、生物信息学和人工智能等手段,从宏观、中观、微观水平上系统地、定性与定量结合地测定中医“证”与“病”发生发展全过程中的表型集合及中药干预下的转归机制,揭示中医现代科学内涵的一门学科。同年10月,Phenomics刊发题为Chinese Medicine Phenomics (Chinmedphenomics): Personalized, Precise and Promising,首次在国际上倡导建立中医表型组学(Chinmedphenomics),并论述了其“3P”理念,即中医表型组学具有个性化、精确性和广泛的应用前景[132]。中医从《黄帝内经》时期就奠定了其“Personalized”的特点,“一人一方”的智慧比现代西方医学提出的个性化医疗要早2000多年。中医方剂中的“方证合一、药证合一”“君臣佐使”等思想方法也是追求“Precise”的具体体现,结合如今的表型组技术,会让中医更加精准,且解读得更加清楚。中医表型组学则从现代科研角度出发,先广泛地让国际理解中医的表型,有所感知、认识之后,再引导不断理解中医的深刻理论,目的不变,沟通交流模式拓展,其将充满“Promising”。

印度传统的阿育吠陀(Ayurveda)医学体系也在表型组学研究理念影响下,将电子、数字健康和人工智能作为循证解决方案和综合医学方法。2022年印度政府阿尤什(AYUSH)部赞助的阿育吠陀卓越技术中心(AyurTech Center of Excellence,CoE),致力于开发一个传统医学新领域。该领域整合了阿育吠陀知识库,根据七种Prakriti类型对个体进行个性化分类和治疗[133]。这些发现为疾病预测、预防和治疗提供了无创诊断的基础[134, 135]

人类表型组:总结与展望

2022年是国际人类表型组计划持续发展与收获的一年。在国际人类表型组研究协作组引领下,人类表型组研究在多个领域取得成果:全球首套多组学标准物质正式发布,提升了人类表型组数据的“准确性、溯源性、一致性”,有利于深度挖掘和利用人群的生物样本和表型组学数据,已被国内外百余家科研机构应用,为国际人类表型组计划国际科技合作打造基础;人类表型组研究范式被生命科学领域广泛接受,促进了多国国家级队列建设和成果产出;表型组研究在急性传染性疾病和慢性非传染性疾病的风险预警、早期诊断、治疗用药、护理方案等方面显示出巨大潜力;同时,如表型影像学技术、人工智能应用等更多创新技术被应用于基础科研和临床试验,为加速科学健康和精准医学提供了新的机遇。

经过五年的探索与实践,以复旦大学为代表的中国科学家核心团队在人类表型组计划先导研究中取得多项突破性进展,达成多个“全球第一”,奠定了中国在人类表型组基础研究领域的国际领先优势。为了推进对生命的深入认识,不断增进人民健康福祉,人类表型组国际大科学计划的深入推进需要全球科学家的通力合作。我们将积极推广表型组学研究范式,推进表型组领域的数据共享与开放。未来将建设全球多中心的人类表型组数据汇集、管理、分发、协同平台,为全球参与表型组研究的科学家提供服务,并为最终实现绘制全球性的人类表型组“导航图”目标提供平台与技术基础。随着人类表型组国际大科学计划的进一步发展与推进,一大批新的潜在药靶、新的生物标志物新的机制机理等系列等新突破、新发现和新成果必将持续涌现。

参考文献

b9673936ce50ddae46099c5eef6ddf91.png

f1153ea3a99266bafc4078eede15737f.png

984fa82e136daebcb42667eb7b8bf34e.png

5d407f13eec51e7ab088d937a5955f78.png

c0d1d910da047d8e3811fa88d7c6429f.png

f413ef12371e3710f4b4b0137c88a43e.png

8a1153b35ffb9669ed6575386aeb05e6.png

a2a65c8dd6be78eca05e37cadf2f9b7f.png

652d1c24c9a23285c325c2ef215a4c6a.png

a37041bdfd05e720cf52d9ff0a5f2b8c.png

c12da15e5eaf9ce6dfbf7a04d5114261.png

3600a5c2b0f444035668e3a76dde23ce.png

a846edda5ed42dad496dd2db50649626.png

889a1d85a4037bdae2acd1b920e7ac9f.png

宏基因组推荐

猜你喜欢

iMeta高引文章 fastp 复杂热图 ggtree 绘图imageGP 网络iNAP
iMeta网页工具 代谢组MetOrigin 美吉云乳酸化预测DeepKla
iMeta综述 肠菌菌群 植物菌群 口腔菌群 蛋白质结构预测

10000+:菌群分析 宝宝与猫狗 梅毒狂想曲 提DNA发Nature

系列教程:微生物组入门 Biostar 微生物组  宏基因组

专业技能:学术图表 高分文章 生信宝典 不可或缺的人

一文读懂:宏基因组 寄生虫益处 进化树 必备技能:提问 搜索  Endnote

扩增子分析:图表解读 分析流程 统计绘图

16S功能预测   PICRUSt  FAPROTAX  Bugbase Tax4Fun

生物科普:  肠道细菌 人体上的生命 生命大跃进  细胞暗战 人体奥秘  

写在后面

为鼓励读者交流快速解决科研困难,我们建立了“宏基因组”讨论群,己有国内外6000+ 科研人员加入。请添加主编微信meta-genomics带你入群,务必备注“姓名-单位-研究方向-职称/年级”。高级职称请注明身份,另有海内外微生物PI群供大佬合作交流。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍未解决群内讨论,问题不私聊,帮助同行。

点击阅读原文,跳转最新文章目录阅读

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值