理解⼀种疾病的某种现象仅使用⼀种数据类型是远远不够的,随着高通量测序和多组学的快速发展,生物医学研究开始采取多组学技术结合的方法,传统的信息数据处理算法不能满足大数据的处理要求,机器学习作为从数据中进行学习的算法,可以对不同组学来源(如基因组学、转录组学、蛋白质组学、代谢组学)的数据进行综合分析,开发针对个体多样性的多因素预测模型,可以显著减少需要考虑的潜在治疗组合的空间,并识别其他可能被忽视的组合,并可以添加实验验证的步骤,以提供额外的证据,从而证明预测治疗可能存在的有效性。
机器学习在疾病亚型识别、生物标志物发现、通路分析以及药物发现及其再利用有着更广泛的前景和应用空间。然而,机器学习的应用仍存在一些瓶颈,人工智能研究项目所需的技能和知识匮乏缺失制约着该方向的发展。
入门阶段可以从机器学习以及机器学习在多组学数据分析及应用基本概念开始,先明确机器学习方法的适用性和优势,以及要系统性、有针对性的对python语言基础进行学习,为之后构建相应算法模型框架可以打下基础。
进阶阶段可以从深度学习神经网络、经典机器学习模型、多组学联合分析-阐明疾病分子机制、深度学习在组学数据的应用、机器学习+Science等五个模块进行学习。演练机器学习在多组学整合分析中的数据处理、预测模型以及生物学意义阐述等,掌握多种机器学习算法模型的构建以及在多组学联合分析在肿瘤及慢性病中的实际应用,并要了解当下深度学习算法高维组学数据处理,生物网络挖掘的前沿方法,有助于研究创新机器学习算法解决生物学及临床疾病问题与需求。
列一个简要的大纲,大家可以相应得找一些教程进行系统学习!
基于蛋白组学- - 代谢组学的肿瘤生物标志物发现
基于 GWAS- - 表型组学的肺癌风险因子研究
基于图神经网络的代谢物分子性质预测与鉴定
基于自编码器的单细胞转录组- -蛋白组学整合分析
看看这些案例你是否可以熟练上手?