机器学习(Machine Learning, ML)是一门多领域交叉学科技术,通过算法使得机器从大量数据中学习和发现规律,从而对新的样本或数据进行分析和研究的方法。从1949年的赫布理论诞生,机器学习技术经过数十年的蓬勃发展,在大数据时代的背景下,以深度学习为代表的新技术不断涌现,机器学习技术不断从理论走向了实践和应用。目前,机器学习技术在肿瘤学、病理学和部分罕见病的诊断中发挥着越来越重要的作用。
数据获取及机器学习的实现
进行数据分析的前提是获得大量标准化、准确可用的数据。对大部分研究者来说,通过电子病例系统检索或纳入研究对象、采集数据是最常用的方法。但是通过这样的方式很容易造成数据的缺失,且需要大量的时间和金钱的投入,也很难符合大样本和多中心的要求。目前互联网资源是获取信息的主要来源,肿瘤生物信息学数据库为肿瘤的数据研究提供了有效的资源获取方式。
本文介绍几个主要的肿瘤互联网数据库,可作为肿瘤研究数据获取的来源:
(1)TCGA是由美国国立癌症研究所(NCI)和国家人类基因组研究所资助成立的肿瘤基因数据库。该数据库包含3万多份各类恶性肿瘤患者病例资料,所提供的数据包括患者的基本病例信息、预后情况、病理图谱、突变位点、表观遗传、基因表达谱及miRNA等;
(2)GEO数据库全称GENE EXPRESSION OMNIBUS,是由美国国立生物技术信息中心NCBI创建并维护的基因表达数据库。GEO除了二代测序数据外,还包含芯片测序、单细胞测序数据,样本数据也不限于肿瘤。通过上面的数据库,研究者可以免费获取肿瘤患者的各类数据,并作为机器学习的数据来源进行后续的分析、建模、指标筛选和评价工作。
获得可用于分析的数据后,即可采用数据分析软件进行后续的分析和建模。目前机器学习建模的主要