毛远丽教授谈机器学习技术在检验医学中的新应用|专家论坛

机器学习(Machine Learning, ML)是一门多领域交叉学科技术,通过算法使得机器从大量数据中学习和发现规律,从而对新的样本或数据进行分析和研究的方法。从1949年的赫布理论诞生,机器学习技术经过数十年的蓬勃发展,在大数据时代的背景下,以深度学习为代表的新技术不断涌现,机器学习技术不断从理论走向了实践和应用。目前,机器学习技术在肿瘤学、病理学和部分罕见病的诊断中发挥着越来越重要的作用。

数据获取及机器学习的实现

进行数据分析的前提是获得大量标准化、准确可用的数据。对大部分研究者来说,通过电子病例系统检索或纳入研究对象、采集数据是最常用的方法。但是通过这样的方式很容易造成数据的缺失,且需要大量的时间和金钱的投入,也很难符合大样本和多中心的要求。目前互联网资源是获取信息的主要来源,肿瘤生物信息学数据库为肿瘤的数据研究提供了有效的资源获取方式。

本文介绍几个主要的肿瘤互联网数据库,可作为肿瘤研究数据获取的来源:

(1)TCGA是由美国国立癌症研究所(NCI)和国家人类基因组研究所资助成立的肿瘤基因数据库。该数据库包含3万多份各类恶性肿瘤患者病例资料,所提供的数据包括患者的基本病例信息、预后情况、病理图谱、突变位点、表观遗传、基因表达谱及miRNA等;

(2)GEO数据库全称GENE EXPRESSION OMNIBUS,是由美国国立生物技术信息中心NCBI创建并维护的基因表达数据库。GEO除了二代测序数据外,还包含芯片测序、单细胞测序数据,样本数据也不限于肿瘤。通过上面的数据库,研究者可以免费获取肿瘤患者的各类数据,并作为机器学习的数据来源进行后续的分析、建模、指标筛选和评价工作。

获得可用于分析的数据后,即可采用数据分析软件进行后续的分析和建模。目前机器学习建模的主要

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

openhis

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值