Cell Discovery| 蛋白质组学+人工智能| 基于蛋白质的甲状腺结节人工智能分类器

565f302ba7a050ae8dcc7b567bde8b26.jpeg

COVER

Sun Y, Selvarajan S, Zang Z, et al. Artificial intelligence defines protein-based classification of thyroid nodules [published correction appears in Cell Discov. 2022 Sep 30;8(1):100]. Cell Discov. 2022;8(1):85. Published 2022 Sep 6. doi:10.1038/s41421-022-00442-x

论文通讯为西湖大学郭天南和李子青,分别是组学和AI领域的大佬。

Abstract

作者开发一种「AI-defined protein-based biomarker panel」用于甲状腺结节诊断分类。最初基于福尔马林固定石蜡包埋(formalin-fixed paraffin-embedded,FFPE)样本,进一步改进为微量细针穿刺(fine-needle aspiration,FNA)组织标本。作者首先开发了一个基于1724个「FFPE」甲状腺组织样本的蛋白质组的19个蛋白质生物标记的「神经网络模型」。该分类器在分类恶性甲状腺结节的发现集中达到91%以上的准确性。在288个结节的回顾性队列中,通过盲法分析对分类器进行了外部验证(准确率89%;FFPE)和来自12个独立临床中心的294例FNA活检(准确率85%)的前瞻性队列。

神经网络模型的代码作者已开源,有兴趣的同学可以自行去原文查看链接。当然,如果大家需要木舟对代码进行注释复现,可以多多「点赞」「在看」「分享」本文。

The project design and workflow of the FFPE-PCT-DIA pipeline

6133743fa9364361bd3293b304aa2420.png
image-20221113214941483

主要流程还是比较简单的,这里就不赘述。

Feature selection and classifier development

其他部分都比较常规,直接看一下模型部分。

f798d8f440ade46dfff803c6a021fbdf.png
Schematic workflow

特征选择

7ac2766e0c40cd9fc6c5104c602e90d5.png
Data splitting

如图,将「发现队列」(discovery dataset)分为2/3的datasetA和剩下的datasetB。在datasetA中使用三折交叉验证(three-fold cross-validation)进行特征筛选(Feature selection)。

4c4b63389f097d8dabea5e12c3c71d7a.png
Flow diagram of genetic algorithm for protein features selection

根据「差异分析结果」以及「已发表文献报道」TCGAOMIM数据库分析与甲状腺癌诊断有关的蛋白,将原始的6689个蛋白筛选到1302个。再根据样本缺失率<35%,得到767个蛋白质。

35%缺失率阈值怎么确定的?

In process of feature selection, we explored different screening conditions, using 25%,30%,35%, and 40% as thresholds for the missing value. The data showed that at more relaxed screening conditions the higher number of candidate features were nominated and that the results became more unstable in the independent validation set. The features with higher missing value rates, although potentially providing better classification were not stably detected and may negatively affect the quality of the model if such features are selected. Finally, in our classifier, we clearly defined the criteria for feature selection and used 767 proteins that were missing in less than 35% of samples

随机生成500个每个包含19个蛋白(图中有误)的panel,在datasetA中进行交叉验证,并计算fitnessdatasetB对性能进行评估,选出最优panel

为了消除seed人为设置的随机性,作者比较了seed从0取到14对特征筛选的影响。

为什么选择19个蛋白:

To determine the count of protein features in the panel, we compare the model performances on the different number of features from four to 35 proteins. The more features the better accuracy and AUC achieved and reached a plateau when using 13 proteins . But for the most similar two histopathology types, FA and FTC, 19 proteins achieved the highest accuracy. Therefore, we used 19 proteins as a panel in the present study.

0c3cb563003bf05f50237ca0b713aad4.png
line chart showing the model performance on different counts of protein features

fitness计算公式:

c14994b43df0aed68b375a54b2d320b6.png

作者还使用了Lasso和RF对特征进行筛选,发现性能没有本方法好。

使用「SHapley Additive exPlanations」 (「SHAP」) 算法计算特征重要性。

216c48044a297d36bad69cb24271196d.png
he importance rank of the selected 19 protein features

神经网络模型训练

10fe9dfdc83eb99ab2fa8bbd94d6181b.png
Structural diagram of neural network

使用全部发现队列进行训练。提取19个特征的表达矩阵。使用PyTorch进行MLP训练。使用5折交叉验证进行超参调优。

样本分类

5333b9ea0e2fe0f38c700a48315d113f.png

对独立队列进行预测,评估模型性能。

074b62ce045a92fb738e3bb6477602c3.png
6a47a52ed5219be575a2c80cc105056c.png

代码

  • zangzelin/thyroid-project (github.com)(https://github.com/zangzelin/thyroid-project)

示例数据和代码领取

点赞在看 本文,分享至朋友圈集赞20个保留30分钟,截图发至微信mzbj0002领取。

「木舟笔记2022年度VIP可免费领取」

木舟笔记2022年度VIP企划

「权益:」

  1. 「2022」年度木舟笔记所有推文示例数据及代码(「在VIP群里实时更新」)。

    e234abbd5741b3b5e6704f7a5961d1e5.png
    data+code
  2. 木舟笔记「科研交流群」

  3. 「半价」购买跟着Cell学作图系列合集(免费教程+代码领取)|跟着Cell学作图系列合集

「收费:」

「99¥/人」。可添加微信:mzbj0002 转账,或直接在文末打赏。

65c04b08ec8f9212600affddebf1ad8a.png

往期

  1. CNS图表复现|生信分析|R绘图 资源分享&讨论群!

  2. 这图怎么画| 有点复杂的散点图

  3. 这图怎么画 | 相关分析棒棒糖图

  4. 组学生信| Front Immunol |基于血清蛋白质组早期诊断标志筛选的简单套路

  5. (免费教程+代码领取)|跟着Cell学作图系列合集

  6. Q&A | 如何在论文中画出漂亮的插图?

  7. 跟着 Cell 学作图 | 桑葚图(ggalluvial)

  8. R实战 | Lasso回归模型建立及变量筛选

  9. 跟着 NC 学作图 | 互作网络图进阶(蛋白+富集通路)(Cytoscape)

  10. R实战 | 给聚类加个圈圈(ggunchull)

  11. R实战 | NGS数据时间序列分析(maSigPro)

  12. 跟着 Cell 学作图 | 韦恩图(ggVennDiagram)


2beaca3ec6113dc9cf7a2d67e043362c.png
木舟笔记矩阵
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值