跟Nature学画图--3分钟内3步骤0代码复现配对哑铃+分组Lasso拟合组合图,超越Origin、GraphPad 和R语言...

先来感受下仅需1秒的极速出图流程和一键随机修改配色功能,性能遥遥领先:


eae4c6e53ff62d0cf7c3cdd22cf7ae92.gif

本次复现的图表来源于Nature正刊上(IF=64.8)题目为《Proteomics identifies new therapeutic targets of early-stage hepatocellular carcinoma,译:蛋白质组学鉴定早期肝细胞癌新治疗靶点》中的Fig.1。跟着操作,只需要简单的鼠标点点点3步骤,在短暂3分钟内即可轻松复现该图。大家如果有类似数据分析需求可以按照平台上示例数据格式直接复制粘贴替换成自己数据直接分析哦!

1bd51323dcb0ee6b1cf586719c996bff.png

e585d4d7a5637249419762064654f359.png

CNSknowall完美一比一复现Nature原图,点的横纵坐标位置和拟合曲线轨迹走向均与原文丝毫不差,另外采用经典的红蓝CP对配色进行了加深优化以凸显对比!

复现目标图片介绍

--- ·配对哑铃组合图 · ---

配对哑铃组合图由两部分构成:

第一部分为分类变量的格子热图——分类格子热图是一种用于可视化两个分类变量之间关系的图表,用颜色表示类别,并附带标签;

第二部分为带有拟合曲线的配对哑铃图,包含的元素有:

(1)配对哑铃图:哑铃图(Dumbbell Plot)又称DNA图,顾名思义,这类图形看起来形似哑铃和DNA,其特点是是在两个时间点或条件之间用线段连接两个点,形成一个类似哑铃的形状,从而清晰地显示出变化的趋势。配对哑铃图是一种用于可视化两个指标/变量、两个组别/群体/类别、两个不同时间点、两个条件或两种状态之间的变化差异或趋势的图表类型,适用于两组以上数据的比较,有助于突出差异或变化趋势。

(2)拟合曲线:为了更好地展示变量之间的趋势,数据使用loess方法进行拟合得到拟合曲线,拟合曲线的阴影表示95%的置信区间。

(3)点:每个配对有上下两个点代表具体的观测值。这有助于更详细地了解数据的分布。

文章从110例早期肝细胞癌(HCC)患者中选择手术切除的原发性肿瘤组织和配对的非肿瘤肝组织作为实验样本,研究通过定量蛋白质组学技术对98对肿瘤和非肿瘤样本进行蛋白质鉴定,并统计了样本的α-胎蛋白的水平(AFP)和显微血管浸润(MVI)是否为阳性,最终得到了待作图的数据。该数据的可视化结果如下:

d40935c051c9edddcd7a4a2fbf1ef272.png

原文Fig.1

该结果的哑铃图部分展示了每对配对肿瘤与非肿瘤样本中检测出的蛋白质样本数量对比——肿瘤样本明显高于非肿瘤样本;并使用lasso回归分别拟合了肿瘤(红色,n = 98)和非肿瘤(蓝色,n = 98)样本中蛋白质数量的分布,让两组蛋白质数据的特征和趋势更加明显,强烈凸显出肿瘤样本蛋白数量更高;而在分类格子热图中,AFP(α-胎蛋白水平)大于200的样本和MVI+(显微血管浸润阳性)的样本表示为红色,它们明显少于AFP水平低和MVI-的样本。总的来说,该图是对早期肝细胞癌病例中定量蛋白质鉴定的概述,证明了早期肝癌在蛋白质数量水平方面的异质性。当然,该图也可以应用于任何多样本数量统计、分组分类、数据特征展示等分析结果可视化中,具有广泛的应用场景。话不多说,直接看如果3分钟内3步骤0代码画出100%一比一复现该图:

详细步骤

配对哑铃组合图复现

1

登录CNSknowall平台 

点击工具链接:

http://cnsknowall.com/#/HomePage

直接微信扫码登录即可免费使用,进入“数据分析模块”——“高级分析”——“差异分析”,找到配对哑铃组合图,点击进入配对哑铃组合图分析界面。

04a0a827871078b3773b4ced1217632e.png

80a8302210b52a81daaaab17d75be16d.png

CNSknowall配对哑铃组合图可视化界面

2

数据下载

从原文下载Source Data数据,Nature原文链接:

文献地址:https://www.nature.com/articles/s41586-019-0987-8

7f09e9a604fb53be97583a77019241aa.png

 下载数据Souce Data Fig.1,原文提供的Souce Data Fig.1如下:

第一列为样本名(患者),第二列为从非肿瘤样本中鉴定出的蛋白质数量,第三列为从配对肿瘤样本中鉴定出的蛋白质数量,第四列表示样本中是否呈显微血管浸润阳性,若‘是’则表示为‘1’,第五列表示样本的α-胎蛋白水平是否大于200,若‘是’则表示为‘1’。

e73d80858f61a479bfbc81b0fa31a5d7.png

3

数据上传

将表格数据清空后,将上述Souce Data Fig.1中的数据直接复制粘贴到平台右侧表格中,点击左下方上传选项

45028f314871761852c35de044b9813a.png

上传成功后,页面上方会显示弹窗信息,“已上传成功”。

2efbd60665baef509bb23d2f7b687045.png

最后点击点击页面左下角“开始做图,等待平台运行。

01a0d3a58f1501206ee7f0176edf933b.png

<1秒即可得到的运行结果,如下:

dc91106bb2ffc2ff7f9136a180dd4a14.png

4

图形细节设置

01

图表设置

修改圆点大小、哑铃线宽以及拟合曲线线宽

6512f5d4582cb083054c514d08d081e5.gif

02

坐标轴设置

x轴标题改为‘Paired tumour and non-tumour samples (n = 98)’,y轴标题改为‘Number of protein identification’,并略微调大字号。

da488e019a3d23fe79be80a1c6f671ea.png

03

图例设置

ea0f23639963a6ff6d031f7ffd99e37e.png

5

图形颜色设置

方式1:全网首创的一键随机变色模式,遥遥领先:

c785fb7508ced9b3c5cc3c9153edacee.gif

方式2:输入精准的颜色参数

11e523f5646ba134546cb72d29a3f653.png

方式3:首次将取色器用于医学数据分析,一键复制相中文献上的配色风格:

f82e8e38afb4aa548137fcf75b72d0c5.gif

6

输出结果

再次看下复现结果图与文献原图对比(上图是CNSknowall复现结果,下图是原文结果),每个点的横纵坐标、拟合曲线形状和走势均一比一100%完美复现:

b6493d60367949d0b71fb595908397da.png

最后直接下载出可满足SCI发表像素(>300dpi)的图片。本工具有四种图片格式可供下载,可根据需要,自行选择。以下载pdf格式的图片为例,点击“下载图片”--“Download PDF",即可完成下载,下载后的矢量pdf可以进一步编辑各个细节如字体大小和格式、移动标签位置等。

de3928f1aa305d485df4c601ec0f45df.png


END

7f87818d2ea9d80ba67bee79a3a56772.png

 点击关注我们,用最短的时间和最高的效率学习更多数据分析方法!

加入我们的官方群咨询平台使用方法,高效学习更多数据分析方法,会晤道友!

79df91cc111372e7ebd5ddb87a1170b7.jpeg

‍免费注册登录CNSknowall

--一次性收藏120个皆可一键出图的高级通用生信工具--

d8b6522867fa28eadd14fc474653b765.png

同时收藏42个柱状图+23个饼图+其余70个各类常用图表

37d19e7070626db60fd14400c85bbb18.png

写在后面:AI时代已来,您需要非同以往的更强数据分析工具

      CNSknowall (中文:CNS万事通)平台是今年1月份新上线的一款专门针对医学领域的创新型免费在线数据分析云平台,和目前常用的数据分析工具如SPSS、Origin、GraphPad Prsim和R语言相比,CNSknowall在数据上传、配色修改和参数调整等各方面做出了一系列重大创新,各项性能遥遥领先,几乎没有任何学习成本(包括时间成本和金钱成本),甚至优于GPT(毕竟GPT不是专门的数据分析工具)。您只需要简单的套用台提供的固定数据格式复制粘贴替换成自己的数据,鼠标点点点就可以完成CNS级别的高水平图表制作,可以让不擅长或没接触过数据分析的人以最短的时间内快速建立医学数据分析的基本思维,以最快的速度掌握各种数据分析技能,帮助大家在数据分析上节省大量宝贵的时间,从而可以把时间和精力用在更重要的事情比如查阅文献和设计研究思路方案等,提高文章发表速度,减缓毕业焦虑,赋能职业生涯,开启科研天骄之路!

 CNSknowall 首页eba66d6b1b7fae4cf9bf3f2f6becb7e0.png

很多时候知道自己要画什么图往往比会画什么图更重要

平台包含300个数据分析模块,您可以快速找到能让自己数据价值最大化的分析方法

### R语言实现LASSO回归分析蛋白质组数据 以下是基于R语言LASSO回归代码示例,适用于处理包含513个样本7108种蛋白质的数据集,并将其与临床结局关联: #### 数据准备阶段 假设您的Excel文件名为`proteomics_data.xlsx`,其中包含了蛋白质表达量以及对应的临床结局。 ```r library(readxl) # 加载读取Excel文件所需的库 data <- read_excel("proteomics_data.xlsx") # 导入Excel数据 X <- as.matrix(data[, -ncol(data)]) # 提取特征矩阵(去除最后一列) y <- data$ClinicalOutcome # 提取目标变量(临床结局) # 将数据分为训练集测试集 set.seed(123) # 设置随机种子以确保可重复性 train_index <- sample(seq_len(nrow(data)), size = floor(0.7 * nrow(data))) # 训练集占总数据的70% X_train <- X[train_index, ] y_train <- y[train_index] X_test <- X[-train_index, ] y_test <- y[-train_index] # 归一化数据 scale_X_train <- scale(X_train) scale_X_test <- scale(X_test) ``` #### 使用glmnet包执行LASSO回归 `glmnet`是一个强大的R包,专门用于拟合广义线性模型并支持LASSO回归。 ```r library(glmnet) # 加载glmnet包 # 构建LASSO回归模型 lasso_model <- glmnet(scale_X_train, y_train, alpha = 1, family = "gaussian") # 绘制路径以观察不同lambda值下的系数变化情况 plot(lasso_model, xvar = "lambda", main="LASSO Coefficient Path") ``` #### 模型调优 通过交叉验证选择最佳的正则化参数λ。 ```r cv_lasso <- cv.glmnet(scale_X_train, y_train, alpha = 1, nfolds = 10) # 十折交叉验证 opt_lambda <- cv_lasso$lambda.min # 获取最优lambda值 # 利用最优lambda重新拟合模型 final_lasso_model <- glmnet(scale_X_train, y_train, alpha = 1, lambda = opt_lambda) coefficients <- coef(final_lasso_model) # 查看最终模型中的非零系数 non_zero_features <- names(coefficients[which(coefficients != 0)]) # 找到被选中的特征 print(non_zero_features) ``` #### 测试模型性能 评估模型在测试集上的表现。 ```r predictions <- predict(final_lasso_model, newx = scale_X_test) # 预测测试集结果 mse <- mean((predictions - y_test)^2) # 均方误差计算 cat("Mean Squared Error on Test Set:", mse, "\n") ``` 以上代码展示了如何利用R语言完成LASSO回归分析。此方法能够有效筛选重要特征,在高维数据集中尤为适用[^2]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值