生信探索-CSDN博客

原创仅有一张Fig的8分文章胞外囊泡lncRNA+ CT 多模态融合模型，AUC 最高达 94.8%

仅有一张Fig的8分文章胞外囊泡lncRNA+ CT 多模态融合模型，AUC 最高达 94.8%

2025-08-31 10:54:48 181

原创一文看懂 Mantel 相关性连线图：万物互联 X与Y的关联原来这么可视化！

Mantel 检验是一种用于评估两个矩阵之间相关性的统计方法，主要应用于生态学研究中。计算两个矩阵各自的距离矩阵（或相似性矩阵）检验这两个距离矩阵之间是否存在显著的相关性通过置换检验（permutation test）来评估相关性的显著性。

2025-08-28 22:36:23 542

原创思路简单的CT的Transformer模型助力胃癌淋巴结转移早期预测

胃癌作为全球高发的恶性肿瘤，其局部晚期患者在接受新辅助化疗后的淋巴结转移状态，直接影响治疗方案调整与预后判断。近日，一项发表于《eClinicalMedicine》的多中心研究提出了一种基于Transformer框架的深度学习模型，通过预处理CT影像即可早期预测淋巴结转移风险，为个体化治疗提供了全新工具。

2025-08-24 11:16:26 180

原创孟德尔随机化小试从软件安装数据下载到多种检验

孟德尔随机化是一种基于全基因组关联研究（GWAS）数据，利用单核苷酸多态性（SNP）作为工具变量（IV）来揭示暴露与结局间因果关系的方法。随机对照试验（RCT）：人为将研究对象随机分配到实验组/对照组孟德尔随机化：通过基因变异的自然随机分配（减数分裂时的随机分离），将携带特定等位基因的个体视为“暴露组”，非携带者视为“对照组”

2025-08-21 20:55:31 1208

原创三行代码搞定AutoDock Vina批量分子对接

打开，就能直观看到每个蛋白-配体组合的对接分数，轻松筛选最优候选！

2025-08-14 20:04:34 1241

最近在做分子对接和分子模拟，涉及到了一些盲区，必去pdb文件是按照列位数储存信息的，跟其他文件的空格或者制表符分割很不同，所以也可能出现一些错误，比如信息错位，因此有必要了深入解下结构相关的格式pdb、cif、sdf等等pdb的分子对接前处理包括去除非氨基酸残基、去水、加氢、末端修复等等，在上次的分子对接文章中用了get_pdb.py脚本利用pdbfixer api和文本过滤，来处理蛋白结构。坐标部分通过6种记录类型描述分子结构，彼此分工明确又相互关联。

2025-08-14 19:54:42 1386

原创大队列CT胰腺癌PANDA 模型医生结合AI后，病灶检测灵敏度提升 8.5%，胰腺癌识别灵敏度提升 20.5%，住院医师性能接近专家水平

胰腺癌（PDAC）因早期难发现、预后极差被称为“癌王”，多数患者确诊时已处于晚期，错失手术机会。近期，《Nature Medicine》发表的一项研究显示，中国团队研发的AI模型PANDA可通过非增强CT精准检测胰腺癌，为大规模筛查提供了新工具。作者提供了在线网站：演示模型在几个样本上的效果。

2025-08-07 21:34:46 932

原创肿瘤复发风险预测升级！影像 + 病理 + 临床多模态模型来了，精准度再突破

研究概述本文发表于《NPJ Precis Oncol》2024年，由中国医科大学等机构团队开展，旨在构建并验证一个多模态预测模型，以更精准预测胃肠道间质瘤（GIST）患者的无复发生存期（RFS），辅助临床决策（如TKI辅助治疗的精准应用）。研究背景•GIST是胃肠道最常见的间叶源性肿瘤，恶性潜能各异，现有基于改良NIH评分的风险评估存在高估或低估风险的问题。•放射组学、深度学习（病理组学）技术可提取影像和病理图像中的精细特征，多模态整合有望提升预测准确性。研究思路。

2025-08-02 10:29:10 803

原创一文掌握最新版本Monocle3单细胞轨迹（拟时序）分析

不过怎么样Monocle3 还是最常用的单细胞轨迹分析工具之一，它能够通过算法学习细胞在动态生物学过程中基因表达变化的序列，从而构建出细胞状态转变的轨迹。与传统实验方法不同，Monocle3无需纯化处于中间状态的细胞，就能让我们清晰地看到细胞从一种功能“状态”向另一种状态的过渡。当细胞过程存在多种结果时，Monocle3会构建出“分支”轨迹，这些分支对应着细胞的“决策”过程。它还提供了强大的工具来识别受这些决策影响以及参与决策的基因，帮助我们深入理解细胞命运决定的分子机制。

2025-07-30 22:18:21 1876

原创 SeuratExtend 可视化教程（1）：单细胞分析的高颜值绘图指南

SeuratExtend是基于Seurat开发的扩展包，专注于增强可视化功能。它保留了Seurat原有的使用习惯，同时添加了大量自定义参数，让你的图表既能满足科研需求，又能拥有 publication 级别的美观度。注意：下边的例子基于SeuratExtend 1.2.3版本。

2025-07-28 21:13:24 813

原创 100个GEO基因表达芯片或转录组数据处理27 GSE83456

虽然现在是高通量测序的时代，但是GEO、ArrayExpress等数据库储存并公开大量的基因表达芯片数据，还是会有大量的需求去处理芯片数据，并且建模或验证自己所研究基因的表达情况，芯片数据的处理也可能是大部分刚学生信的道友入门R语言数据处理的第一次实战，因此准备更新100个基因表达芯片或转录组高通量数据的处理。transid是我写的一个R函数，有需要可以联系我，加入交流群。这部分是很关键的，可以筛选一下分组表型信息，只保留自己需要的样本，作为后续分析的样本（根据自己的研究目的筛选符合要求的样本）

2025-07-20 20:44:44 788

原创 100个GEO基因表达芯片或转录组数据处理26 GSE28623

100个GEO基因表达芯片或转录组数据处理。

2025-07-19 23:01:48 482

原创 100个GEO基因表达芯片或转录组数据处理025.GSE248467

虽然现在是高通量测序的时代，但是GEO、ArrayExpress等数据库储存并公开大量的基因表达芯片数据，还是会有大量的需求去处理芯片数据，并且建模或验证自己所研究基因的表达情况，芯片数据的处理也可能是大部分刚学生信的道友入门R语言数据处理的第一次实战，因此准备更新100个基因表达芯片或转录组高通量数据的处理。这部分是很关键的，可以筛选一下分组表型信息，只保留自己需要的样本，作为后续分析的样本（根据自己的研究目的筛选符合要求的样本）

2025-07-09 21:29:45 327

原创 ChIPQC自建新版参考基因注释用于 ChIP-seq 数据质量评估

但是其基因注释信息是基于老版本基因组的比如 mm10 和 hg19，为了和 ChIP-seq 上有分析使用的基因组版本一致，这里自行构建基因注释信息用于报告中的绘图展示，如果没有这个注释信息，会有几张图是空白的，报告也不让太完整，但是影响也不大，比较我们可以使用其他工具比如 ChIPSeeker 注释 Peak 的位置注释。它通过分析测序 reads 在基因组上的分布特征，量化富集效果、背景噪声及实验重复性，为后续分析提供质量基准。："narrow"：macs 的*_peaks.narrowPeak；

2025-07-02 17:07:32 399

原创 100个GEO基因表达芯片或转录组数据处理022.GSE48452

虽然现在是高通量测序的时代，但是GEO、ArrayExpress等数据库储存并公开大量的基因表达芯片数据，还是会有大量的需求去处理芯片数据，并且建模或验证自己所研究基因的表达情况，芯片数据的处理也可能是大部分刚学生信的道友入门R语言数据处理的第一次实战，因此准备更新100个基因表达芯片或转录组高通量数据的处理。这部分是很关键的，可以筛选一下分组表型信息，只保留自己需要的样本，作为后续分析的样本（根据自己的研究目的筛选符合要求的样本）transid是我写的一个R函数，有需要可以联系我。

2025-04-07 17:20:54 347

原创 monocle2 BEAM分析报错，修改源码，提供修改后的安装包

为解析单细胞转录组数据中细胞命运分化的关键调控节点，Monocle2的BEAM（Branched Expression Analysis Modeling）分析方法通过构建分支依赖的广义线性模型，识别在轨迹分支点附近呈现显著表达模式差异的基因群。在前一次的源码修改中解决了大部分的报错问题，但是在做BEAM分析的时候由于默认参数未填写，作者在函数说明中也未写明该参数而是用…参数定义分支效应模型，结合似然比检验评估基因表达变化与分支事件的关联性，筛选满足显著性阈值（q-value <0.01）的差异基因；

2025-03-14 20:56:58 408

原创 monocle 2报错修改源码，提供修改后的安装包

Monocle2 于正式发表于《Nature Methods》（论文标题：“The dynamics and regulators of cell fate decisions are revealed by pseudotemporal ordering of single cells”），因其基于反向图嵌入（Reversed Graph Embedding）的算法和清晰的轨迹推断逻辑，成为单细胞轨迹分析的主流工具。而于。

2025-03-14 20:54:21 438

原创爬虫：爬取MDPI杂志中国作者单位和邮箱

它们能够模拟人类浏览网页的行为，如访问网页、解析网页内容、甚至填写表单和点击链接等，从而帮助我们从互联网上大量收集和处理数据。：对于复杂的网站，可能还需要处理JavaScript渲染的内容、管理cookies、处理登录认证、设置延时避免被封禁等高级功能，这时可能需要使用Selenium、Scrapy等工具。Python爬虫是数据分析、机器学习、市场研究等领域的重要工具，但使用时应确保行为合法合规，尊重网络礼仪。: 一个更高级的爬虫框架，适合大规模数据抓取项目，提供了完整的解决方案，包括调度、解析、存储等。

2024-08-27 11:00:18 1324

原创 MySQL05: 表合并

获取左表（Prices）的所有记录，包括与右表（UnitsSold）匹配的记录以及左表独有的记录（右表部分为 NULL）。RIGHT JOIN与LEFT JOIN相反，它返回右表（右边的表）的所有记录，以及左表中与右表相匹配的记录。如果左表中的某行在右表中找不到匹配项，或者右表中的某行在左表中找不到匹配项，那么这些行都不会出现在结果集中。LEFT JOIN返回左表（左边的表）的所有记录，以及右表中与左表相匹配的记录。不过，需要注意的是，这样的条件会直接影响到连接操作，确保它符合你的查询意图。

2024-08-16 14:12:50 498

原创 MySQL04: 查询语句

按照区和建成年份分组，比如第4行为浦东区1992年建成的小区中，总共有30套房子，总面积1778.41，平均每套房子价格372.8667万，最贵的房子为600万，平均房价36011元/平米。：定义了窗口的范围，可以是CURRENT ROW、UNBOUNDED PRECEDING、UNBOUNDED FOLLOWING或者它们的组合，来指定窗口的开始和结束位置。查询命令中必须使用的组合，select相当于tidyverse中的select选择列，from是选择的表格的名字。

2024-08-13 09:57:35 1203

原创 MySQL03: 创建表格与导入表格

在MySQL中，主键还可以被定义为AUTO_INCREMENT，这样每当插入新记录时，主键字段的值会自动递增，简化了数据插入过程，避免了手动指定唯一标识的麻烦。: 唯一键约束确保了表中某一列或多个列的组合值是唯一的，防止插入重复的值。: 主键的值能够唯一地标识表中的每一行记录，确保不会有两行数据拥有相同的主键值。: 主键自动成为表上的索引，这意味着通过主键查询数据将非常高效，尤其是在大数据量的情况下，能够显著加快查询速度。规定列的数值类型、长度、列中的值是否可以为空，是否可以重复，值的可选范围等。

2024-08-12 21:52:04 712

原创 MySQL02: 常用数据类型

ENUM从一个集合中选择一个字符串或者为 NULL，比如性别栏可以设置成仅允许["Male", "Female", "Prefer not to say"]CHAR可以设置长度，默认是 1，当实际输入<设定的位数时，在输入字符右边增加空格，以达到定长的目的。SET可以给定的集合中选择多个字符串，比如 SET("足球", "篮球", "羽毛起", "乒乓球")默认数值是有符号的，即有正有负，如果限定数据为非负，需要加上UNSIGNED关键字。主要的数据类型，包括字符串、数值、日期时间。

2024-08-10 14:48:41 938

原创 100个GEO基因表达芯片或转录组数据处理GSE166193-GPL16686平台（014）

虽然现在是高通量测序的时代，但是GEO、ArrayExpress等数据库储存并公开大量的基因表达芯片数据，还是会有大量的需求去处理芯片数据，并且建模或验证自己所研究基因的表达情况，芯片数据的处理也可能是大部分刚学生信的道友入门R语言数据处理的第一次实战，因此准备更新100个基因表达芯片或转录组高通量数据的处理。这部分是很关键的，可以筛选一下分组表型信息，只保留自己需要的样本，作为后续分析的样本（根据自己的研究目的筛选符合要求的样本）transid是我写的一个R函数，有需要可以联系我，加入交流群。

2024-08-08 13:43:52 606

原创 100个GEO基因表达芯片或转录组数据处理GSE23317（013）

虽然现在是高通量测序的时代，但是GEO、ArrayExpress等数据库储存并公开大量的基因表达芯片数据，还是会有大量的需求去处理芯片数据，并且建模或验证自己所研究基因的表达情况，芯片数据的处理也可能是大部分刚学生信的道友入门R语言数据处理的第一次实战，因此准备更新100个基因表达芯片或转录组高通量数据的处理。这部分是很关键的，可以筛选一下分组表型信息，只保留自己需要的样本，作为后续分析的样本（根据自己的研究目的筛选符合要求的样本）transid是我写的一个R函数，有需要可以联系我，加入交流群。

2024-08-04 13:59:23 275

原创 100个GEO基因表达芯片或转录组数据处理GSE60542（012）

虽然现在是高通量测序的时代，但是GEO、ArrayExpress等数据库储存并公开大量的基因表达芯片数据，还是会有大量的需求去处理芯片数据，并且建模或验证自己所研究基因的表达情况，芯片数据的处理也可能是大部分刚学生信的道友入门R语言数据处理的第一次实战，因此准备更新100个基因表达芯片或转录组高通量数据的处理。这部分是很关键的，可以筛选一下分组表型信息，只保留自己需要的样本，作为后续分析的样本（根据自己的研究目的筛选符合要求的样本）transid是我写的一个R函数，有需要可以联系我，加入交流群。

2024-08-03 21:37:37 609

原创 100个GEO基因表达芯片或转录组数据处理GSE35570（011）

虽然现在是高通量测序的时代，但是GEO、ArrayExpress等数据库储存并公开大量的基因表达芯片数据，还是会有大量的需求去处理芯片数据，并且建模或验证自己所研究基因的表达情况，芯片数据的处理也可能是大部分刚学生信的道友入门R语言数据处理的第一次实战，因此准备更新100个基因表达芯片或转录组高通量数据的处理。这部分是很关键的，可以筛选一下分组表型信息，只保留自己需要的样本，作为后续分析的样本（根据自己的研究目的筛选符合要求的样本）transid是我写的一个R函数，有需要可以联系我，加入交流群。

2024-07-31 12:53:16 554

原创 sklearn决策树可视化

例如，如果一个节点写着“petal width <= 0.8”，那么从这个节点延伸出去的左侧分支可能代表年龄petal width <= 0.8的情况（判断年龄petal width <= 0.8为真），右侧分支则代表大于0.8的情况（判断为假）。当决策树分叉时，通常一个方向代表特征值满足某个条件（可以理解为“判断为真”），另一个方向则代表不满足该条件（即“判断为假”）。：每个内部节点（非叶节点）代表一个特征的测试条件，根据特征的不同取值，数据被划分到不同的子集。使用鸢尾花数据集建立一个简单的决策树模型。

2024-07-25 14:16:09 431

原创 CibersortX的替代者BayesPrism用单细胞数据去卷积得到普通转录组细胞类型比例

细胞去卷积模块依据来自单细胞RNA测序（scRNA-seq）的细胞类型特异性表达轮廓建立先验，联合估计肿瘤（或非肿瘤）样本的bulk RNA-seq表达数据中细胞类型组成及其特异性基因表达的后验分布。BayesPrism是一个综合工具，旨在利用贝叶斯统计方法从bulk RNA测序数据中精确解析肿瘤微环境的细胞组成，并同时考虑细胞特异性的基因表达模式，通过先进的算法模块实现对复杂细胞混合物的深入分析和理解。目的：去除线粒体、核糖体基因、性染色体基因、低表达基因，只选择编码蛋白的基因。

2024-07-20 11:40:08 1298

原创空间转录组学联合单细胞转录组学揭示卵巢癌生存相关受配体对

卵巢癌，作为女性生殖系统中的一种常见恶性肿瘤，其高级别浆液性卵巢癌（HGSC）亚型尤其致命。尽管多数患者对初次治疗反应良好，但超过75%的晚期HGSC患者会在治疗后复发，并且对化疗药物产生耐药性。然而，在这些患者中，有15%的人能够成为长期存活者（LTS），他们的生存期超过10年，这些长期存活者（LTS）的存在，为卵巢癌的治疗提供了宝贵的启示。

2024-06-27 09:02:39 727

原创 100个GEO基因表达芯片或转录组数据处理之GSE27342（007）

虽然现在是高通量测序的时代，但是GEO、ArrayExpress等数据库储存并公开大量的基因表达芯片数据，还是会有大量的需求去处理芯片数据，并且建模或验证自己所研究基因的表达情况，芯片数据的处理也可能是大部分刚学生信的道友入门R语言数据处理的第一次实战，因此准备更新100个基因表达芯片或转录组高通量数据的处理。因为文件太大，在R内下载失败，可通过图片中的方法下载文件，并且把下载后的文件放在当前工作目录，GEOquery::getGEO便能跳过下载，直接使用本地的文件。把表达矩阵中的探针名转换为基因名；

2024-06-26 09:10:39 914

原创宏基因组｜使用MEGAHIT组装

MEGAHIT 是一款超快速且内存高效的下一代测序（NGS）组装工具，专门针对宏基因组进行了优化，同时在处理常规单个基因组（小型或哺乳动物规模）以及单细胞组装任务时也有出色表现。还有一款软件SPAdes也常在宏基因组组装中见到，在介绍中好像比MEGAHIT组装效果好，但是需要消耗更多时间和资源，而且在使用中因为资源不足而报错…

2024-04-27 09:13:03 1049

原创宏基因组｜使用CheckM2评估分箱质量

CheckM2使用机器学习快速评估基因组bin质量与CheckM1不同，CheckM2采用通用训练的机器学习模型，无论分类学谱系如何，均可用于预测基因组bin的完整性和污染情况。这使得它能够在训练集中纳入许多仅具有少数（甚至只有一个）高质量基因组代表的谱系，通过将其置于训练集中所有其他生物体的背景下进行分析。得益于这一机器学习框架，CheckM2对于具有缩减基因组或特殊生物学特性的生物体，如Nanoarchaeota或Patescibacteria，也具有极高的准确性。

2024-04-22 19:47:32 4523

原创 cell2location导入报错ImportError: cannot import name ‘parse_use_gpu_arg‘ from ‘scvi.model._utils‘

可以看到parse_use_gpu_arg函数在/Users/victor/miniforge3/envs/cell2loc_env/lib/python3.9/site-packages/scvi/model/_utils.py文件中是没有定义的，报错的原因是cell2location想要import scvi-tools包中的parse_use_gpu_arg函数，而parse_use_gpu_arg函数没有定义。

2024-03-18 08:39:46 1275 2

原创 100个GEO基因表达芯片或转录组数据处理之GSE26899（008）

虽然现在是高通量测序的时代，但是GEO、ArrayExpress等数据库储存并公开大量的基因表达芯片数据，还是会有大量的需求去处理芯片数据，并且建模或验证自己所研究基因的表达情况，芯片数据的处理也可能是大部分刚学生信的道友入门R语言数据处理的第一次实战，因此准备更新100个基因表达芯片或转录组高通量数据的处理。因为文件太大，在R内下载失败，可通过图片中的方法下载文件，并且把下载后的文件放在destdir = "./"即当前工作目录，GEOquery::getGEO便能跳过下载，直接使用本地的文件。

2024-01-25 10:00:48 1037

原创 100个GEO基因表达芯片或转录组数据处理之GSE27342（007）

虽然现在是高通量测序的时代，但是GEO、ArrayExpress等数据库储存并公开大量的基因表达芯片数据，还是会有大量的需求去处理芯片数据，并且建模或验证自己所研究基因的表达情况，芯片数据的处理也可能是大部分刚学生信的道友入门R语言数据处理的第一次实战，因此准备更新100个基因表达芯片或转录组高通量数据的处理。因为文件太大，在R内下载失败，可通过图片中的方法下载文件，并且把下载后的文件放在destdir = "./"即当前工作目录，GEOquery::getGEO便能跳过下载，直接使用本地的文件。

2024-01-19 11:10:08 1069

原创单细胞转录组学对代谢功能障碍相关脂肪变性肝病的类器官模型进行分析

最近接触比较多肝纤维化项目，包括空转、单细胞和普通的BULK转录组，本文是肝脏疾病类器官构建，所以结果是比较确定的，只是对比不同处理和培养哪种效果更好，适合了解纤维化进展和哪些分子和细胞参与，以及其机制；此外本文数据使用Python分析数据的图很好看，之后可以复现一下。代谢功能障碍相关脂肪变性肝病（MASLD）发病率不断上升，而且有效治疗方式很少。因此，测试新疗法的体外系统是必不可少的。虽然最近出现了人类肝脏类器官模型来评估脂肪变性肝病，但对其转化潜力的系统评估仍然缺失。

2024-01-15 09:52:53 1643

原创 Python中使用execfile实现R中的source功能，避免重复加载包导入函数

在R中要加载多个包，进行全局的配置，定义全局变量，我们可以下一个config.R文件，在分析的代码开头source一下这个config.R文件即可避免每次都要加载包的冗余代码。using是之前定义的一个函数，作用是一次性加载多个R包，并且不打印包加载信息，可以参考**《其他脚本文件中只需一行代码就可以执行上述内容，从而避免了多次设置，导入包函数。config.R中加载了R包，设置了函数的优先级，定义了全局变量（常量）多个脚本文件中只需一行代码就可以执行上述内容。

2024-01-13 15:40:45 689

原创 100个GEO基因表达芯片或转录组数据处理之GSE159676（002）

虽然现在是高通量测序的时代，但是GEO、ArrayExpress等数据库储存并公开大量的基因表达芯片数据，还是会有大量的需求去处理芯片数据，并且建模或验证自己所研究基因的表达情况，芯片数据的处理也可能是大部分刚学生信的道友入门R语言数据处理的第一次实战，因此准备更新100个基因表达芯片或转录组高通量数据的处理。这部分是很关键的，可以筛选一下分组表型信息，只保留自己需要的样本，在这里只保留diagnosis:ch1中HC和NASH的样本，作为后续分析的样本（根据自己的研究目的筛选符合要求的样本）

2024-01-11 13:32:20 682

原创 100个GEO基因表达芯片或转录组数据处理之GSE126848（003）

虽然现在是高通量测序的时代，但是GEO、ArrayExpress等数据库储存并公开大量的基因表达芯片数据，还是会有大量的需求去处理芯片数据，并且建模或验证自己所研究基因的表达情况，芯片数据的处理也可能是大部分刚学生信的道友入门R语言数据处理的第一次实战，因此准备更新100个基因表达芯片或转录组高通量数据的处理。这部分是很关键的，可以筛选一下分组表型信息，只保留自己需要的样本，在这里只保留disease:ch1中healthy和NASH的样本，作为后续分析的样本（根据自己的研究目的筛选符合要求的样本）

2024-01-11 13:31:50 879

原创 gseaplot3修改一下clusterProfiler默认绘图函数

自定义gseaplot3函数增加了size参数调整线的粗细，也调整了margin四周边距，可以在下边gseaplot3函数的基础上继续调整，如果需要的话。绘图会出现下边的结果，导致四周显示不全，线的粗细也没办法调整，因为返回的是一个aplot包中的gglist对象，没太多研究。

2024-01-11 13:31:01 1088

空空如也

空空如也