自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

公众号/简说基因,知乎/简宝玉

分享生物信息学实用知识,Linux/Python/R,医学生信相关内容。

  • 博客(235)
  • 收藏
  • 关注

原创 如何自学生物信息学:从菜鸟到专家

看透了如此多的秘密,我们已停止相信尚有不可知之物。然而,那不可知之物却仍然坐在那里,冷静地舔着自己的嘴唇。 ——H.L. Mencken尽管人类已把航天器...

2020-11-23 19:46:04 11884 24

原创 生信人的自我修养:Linux 命令速查手册

标题:生信人的自我修养:Linux 命令速查手册目标:致力于为生信人打造一个完整的 Linux 命令速查手册作者:简佐义(jianzuoyi@qq.com)版本:1.0 日期:2020-...

2020-11-20 11:48:10 706 1

原创 轻松搞定 R 语言包安装(最全攻略和常见错误解决方法总结)

R语言包是扩展其功能的重要工具,涵盖数据处理、统计分析、图形展示等多个领域。如dplyr用于数据清洗和操作,ggplot2实现高级绘图等。今天这篇文章我们来汇总一下R语言安装包的方式。1.install.package() - 经典方式1. 打开RStudio。2. 在控制台中输入以下命令来安装包:install.packages("包名")。例如,如果要安装ggplot2包,可以输入instal...

2024-07-20 21:02:11 469

原创 毁誉参半的GATK,为什么没有被淘汰?

在基因组变异检测领域,有一款软件争议很大,那就是 GATK——基因组分析工具包。这款软件凭借其强大的功能和广泛的应用,成为了生物信息学家的得力助手。然而,它也因其较高的学习曲线和计算资源消耗而饱受诟病。那么,为什么 GATK 在众多争议中依然屹立不倒呢?今天,我们就来一探究竟,并探讨一下为什么其他流行的变异检测工具如 DeepVariant、VarScan 和 FreeBayes 也无法完全替代 ...

2024-07-10 10:03:23 304

原创 DeepVariant:引领变异检测新时代

生物信息学数据分析过程中,变异检测一直是一个备受瞩目的领域。随着基因测序技术的飞速发展,如何从海量的测序数据中准确、高效地检测出变异成为了研究者们亟待解决的问题。在这样的背景下,DeepVariant——一款基于深度学习的变异检测软件应运而生,为变异检测领域带来了新的曙光。一、变异检测软件的现状与不足在DeepVariant出现之前,GATK等传统变异检测软件一直是市场的主力军。然而,随着基因组数...

2024-07-09 09:43:12 1025

原创 科研利器!5个常用的文献下载网站

前段时间,导师让我读一篇文献,在PubMed上一搜索是个付费文献,可能文献发表不久,很难在常用的网站下载。所以我只能寻找别的网站来下载文献啦!今天我向大家推荐自己经常使用的文献免费下载网址。1.PubMedhttps://pubmed.ncbi.nlm.nih.gov/ PubMed界面简洁明了,可以通过文章的PMID、DOI、文章标题等欣喜来搜索具体的文章。也可以通过关键词来检索文献。2.X-M...

2024-07-04 14:12:49 445

原创 一键分析ChIP-seq数据

ChIP-seq是一种结合位点分析法,用于研究体内蛋白质与DNA相互作用。通过染色质免疫共沉淀技术(ChIP)与第二代测序技术相结合,在全基因组范围内检测与组蛋白、转录因子等互作的DNA区域。实验过程流程简介1. fastp:原始数据质控,将 Raw data 转换成 Clean data。2. bowtie2:将经过质控的 Clean data 比对到参考基因组上,得到比对文件(BAM格式)。3...

2024-06-19 18:13:56 748

原创 一键分析Bulk转录组数据

我们前面介绍了经典的转录组分析流程:Hisat2 + Stringtie,可以帮助用户快速获得基因的表达量矩阵。云上生信,未来已来 | 转录组标准分析流程重磅上线!RNA STAR 也是一款非常流行的转录组数据分析工具。它不仅可以将测序 Reads 比对到参考基因组上,而且还可以输出类似 HTSeq-count 的定量结果。我们今天就介绍一套以 RNA STAR 为比对工具的新流程。流程简介本...

2024-06-15 07:09:08 654

原创 一键分析10X单细胞数据

对于10X单细胞数据的预处理,我们前面介绍了详细步骤:21天精通单细胞数据分析Day03:10X单细胞RNA数据集的预处理今天我们来介绍一种更为简单的方法:一键处理 10X 下机数据。流程简介流程地址:https://usegalaxy.cn> 流程 >scRNA-seq_preprocessing_10X_v3_Bundle (release v0.1)本流程使用 RNA ST...

2024-06-14 07:11:25 427

原创 参考基因组:小鼠(mm9)

小鼠基因组计划是一项正在进行的工作,旨在对常见实验室小鼠品系之间的所有形式的遗传变异进行编目,并为关键品系构建和注释参考基因组。操纵小鼠基因组的能力,加上丰富的疾病模型、近交系和基因组资源,使小鼠成为哺乳动物生物学遗传方法的首要模式生物。一个多世纪以来,小鼠遗传学已经提供了大量的近交系,自发和工程突变,使小鼠成为研究人类疾病的典范系统。获得多个近交系的完整序列将增加这些资源,并将成为研究小鼠表型变...

2024-06-13 07:03:11 284

原创 21天精通单细胞数据分析Day03:10X单细胞RNA数据集的预处理

单细胞RNA测序分析是转录组学研究前沿的一个快速发展领域,用于高通量的发育研究和稀有转录本研究,以检查细胞群体内的细胞异质性。细胞分辨率和全基因组范围的分析使我们能够得出以前使用批量RNA-seq无法得出的新结论。这种分析需要大量的统计知识、湿实验室协议以及一些机器学习知识,以应对数据的变异性和稀疏性。10x 基因组学提供了高通量解决方案,快速推动了这一领域的发展,克服了以往由于低覆盖率和每个样本...

2024-06-12 15:42:45 525

原创 21天精通单细胞数据分析Day02:理解条码

条码是插入到捕获序列中的特定点的小片段寡核苷酸,它们提供了关于序列的两个信息点:•序列来自哪个细胞•序列来自哪个转录本当序列与参考基因组进行比对时,我们便可以看到它与哪个基因位点对齐,并据此定性地断言,结合上述两条信息,该序列描绘了来自特定细胞的特定基因的转录本。条码有多种格式,在本教程中,我们将研究用于基于液滴的单细胞 RNA-seq 的 CEL-Seq2 协议。CEL-Seq2 协议CEL...

2024-06-11 11:24:29 540

原创 21天精通单细胞数据分析Day01: 单细胞测序简介 (内附 62 页精美 PPT)

从今天开始,用 21 天精通单细胞数据分析。我们将理论联系实际,边学边练,本文先从理论开始。https://usegalaxy.cn/training-material/topics/single-cell/tutorials/scrna-intro/slides_ZH-CN.html#1在线 PPT 有更好的阅读体验,请通过上述链接查看。提示:在线阅读,按P显示演讲者提示;方向箭头切换幻灯...

2024-05-30 08:00:15 728

原创 新参考基因组:牛(bosTau5)

我们先来看一下牛基因组的百科介绍:https://en.wikipedia.org/wiki/Bovine_genome[1]一头雌性赫里福德奶牛的基因组于2009年发表。[1][2] 它是由牛基因组测序和分析联盟(Bovine Genome Sequencing and Analysis Consortium)测序的,该联盟是由美国国立卫生研究院(National Institutes of H...

2024-05-29 10:35:02 922

原创 年轻人,不要锋芒毕露

周一,各位打工人都上班了吧?你现在是习惯提前到单位打卡,还是卡点上下班呢?今天我们就来聊一聊职场,讨论一下:年轻人初入职场,应该锋芒毕露,还是应该低调内敛,猥琐发育?年轻,初入职场,往往血气方刚,锋芒毕露。取得骄人业绩的同时,极有可能用力过猛,得罪同仁。个中得失,应当仔细权衡。我们的传统观念中,有这样的思想:学得文武艺,卖与帝王家。或者说:士为知己者死。努力干活,理所当然。但是如果失了分寸,就可能...

2024-05-27 08:00:14 992

原创 【简单易用,新人友好】一个轻量级生物信息学流程框架,从此解决99%的生物信息学流程搭建问题...

生物信息学数据分析流程的搭建是一项繁重而复杂的工作。随着行业的发展,各种生信流程框架层出不穷,比如有:NextflowSnakemakeCWLWDL各种标准,各种规则,令人眼花缭乱。选择太多,往往令人无所适从。特别是新进入行业的人,不知道从何着手,一个一个学过去,对时间精力的耗费是巨大的,也是不必要的。不仅如此,既有的流程框架为了追求大而全,往往显得很笨重,这无疑增加了开发、维护和使用的难度。针对...

2024-05-25 20:53:43 361

原创 什么生信流程语言让你极度爽?

生信流程搭建有多难?行业为解决这一问题提出了各种各样的配方,有你熟悉的吗?一、困境 - 乱 无数机构投入大量人力物力,以期获得一条条可用的生信流程。而有些流程,由于种种原因,存在着巨大的缺陷:没有标准,不同的人设计出来的流程,开发、使用方法都不一样。将软件/脚本、计算资源以及业务逻辑混在一起,导致代码结构混乱。由于上述原因,导致非常严重的后果:开发周期无限拉上,成本被无限放大。这是由于流程本身的缺...

2024-05-24 22:21:55 346

原创 经典教程:全转录数据分析实战

本文介绍全转录组数据分析方法,我们将以拟南芥测序数据为例,在 UseGalaxy.cn 云平台进行数据分析实践。概览问题:哪些 miRNA 在对油菜素内酯的反应中上调?哪些基因是油菜素内酯诱导 miRNA 的潜在靶标?目标:进行 miRNA 差异表达分析理解基于 quasi-mapping 的 Salmon 方法,用于使用 RNA-Seq 定量转录本的表达鉴定参与油菜素内酯介导调节网络的潜在 mi...

2024-03-29 00:20:51 964

原创 2024最新Nature论文解读:人类肠道微生物结构变异的宿主遗传调控

论文:Host genetic regulation of human gut microbial structural variation杂志:Nature年份:2024研究动机:尽管宿主遗传对于肠道微生物多样性以及一些关键细菌丰度的影响已经被证明,然而宿主遗传对肠道菌群遗传多样性的影响仍然有待研究。研究内容:对4个来自荷兰的队列的9,015名个体的人类遗传变异和肠道微生物结构变异之间的关联进行...

2024-03-27 23:27:42 1207

原创 一文读懂scRNA-seq数据分析(建议收藏)

Galaxy生信云平台(UseGalaxy.cn)整合了所有主流的单细胞数据分析工具,如 Seurat, Scanpy, Monocle3等,用户不需要安装各种软件,也不需要考虑计算资源,只需要上传数据,点击鼠标即可以完成单细胞数据分析工作。本文来介绍单细胞数据分析的一些基础理论知识。当我们进行单细胞数据分析时,应该始终从质量控制步骤开始,首先清理数据,以确保数据足以回答研究的问题。在此步骤之后,...

2024-03-18 21:34:46 1658

原创 Salmon之Fragment Library Types

作者:AdaWong_Corner链接:https://blog.csdn.net/ada0915/article/details/79649769library类型SAM file flags:https://biobeat.wordpress.com/2013/04/29/directional-rna-seq-part-1-extract-strand-information-from-sa...

2024-03-16 23:15:18 385

转载 BWA mem比对的 Secondary ,Supplementary alignment 和 -M -Y参数

作者:青萍,你好出处:https://www.cnblogs.com/timeisbiggestboss/p/8856888.html1.supplementary alignmentsupplementary alignment是指一条read的一部分和参考区域1比对成功,另一部分和参考区域2比对成功,参考区域1和参考区域2没有交集(或很少),那么一条read就会产生两条sam文件,将其中的一条...

2024-03-14 21:07:44 177

原创 GATK最佳实践变异检测过程中的GVCF和VCF

在GATK最佳实践检测变异过程当中,当我们在调用HaplotypeCaller 时,可以选择输出 GVCF 文件,或者 VCF 文件,这两者有什么区别呢?GVCF和VCF的异同首先,这两者都是 VCF 文件,都由HEADER和RECORDS组成。不同之处在于GVCF文件会记录更多的信息,这里更多的信息是指未突变的位点的覆盖情况。从下面的图我们可以直观地看出两者的区别:可以看到,GVCF文件也分两...

2024-03-11 23:10:19 618

转载 Annovar软件注释肿瘤基因突变:COSMIC数据库最新版下载与使用

COSMIC,即:Catalogue Of Somatic Mutations In Cancer。官网:https://cancer.sanger.ac.uk/cosmic注意事项:Cosmic 数据库从 v71 版本开始,学术研究免费(需要学校或研究机构的邮箱注册),而商业使用需要授权目前数据库有基于 CRCh37 和 CRCh38 两种版本,根据需要选择合适的,步骤:进入主页 > 找到...

2024-03-10 21:27:23 235

原创 从零开始入门Galaxy生信云平台(2024-03版)

Galaxy是一个在线的生物信息云平台,目前已经上线了1300+生信实用工具,整合的一键式分析流程也在陆续上线中。这些工具/流程涵盖生物信息数据分析的方方面面,包括但不限于:基因组数据分析转录组数据分析(Bulk RNA-seq, Single Cell RNA-seq)蛋白质组数据分析癌症基因组测序研究统计学 / 机器学习生信绘图Galaxy能够进行生物信息学上下游全链条的数据分析,它可以服务于...

2024-03-06 22:52:55 2209

原创 Galaxy基础教程:从数据集合中过滤样本

我们将多个样本的测序数据构建成一个数据集合(List of Dataset Pairs)用于流程分析,但有可能个别样本的测序数据有问题,这时候我们如何从集合中删除该问题样本呢?比如有这样一个数据集合:现在想过滤掉第1个样本:SRR6357071,可以这样操作:1.将样本信息存入一个文件点击Upload Data:在弹出的界面中:点击粘贴数据或链接粘贴SRR6357071点击开始完成上述操...

2024-03-05 21:41:10 348

原创 翻车了:大型基因组物种的转录组数据分析遇到的困境

翻车了,承诺上传数据后2小时内,不管多少样本,都能给出表达量矩阵,然而却没有实现。老师有一批转录组测序数据需要放到我们的云平台上进行定量分析,就是跑 Hisat2 + Stringtie 经典流程:云上生信,未来已来 | 转录组标准分析流程重磅上线!首先碰到的问题是数据量比较大。约1个T(即1000G),并且老师用的是校园网,他担心直接通过网站的 Upload Data 界面上传比较慢,想通过网盘...

2024-03-04 23:04:40 921

原创 生信小白都会的转录组数据分析流程

在Galaxy生信云平台,无需任何代码,即可从下机数据开始,分析得到转录组的表达量矩阵。有了生物信息界的新物种,生信云。从此不需要购置服务器,不需要学习编程,生信小白也可以进行生物信息数据分析了。工具地址Galaxy中国(UseGalaxy.cn)> RNA ANALYSIS TOOLS > Standard Analysis > 有参转录组标准分析功能描述本工具用于转录组二代测...

2024-03-03 22:07:09 1456

原创 Galaxy生信云平台:集合操作工具大全

Galaxy平台上的文件称为数据集(Dataset),如果将多个文件组合在一起,则形成数据集合(Dataset collection)。上传文件后,可以通过工具将文件构建成数据集合。具体操作可以参考前面介绍转录组流程的文章:上传数据,轻松分析 | 云上转录组标准分析流程使用指南构建数据集合的工具有下图所示的4种:Build Dataset List,将多个文件组合成一个列表,每行一个数据集。Bui...

2024-03-01 23:43:09 935

原创 文本处理三驾马车之Galaxy版awk

我们前面介绍了awk在Linux系统下的使用,见前文:文本处理三驾马车之 awkGalaxy 平台(UseGalaxy.cn)也整合了awk 工具,可以方便地对表格数据进行报表生成。测试数据UseGalaxy.cn >数据共享 > 数据库 >Table data >iris.tsv,选定数据点击上方的 Add toHistory选择 as Datasets。操作工具...

2024-02-29 21:59:24 326

原创 Galaxy基础教程:从列表集合中提取元素标识符

如何从一个列表集合中提取元素标识符?解决方案网站:UseGalaxy.CN工具:Extract element identifiersof a list collection(Galaxy Version 0.0.2)Dataset collection *: 列表集合讨论该工具接受一个列表类型的集合作为输入,并生成一个文本数据集作为输出,其中包含集合中包含的所有数据集的元素标识符。例如,一个...

2024-02-28 22:40:19 375

原创 Galaxy基础教程:计算基因长度

我们想计算某物种所有基因的长度。解决方案网站:UseGalaxy.CN工具:Gene length and GC content from GTF and FASTA file(Galaxy Version 0.1.2)Select a built-in GTF file or one from your history:Use a GTF from historySelect a GTF fil...

2024-02-27 22:50:26 390

原创 Galaxy基础教程:将Paired List 变成普通 List

Galaxy平台中有两种 List:普通 List嵌套集合(Paired List,list of lists)如何将 Paired List 转换成普通 List?解决方案网站:UseGalaxy.CN工具:Flatten collection(Galaxy Version 1.0.0)Input Collection*:待转换的嵌套 List。讨论此工具采用嵌套集合(例如列表的列表或数据集...

2024-02-26 22:03:03 340

原创 文本处理三驾马车之 grep

grep 用于查找文件里符合条件的字符串。grep [-abcEFGhHilLnqrsvVwxy][-A<显示列数>][-B<显示列数>][-C<显示列数>][-d<进行动作>][-e<范本样式>][-f<范本文件>][--help][范本样式][文件或目录...]grep pattern files # 搜...

2024-02-25 21:49:51 329

原创 文本处理三驾马车之 sed

sed 是 stream editor 的缩写,中文称之为“流编辑器”。sed command filecommand 部分,针对每行要进行的处理file,要处理的文件Actionsd:删除该行p:打印该行i:在行的前面插入新行a:在行的后面插入新行r:读取指定文件的内容。w:写入指定文件。sed -n '10p' file # 显示第10行sed -n '10,20p' file # 显示第1...

2024-02-23 22:00:26 333

原创 文本处理三驾马车之 awk

Awk 是一个强大的文本分析工具,它每次读入一条记录,并把每条记录切分成字段后进行分析。Awk 官方文档是非常好的学习材料,通过man awk查看。awk 'BEGIN { action } pattern { action } END { action }'Awk 程序通常是一系列 pattern {action}对:pattern,表示模式匹配,只处理匹配的行。pattern 可以省略,表示匹...

2024-02-22 22:21:05 764

原创 Galaxy云上转录组流程更新:提供BAM文件下载

越来越多的用户使用我们的云上转录组流程,我们也应用户的要求不断地对流程进行更新和优化,如增加特殊的参考基因组等。本次更新亮点:提供BAM文件下载。现在,转录组流程会输出3组文件:Expression Counting,包含质控以及表达量矩阵的打包文件。List of Pairs,样本信息。BAM files,比对到参考基因组的 BAM 文件。之前为何不提供 BAM 文件的下载?因为 BAM 通常比...

2024-02-21 22:00:47 430

转载 R语言统计 | 用compareGroups包优雅地制作临床资料基线表/三线表

一直用 tableone 画三线表,整体够用。不过还是有一点,就是想要展示某一组数据的中位数时,默认显示中位数[下四分位数,上四分位数],但我们很多时候要显示中位数[最小值,最大值],只能手动修改,倒也不是什么大问题,可能也是我对这个包不够了解,没有找到调整的办法。今天介绍一个同样是画三线表的包:compareGroups。说实话,这个包的命名平平无奇,没有 tabeone, table1 这样的...

2024-02-20 23:00:53 838

原创 Python在生物信息学中的应用:序列化Python对象

我们需要将Python对象序列化为字节流,这样就可以将其保存到文件中、存储到数据库中或者通过网络连接进行传输。解决方案序列化最普遍的做法是使用 pickle 模块。为了将一个对象保存到一个文件中,可以这样做:import pickledata = ... # Some Python objectf = open('somefile', 'wb')pickle.dump(data, f)为...

2024-02-19 22:00:32 908

原创 Python在生物信息学中的应用:文件不存在才能写入

我们想将数据写入文件中,但只有当文件不存在时才执行写入操作。解决方案这个问题可以通过 open()函数中鲜为人知的 x 模式替代常见的 w 模式来解决。例如:>>> with open('somefile', 'wt') as f:... f.write('Hello\n')...>>> with open('somefile', 'xt') a...

2024-02-18 22:00:36 347

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除