自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

公众号/简说基因,知乎/简宝玉

分享生物信息学实用知识,Linux/Python/R,医学生信相关内容。

  • 博客(220)
  • 收藏
  • 关注

原创 如何自学生物信息学:从菜鸟到专家

看透了如此多的秘密,我们已停止相信尚有不可知之物。然而,那不可知之物却仍然坐在那里,冷静地舔着自己的嘴唇。 ——H.L. Mencken尽管人类已把航天器...

2020-11-23 19:46:04 11703 24

原创 生信人的自我修养:Linux 命令速查手册

标题:生信人的自我修养:Linux 命令速查手册目标:致力于为生信人打造一个完整的 Linux 命令速查手册作者:简佐义([email protected])版本:1.0 日期:2020-...

2020-11-20 11:48:10 677 1

原创 经典教程:全转录数据分析实战

本文介绍全转录组数据分析方法,我们将以拟南芥测序数据为例,在 UseGalaxy.cn 云平台进行数据分析实践。概览问题:哪些 miRNA 在对油菜素内酯的反应中上调?哪些基因是油菜素内酯诱导 miRNA 的潜在靶标?目标:进行 miRNA 差异表达分析理解基于 quasi-mapping 的 Salmon 方法,用于使用 RNA-Seq 定量转录本的表达鉴定参与油菜素内酯介导调节网络的潜在 mi...

2024-03-29 00:20:51 840

原创 2024最新Nature论文解读:人类肠道微生物结构变异的宿主遗传调控

论文:Host genetic regulation of human gut microbial structural variation杂志:Nature年份:2024研究动机:尽管宿主遗传对于肠道微生物多样性以及一些关键细菌丰度的影响已经被证明,然而宿主遗传对肠道菌群遗传多样性的影响仍然有待研究。研究内容:对4个来自荷兰的队列的9,015名个体的人类遗传变异和肠道微生物结构变异之间的关联进行...

2024-03-27 23:27:42 1095

原创 一文读懂scRNA-seq数据分析(建议收藏)

Galaxy生信云平台(UseGalaxy.cn)整合了所有主流的单细胞数据分析工具,如 Seurat, Scanpy, Monocle3等,用户不需要安装各种软件,也不需要考虑计算资源,只需要上传数据,点击鼠标即可以完成单细胞数据分析工作。本文来介绍单细胞数据分析的一些基础理论知识。当我们进行单细胞数据分析时,应该始终从质量控制步骤开始,首先清理数据,以确保数据足以回答研究的问题。在此步骤之后,...

2024-03-18 21:34:46 1064

原创 Salmon之Fragment Library Types

作者:AdaWong_Corner链接:https://blog.csdn.net/ada0915/article/details/79649769library类型SAM file flags:https://biobeat.wordpress.com/2013/04/29/directional-rna-seq-part-1-extract-strand-information-from-sa...

2024-03-16 23:15:18 378

转载 BWA mem比对的 Secondary ,Supplementary alignment 和 -M -Y参数

作者:青萍,你好出处:https://www.cnblogs.com/timeisbiggestboss/p/8856888.html1.supplementary alignmentsupplementary alignment是指一条read的一部分和参考区域1比对成功,另一部分和参考区域2比对成功,参考区域1和参考区域2没有交集(或很少),那么一条read就会产生两条sam文件,将其中的一条...

2024-03-14 21:07:44 58

原创 GATK最佳实践变异检测过程中的GVCF和VCF

在GATK最佳实践检测变异过程当中,当我们在调用HaplotypeCaller 时,可以选择输出 GVCF 文件,或者 VCF 文件,这两者有什么区别呢?GVCF和VCF的异同首先,这两者都是 VCF 文件,都由HEADER和RECORDS组成。不同之处在于GVCF文件会记录更多的信息,这里更多的信息是指未突变的位点的覆盖情况。从下面的图我们可以直观地看出两者的区别:可以看到,GVCF文件也分两...

2024-03-11 23:10:19 484

转载 Annovar软件注释肿瘤基因突变:COSMIC数据库最新版下载与使用

COSMIC,即:Catalogue Of Somatic Mutations In Cancer。官网:https://cancer.sanger.ac.uk/cosmic注意事项:Cosmic 数据库从 v71 版本开始,学术研究免费(需要学校或研究机构的邮箱注册),而商业使用需要授权目前数据库有基于 CRCh37 和 CRCh38 两种版本,根据需要选择合适的,步骤:进入主页 > 找到...

2024-03-10 21:27:23 100

原创 从零开始入门Galaxy生信云平台(2024-03版)

Galaxy是一个在线的生物信息云平台,目前已经上线了1300+生信实用工具,整合的一键式分析流程也在陆续上线中。这些工具/流程涵盖生物信息数据分析的方方面面,包括但不限于:基因组数据分析转录组数据分析(Bulk RNA-seq, Single Cell RNA-seq)蛋白质组数据分析癌症基因组测序研究统计学 / 机器学习生信绘图Galaxy能够进行生物信息学上下游全链条的数据分析,它可以服务于...

2024-03-06 22:52:55 1383

原创 Galaxy基础教程:从数据集合中过滤样本

我们将多个样本的测序数据构建成一个数据集合(List of Dataset Pairs)用于流程分析,但有可能个别样本的测序数据有问题,这时候我们如何从集合中删除该问题样本呢?比如有这样一个数据集合:现在想过滤掉第1个样本:SRR6357071,可以这样操作:1.将样本信息存入一个文件点击Upload Data:在弹出的界面中:点击粘贴数据或链接粘贴SRR6357071点击开始完成上述操...

2024-03-05 21:41:10 336

原创 翻车了:大型基因组物种的转录组数据分析遇到的困境

翻车了,承诺上传数据后2小时内,不管多少样本,都能给出表达量矩阵,然而却没有实现。老师有一批转录组测序数据需要放到我们的云平台上进行定量分析,就是跑 Hisat2 + Stringtie 经典流程:云上生信,未来已来 | 转录组标准分析流程重磅上线!首先碰到的问题是数据量比较大。约1个T(即1000G),并且老师用的是校园网,他担心直接通过网站的 Upload Data 界面上传比较慢,想通过网盘...

2024-03-04 23:04:40 891

原创 生信小白都会的转录组数据分析流程

在Galaxy生信云平台,无需任何代码,即可从下机数据开始,分析得到转录组的表达量矩阵。有了生物信息界的新物种,生信云。从此不需要购置服务器,不需要学习编程,生信小白也可以进行生物信息数据分析了。工具地址Galaxy中国(UseGalaxy.cn)> RNA ANALYSIS TOOLS > Standard Analysis > 有参转录组标准分析功能描述本工具用于转录组二代测...

2024-03-03 22:07:09 1083

原创 Galaxy生信云平台:集合操作工具大全

Galaxy平台上的文件称为数据集(Dataset),如果将多个文件组合在一起,则形成数据集合(Dataset collection)。上传文件后,可以通过工具将文件构建成数据集合。具体操作可以参考前面介绍转录组流程的文章:上传数据,轻松分析 | 云上转录组标准分析流程使用指南构建数据集合的工具有下图所示的4种:Build Dataset List,将多个文件组合成一个列表,每行一个数据集。Bui...

2024-03-01 23:43:09 824

原创 文本处理三驾马车之Galaxy版awk

我们前面介绍了awk在Linux系统下的使用,见前文:文本处理三驾马车之 awkGalaxy 平台(UseGalaxy.cn)也整合了awk 工具,可以方便地对表格数据进行报表生成。测试数据UseGalaxy.cn >数据共享 > 数据库 >Table data >iris.tsv,选定数据点击上方的 Add toHistory选择 as Datasets。操作工具...

2024-02-29 21:59:24 322

原创 Galaxy基础教程:从列表集合中提取元素标识符

如何从一个列表集合中提取元素标识符?解决方案网站:UseGalaxy.CN工具:Extract element identifiersof a list collection(Galaxy Version 0.0.2)Dataset collection *: 列表集合讨论该工具接受一个列表类型的集合作为输入,并生成一个文本数据集作为输出,其中包含集合中包含的所有数据集的元素标识符。例如,一个...

2024-02-28 22:40:19 367

原创 Galaxy基础教程:计算基因长度

我们想计算某物种所有基因的长度。解决方案网站:UseGalaxy.CN工具:Gene length and GC content from GTF and FASTA file(Galaxy Version 0.1.2)Select a built-in GTF file or one from your history:Use a GTF from historySelect a GTF fil...

2024-02-27 22:50:26 366

原创 Galaxy基础教程:将Paired List 变成普通 List

Galaxy平台中有两种 List:普通 List嵌套集合(Paired List,list of lists)如何将 Paired List 转换成普通 List?解决方案网站:UseGalaxy.CN工具:Flatten collection(Galaxy Version 1.0.0)Input Collection*:待转换的嵌套 List。讨论此工具采用嵌套集合(例如列表的列表或数据集...

2024-02-26 22:03:03 334

原创 文本处理三驾马车之 grep

grep 用于查找文件里符合条件的字符串。grep [-abcEFGhHilLnqrsvVwxy][-A<显示列数>][-B<显示列数>][-C<显示列数>][-d<进行动作>][-e<范本样式>][-f<范本文件>][--help][范本样式][文件或目录...]grep pattern files # 搜...

2024-02-25 21:49:51 316

原创 文本处理三驾马车之 sed

sed 是 stream editor 的缩写,中文称之为“流编辑器”。sed command filecommand 部分,针对每行要进行的处理file,要处理的文件Actionsd:删除该行p:打印该行i:在行的前面插入新行a:在行的后面插入新行r:读取指定文件的内容。w:写入指定文件。sed -n '10p' file # 显示第10行sed -n '10,20p' file # 显示第1...

2024-02-23 22:00:26 325

原创 文本处理三驾马车之 awk

Awk 是一个强大的文本分析工具,它每次读入一条记录,并把每条记录切分成字段后进行分析。Awk 官方文档是非常好的学习材料,通过man awk查看。awk 'BEGIN { action } pattern { action } END { action }'Awk 程序通常是一系列 pattern {action}对:pattern,表示模式匹配,只处理匹配的行。pattern 可以省略,表示匹...

2024-02-22 22:21:05 758

原创 Galaxy云上转录组流程更新:提供BAM文件下载

越来越多的用户使用我们的云上转录组流程,我们也应用户的要求不断地对流程进行更新和优化,如增加特殊的参考基因组等。本次更新亮点:提供BAM文件下载。现在,转录组流程会输出3组文件:Expression Counting,包含质控以及表达量矩阵的打包文件。List of Pairs,样本信息。BAM files,比对到参考基因组的 BAM 文件。之前为何不提供 BAM 文件的下载?因为 BAM 通常比...

2024-02-21 22:00:47 384

转载 R语言统计 | 用compareGroups包优雅地制作临床资料基线表/三线表

一直用 tableone 画三线表,整体够用。不过还是有一点,就是想要展示某一组数据的中位数时,默认显示中位数[下四分位数,上四分位数],但我们很多时候要显示中位数[最小值,最大值],只能手动修改,倒也不是什么大问题,可能也是我对这个包不够了解,没有找到调整的办法。今天介绍一个同样是画三线表的包:compareGroups。说实话,这个包的命名平平无奇,没有 tabeone, table1 这样的...

2024-02-20 23:00:53 287

原创 Python在生物信息学中的应用:序列化Python对象

我们需要将Python对象序列化为字节流,这样就可以将其保存到文件中、存储到数据库中或者通过网络连接进行传输。解决方案序列化最普遍的做法是使用 pickle 模块。为了将一个对象保存到一个文件中,可以这样做:import pickledata = ... # Some Python objectf = open('somefile', 'wb')pickle.dump(data, f)为...

2024-02-19 22:00:32 892

原创 Python在生物信息学中的应用:文件不存在才能写入

我们想将数据写入文件中,但只有当文件不存在时才执行写入操作。解决方案这个问题可以通过 open()函数中鲜为人知的 x 模式替代常见的 w 模式来解决。例如:>>> with open('somefile', 'wt') as f:... f.write('Hello\n')...>>> with open('somefile', 'xt') a...

2024-02-18 22:00:36 341

原创 Python在生物信息学中的应用:字典推导式

我们想依据字典中的键或值过滤字典。解决方案可以利用字典推导式(dictionary compehension)轻松解决。例如:prices = {'ACME': 45.23,'AAPL': 612.78,'IBM': 205.55,'HPQ': 37.20,'FB': 10.75}# 依据值过滤p1 = {key: value for key, value in prices.it...

2024-02-17 22:01:00 337

原创 Python在生物信息学中的应用:让你的程序运行得更快

程序运行太慢,想要提速,但不使用复杂的技术如 C 扩展或 JIT 编译器。解决方案程序优化的第一准则是“不要优化”,第二准则是“不要优化那些不重要的部分”。基于这两个原则,如果你的程序运行得很慢,你得先找出影响性能的问题所在。多数时候我们发现程序把大量的时间花在几个热点位置,比如处理数据的内层循环。一旦确认了这些热点,就可以使用以下各小节中介绍的技术让程序运行得更快。使用函数很多人开始使用 Pyt...

2024-02-16 22:00:33 980

原创 Python在生物信息学中的应用:捕获所有异常

如何捕获代码中出现的所有异常?解决方案要捕获所有异常,可以为 Exception 类编写一个异常处理程序,例如:try: ...except Exception as e: ... log('Reason:', e) # Important!除了 SystemExit、KeyboardInterrupt 和 GeneratorExit 之外,上述代码能够捕获所有的异...

2024-02-15 22:00:44 385

原创 Python在生物信息学中的应用:在字节串上执行文本操作

如何在字节串(Byte String)上执行常见的文本操作(例如,拆分、搜索和替换)。解决方案字节串支持大多数和文本字符串一样的内置操作。例如:>>> data = b'Hello World'>>> data[0:5]b'Hello'>>> data.startswith(b'Hello')True>>> data...

2024-02-14 22:00:15 326

原创 Python在生物信息学中的应用:同时对数据做转换和换算

我们需要调用一个换算(reduction)函数,例如 sum()、min()、max()等,但首先得对数据做转换或筛选。解决方案一种优雅的方式能将数据换算和转换结合在一起,即在函数中使用生成器表达式。例如,要计算平方和,可以这样:nums = [1, 2, 3, 4, 5]s = sum(x * x for x in nums)更多的例子:# Determine if any .py files...

2024-02-13 22:00:33 393

原创 Python在生物信息学中的应用:列表推导式

列表中有一些数据,我们想提取或删除某些值,该怎么办?解决方案最简单的方法是使用列表推导式(list comprehension)。例如:>>> mylist = [1, 4, -5, 10, -7, 2, 3, -1]>>> [n for n in mylist if n > 0][1, 4, 10, 2, 3]>>> [n for...

2024-02-12 22:00:27 691

原创 Python在生物信息学中的应用:有序字典

我们知道,通过 {} 创建的字典是无序的。如何创建有序字典呢?解决方案可以使用 collections 模块中的 OrderedDict 类。当对字典做迭代时,它会严格按照元素添加的顺序进行。例如:fromcollectionimportOrderedDictd = OrderedDict()d['1st']=1d['2nd']=2d['3rd']=3d['4th'...

2024-02-11 22:00:29 339 1

转载 2024 | 新年快乐,梦想成真!

新年快乐!愿我们2024年,心想事成,梦想成真!

2024-02-10 22:00:53 17

转载 2024 | 阖家团圆,幸福美满

在这辞旧迎新的日子里,愿大家阖家团圆,幸福美满!

2024-02-09 22:01:13 19

原创 Python在生物信息学中的应用:在字典中将键映射到多个值上

我们想要一个能将键(key)映射到多个值的字典(即所谓的一键多值字典[multidict])。解决方案字典是一种关联容器,每个键都映射到一个单独的值上。如果想让键映射到多个值,需要将这多个值保存到另一个容器(列表、集合、字典等)中。例如:d = { 'a' : [1, 2, 3], 'b' : [4, 5]}e = { 'a' : {1, 2, 3}, 'b' ...

2024-02-08 22:01:26 402

原创 Python在生物信息学中的应用:自动发送邮件

我们想写一个自动发送邮件的程序。解决方案自动发送邮件的程序非常有用,比如 UseGalaxy.CN 网站的用户邮件激活,或者是任务完成后的邮件通知,都会用到。我们以腾讯的 SMTP 邮件服务为例,实现代码如下:import smtplibfrom email.mime.text import MIMETextfrom email.utils import formataddr# 发件人邮...

2024-02-07 22:00:47 325

原创 Python在生物信息学中的应用:从任意长度的可迭代对象中分解元素

需要从某个可迭代对象中分解出 N 个元素,但该对象的长度可能超过 N,这会导致抛出“分解的值过多(too many values to unpack)”的异常。解决方案Python 的星号表达式可以用来解决这个问题。比如,有一组值,你想去掉第一个和最后一个,可以这样:>>> x = range(10)>>> first, *middle, last = x&...

2024-02-06 22:00:24 358

原创 Python在生物信息学中的应用:将序列分解为单独的变量

我们有一个包含 N 个元素的元组或序列,现在想将它分解为 N 个单独的变量。解决方案任何序列(或可迭代对象)都可以通过一个简单的赋值操作来分解为单独的变量。唯一的要求就是变量的总数和结构必须与序列相吻合。例如:>>> p = (4, 5)>>> x, y = p>>> x4>>> y5>>>&g...

2024-02-05 22:00:54 347

原创 Galaxy生信云平台参考基因组简介

Galaxy生信云平台(UseGalaxy.CN)目前支持以下参考基因组:Arabidopsis (Arabidopsis thaliana): TAIR10Human (Homo sapiens) (b37): hg19Human (Homo sapiens) (b38): hg38Mouse (Mus Musculus) (b38): mm10Wheat (Triticum aestivum)...

2024-02-04 22:00:31 325

原创 Python在生物信息学中的应用:读写表格文件

许多生物信息学数据都存储在文本文件中,每行一条记录,列之间用逗号(csv文件)或 tab 键(表格文件)隔开。解决方案import csvwith open('iris.csv') as f: f_csv = csv.reader(f)headers=next(f_csv)for row in f_csv:print(row)输出内容:['5....

2024-02-03 22:00:42 309

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除