![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
RNA-seq
文章平均质量分 67
穆易青
心之所向,行之所为
展开
-
2022.11.21【bug笔记】|bam文件报错:Cannot add sequence that already exists in SAMSequenceDictionary
sam文件是通过hisat2,bowtie2或者bwa将rawdata进行比对后得到的包含比对信息的数据格式。经过samtools处理后得到的bam文件经常用于后续分析,比如RNA-seq分析时,可以统计序列的插入片段也可以做后续定量,WGS流程里比对后生产的bam文件也可以去冗余获取snp位点。原创 2022-11-21 17:23:36 · 634 阅读 · 3 评论 -
2022.04.14【读书笔记】|转录因子分析
转录因子(transcription factors, TFs)是直接作用于基因组,与特定DNA序列结合,调控DNA转录过程的一类蛋白质原创 2022-04-14 15:42:57 · 2601 阅读 · 0 评论 -
2022.04.14【读书笔记】|WGCNA分析原理和数据挖掘技巧
WGCNA,全称weighted gene co-expression network analysis,即权重基因共表达网络分析。自2005年B Zhang, S Horvath等提出,在疾病以及其他性状与基因关联分析等方面的研究中被广泛应用。原创 2022-04-14 15:19:46 · 4152 阅读 · 3 评论 -
2022.04.13【读书笔记】|10X单细胞转录组分析流程介绍
本次笔记是基迪奥单细胞课程第二章,根据课件以及上课老师的情况来看,比之前的美格和菲沙都要好一些,而且价格更优惠。从官网也可以看到基迪奥在培训这方面是作为重点业务。等上完剩余课程,我会进行一个简单的小结,来评估几个公司之间的课程质量。原创 2022-04-14 11:41:00 · 2306 阅读 · 0 评论 -
2022.04.11【读书笔记】|单细胞转录组概述
文章目录摘要研究意义转录组学意义技术比较研究方法细胞筛选文库构建测序实验方法实验流程常见问题分析内容(重点)分析内容总览细胞亚群分类细胞类型频率统计Marker基因分析富集分析样本差异分析逆时分析WGCNA细胞通讯分析转录因子分析总结摘要本篇笔记为基迪奥单细胞转录组第一节课程笔记,感觉他们家的课程比之前的同行水平要高一些,并且价格公道,整体课程性价比较高,鼓励大家学习,这里记录一下课程重点。研究意义转录组学意义作为DNA到蛋白质的枢纽(中心法则),其高通量分析的实现性和可解读性较强。技术比较普原创 2022-04-11 16:06:32 · 759 阅读 · 0 评论 -
2021.11.23【bug笔记】丨picard运行报错:Exception in thread “main“ java.lang.UnsupportedClassVersionError
项目场景:RNA-seq对比对后bam文件绘制insert图片问题描述:执行picard命令时发生报错:JAVA报错代码: at java.lang.ClassLoader.defineClass1(Native Method) at java.lang.ClassLoader.defineClass(ClassLoader.java:800) at java.security.SecureClassLoader.defineClass(SecureClassLoader.java:1原创 2021-11-23 22:16:11 · 1189 阅读 · 0 评论 -
2021.11.20【读书笔记】|差异可变剪接事件及DTU分析
一、可变剪接(Alternative Splicing) 定义: 同一前体mRNA分子,可以在不同的剪接位点发生剪接反应,生成不同的mRNA分子,最终产生不同的蛋白质分子的一种RNA剪切方式。 意义: 1. AS是形成生物多样性的重要原因之一 2. AS是基因表达调控的重要组成部分,与基因表达的时空性息息相关 3. 由于可变剪接直接造成表达产物的差异,因此可变剪接在一些性状、疾病中发挥重要作用。 识别: 分成了7个类型 识别..原创 2021-11-21 22:30:18 · 4430 阅读 · 0 评论 -
2021.06.29【R语言】丨png转pdf批量生成
摘要接到一个特别要求,客户想把结果里的png图片全部转化成pdf。刚开始,这边销售想着结果图片不多,打算手动一个一个处理,直到她发现了16差异分组里,每个分组都有个kegg_map的文件夹...环境与方法R version 3.6.0 (2019-04-26)环境包 require(stringr) EBimage: install.packages('BiocManager') BiocManager::install('EBImage')使原创 2021-06-29 15:03:45 · 879 阅读 · 0 评论 -
2021.05.26【R语言】丨clusterProfiler注释大肠杆菌GO/KEGG富集图
摘要 之前写过一篇文章,对clusterProfiler常用注释包进行简单的整理分类2021.05.17【R语言】丨clusterProfiler注释表——KEGG/GO enrich富集图专用_穆易青的博客-CSDN博客。然而在遇到一个原核转录组项目想使用大肠杆菌注释包的时候却遇到了报错,经过一番查阅和测试。终于能够注释大肠杆菌,得到GO/KEGG富集图,在这里将整个过程做个梳理。 环境与方法 R version 3.6.1 Bioconductor version 3.10 packa原创 2021-05-26 15:01:13 · 2487 阅读 · 2 评论 -
2021.05.22丨snakemake报错positional argument follows keyword argument解决办法
摘要 从3月学习snakemake,到目前为止已经基本掌握了框架的思路,并且用snakemake将之前的RNA-seq流程重新串了起来。今天在处理项目的时候打算将里面的差异分析和注释分析串起来。遇到了报错,这里进行一个简单记录。 报错问题:positional argument follows keyword argument 翻译:位置参数跟在关键字参数之后 错误示范: rule anno:input:genome = config["reference"],gff = con原创 2021-05-22 11:24:42 · 898 阅读 · 0 评论 -
2021.05.17【R语言】丨clusterProfiler注释表——KEGG/GO enrich富集图专用
摘要 刚开始接触项目的时候一直用公司搭建好的流程分析项目,慢慢学习后,发现有些地方的注释除了靠参考基因组相关的注释文档,还需要对应物种。在R中绘制KEGG.GO enrich富集图就需要根据物种来读取相应注释包,这里记录一份常用物种及对应注释包表,方便以后使用。注释表packages organism org.Ag.eg.db Anopheles org.At.tair.db Arabidopsis org.Bt.eg.db Bovine org.C..原创 2021-05-17 15:48:48 · 1875 阅读 · 0 评论 -
2021.05.11丨COG分析柱状图绘制
目录摘要环境与方法文档准备分类简称及描述比对结果使用代码结果展示总结摘要在RNA-seq项目中,需要将差异基因比对到各个数据库当中,生成相应的注释结果和图像,便于深度挖掘信息。COG(Cluster of Orthologous Groups ofproteins 同源蛋白簇)数据库可以帮助了解蛋白功能甚至进化关系(细/真菌)。此次记录一下COG分类图的绘制方法环境与方法R version 3.6.1 (2019-07-05)文档准备分类简称及描述 # Code Name原创 2021-05-11 16:48:30 · 4729 阅读 · 0 评论 -
2021.04.29丨KEGG富集点状图绘制问题——附绘制脚本
项目场景:KEGG富集图绘制问题问题描述:得到差异基因名称,却无法成功绘制富集点状图。@Override public void run() { bytes = mmInStream.read(buffer); mHandler.obtainMessage(READ_DATA, bytes, -1, buffer).sendToTarget(); } ![在这里插入图片描述](https://img-blog.c原创 2021-04-29 15:40:29 · 863 阅读 · 0 评论 -
2021.04.22【RNA-seq流程】丨count值转换为FPKM值优化2.0
优化内容 解决每次转换需要设置样本数和基因数目 实现基因count值与length精准匹配 摘要 大概半年前,我写过一篇将HTseq生成的基因COUNT值转换为FPKM值文章,用于对count的入门级均一化处理。随着项目越做越多,逐渐发现了之前写的脚本的局限性。比如,每次换算都需要设置包括样品数,基因数目等参数。另外,以前的转换脚本哪怕使用同一个gff文件,定量得到的基因数目和makeTxDbFromGFF中exonsby、transcriptsby定义的基因数目可能是不一样的,这就导致cou原创 2021-04-22 13:08:25 · 15014 阅读 · 9 评论 -
2021.04.09丨使用featurecount进行定量处理
摘要 接到一个个性化分析,客户发了一个文档,明确了分析流程以及使用工具。其中定量环节要求使用featurecount工具。平时我都是使用htseq-count进行定量,因此,在这里记录一下新工具的使用步骤和遇到的一些小问题。 软件版本 featureCounts(subread) v2.0.1 使用说明 安装featureCounts 该工具属于Subread软件中的定量工具,另外subread还可以进行比对和寻找SNP位点,在这里就不详述了。我们要做的就是安装Subread原创 2021-04-09 16:30:36 · 12867 阅读 · 4 评论 -
2021.04.08丨RNA-seq消除批量效应
摘要 按照正常情况,送去测序的样品最好是同一个批次上机测序,避免外部干扰。最近接到一个项目,拿到手的数据就是分了四批。组长提醒我研究一下批量效应的处理方式。因此,这里总结一下批量处理的分析流程。环境配置 R版本:3.6.1 依赖R包:limma使用代码:library(limma) #调用limma包,线性分析主要包data <- read.table("all_count.txt",header = T, sep = "\t", ...原创 2021-04-08 11:42:57 · 2942 阅读 · 2 评论 -
2021.03.30丨使用python提取与合并指定列
摘要 最近优化RNA-seq,在定量环节后,需要汇总各样品的count值生成一份总表,然后转换成FPKM值。之前使用的是组长写的perl脚本,奈何自己实在是看不懂,并且之后为了加入到snakemake流程中也只支持python。于是,今天使用python对这部分进行了重写。 环境配置 python:3.8.5 使用代码 import reimport osimport pandas as pdnewfile_name = "../02.align/htseq/all_coun原创 2021-03-30 16:49:27 · 648 阅读 · 0 评论 -
2021.3.24丨snakemake搭建转录组流程(一)
摘要 在公司已经待了一段时间,流程也尝试搭建了几个,但在使用过程中总是会由于项目之间的一些差异导致各种问题。同时由于bash命令看起比较乱,且某一个环节出错,整个封装程序就要全部重跑,导致面对不同项目时维护困难。跟同学一阵业务交流后,他建议我尝试使用Snakemake进行流程搭建。本篇文章将对snakemake进行简单的介绍,并且用质控工具fastqc进行示范,阐述单个命令的搭建方式。 简介 Snakemake工作流管理系统是生成可重现和可扩展的数据分析的工具,该工作流基于Python语言。 它可原创 2021-03-24 11:18:42 · 1068 阅读 · 2 评论 -
2021.3.20丨Cutadapt数据统计脚本
摘要 在使用sRNAnalyzer分析miRNA时,会调用到Cutadapt进行去接口。该过程的结果也将通过报告被记录下来。然而,报告作为单个样品的结果统计,没有对所有样品进行汇总,不方便客户统计查看。因此,我写了一个简单的统计脚本,用于抓取Cutadapt结果报告里的基本信息。 需要获取的基本信息 材料与方法 python版本:Python 3.8.5 使用代码 import reimport osnewfile_name = 'Cutadapt_stat.tx原创 2021-03-20 11:20:28 · 520 阅读 · 0 评论 -
2021.01.18丨sRNAnalyzer分析流程
最近接到一个miRNA的分析项目,经过网上初步的一个工具搜索,选择了本地分析工具sRNAnalyzer进行比对和统计miRNA分类,使用在线分析工具miRWalk预测了miRNA的Target Gene。本篇文章是对sRNAnalyzer工具使用的一个梳理,对使用过程中遇到的一些问题进行注释。 软件说明文档链接:http://srnanalyzer.systemsbiology.net/start.html 在安装sRNAnalyzer之前,我们需要预安装三款软件,这些使用conda/miniconda原创 2021-01-18 15:53:53 · 624 阅读 · 0 评论 -
2021.01.07丨使用fastp统计样品质量结果
各位小伙伴在对测序样品进行质控的时候,首选基本上都是fastQC,他能能够生成许多图片直观地展示质控结果。 然而,当我们有多个样品,希望对其结果以表格形式进行展示的时候,fastQC能提供的信息就比较少了,比如GC含量精确到小数点,或者Q30等等 fastQC能统计到的基本信息 我们希望得到的统计结果 那么如何能够批量统计到更详细的质控信息呢?fastp工具和这篇文章脚本的必要性就产生了,它可以统计测序数据较多的信息并以.json形式进行展示。 我们用Editplus打开f原创 2021-01-07 11:23:59 · 4084 阅读 · 0 评论 -
2021.01.05丨根据基因名称拼接表达量与相关注释
这一步是在进行最后的数据汇总工作中用到的,将基因的count与FPKM值和基因注释的结果组合在一起,得到一个完整的数据。方便客户进行后续研究。算法与之前那篇基因ID匹配注释文本一文相似,用了两个for循环嵌套进行比对,O=n²,在此也希望能够抛砖引玉,得到大神指点。输入文件:anno.DEG.txtall.anno.xls #这里用的Editplus打开本来之前我对all.anno.xls的geneID已经处理过了,但是正好遇到ftp出问题,无法下载最新文件,就将就前两天的结果进行处原创 2021-01-05 16:54:32 · 243 阅读 · 0 评论 -
2020.12.19丨根据差异基因ID匹配注释文本脚本
上周遇到一个比较麻烦的项目。物种是一种酵母菌,参考基因组是组装的,并没有像样的gtf文件,使用genemark-ES生成注释文件后,需要对差异基因进行注释。本来之前有一个脚本能够很流畅地处理这个步骤。然而,由于genemark-ES自动生成的geneID在perl脚本中存在bug,个人对perl又不是很熟悉,因此重新写了一个脚本,用于差异基因与注释文本的匹配注释,下面直接上脚本。import csvgenome_file = open('C:/Users/bbplayer/Downloads/ge原创 2020-12-19 15:17:31 · 583 阅读 · 1 评论 -
2020.11.12丨tRNAscan-SE-2.0最新安装流程
最近接了一些细菌和真菌做RNA-seq的项目,有客户提到想要获取核糖体RNA(tRNA)的统计结果,之前用sortmerna一个样品都要比对4,5个小时,打算试试tRNAscan-SE。不过安装过程卡了半天,一是官网没有安装说明,二是该软件的安装教程最新也是2017年的,版本和安装方式已经发生了变化。特此写下这篇文章,作为记录。 软件名称:tRNAscan-SE 官网地址:tRNAscan-SE Search Server (ucsc.edu) 下载链接:tRNAscan-SE-2.0.7.tar.g原创 2020-11-12 16:54:59 · 1455 阅读 · 0 评论 -
2020.02.18【数据分析心得】丨如何将基因ID转化为基因名称
上一次在这个平台上写文章居然已经是5年前了,毕竟研究生阶段没有主攻数据处理,让自己少了很多IT属性。废话少说,今天记录一下将基因ID转化为基因名称的操作办法。在拿到公司的基因测序数据后,不同的测序公司给出的数据也是不同的,有时候会遇到一个问题就是测序公司给出的分析报告中,GO富集以及KEGG通路通常直接以基因ID的形式给客户,而导师要求送审文章的附件要显示为基因名称。尽管在拿到的测序数...原创 2020-02-18 14:20:01 · 25167 阅读 · 4 评论 -
2020.10.21【R语言】丨 undefined columns selected 问题解决办法
最近做RNA-seq项目的时候准备用R的boxplot()工具画一个各个样品的箱线统计图。 然而,在运行脚本后报错 Error in `[.data.frame`(fpkm, , c("MB7409-A", "MB7409-B", "MB7409-C", :undefined columns selectedCalls: [ -> [.data.frameExecution halted 抓取数据列的命令哪里错了呢? 打开输入的数据框和脚本做对比 数据是.原创 2020-10-21 14:44:19 · 24335 阅读 · 5 评论 -
2020.09.30【RNA-seq流程】丨转录组生信分析全流程
RNA-Seq生信分析全流程摘要第一部分step.1 下载数据step.2 数据质控第二部分step.3序列比对step.4 计算基因表达量step.5 插入片段长度检验step.6 基因表达量从count值转换为FPKM值使用基因组注释,通过R工具包GenomicFeatures获得exon length求reads 总数第三部分step.7 进行各样品分析样品间相关性分析各样品FPKM箱线图各样品FPKM密度分布对比图step.8 差异表达分析step.9 差异基因功能注释获取差异基因注释信息比对基因组原创 2020-12-10 10:03:17 · 13455 阅读 · 0 评论 -
2020.8.28丨转录组、全转录组产品概述和应用方向
知识点梳理 转录调控是基因表达调控的一种重要方式 转录水平调控 翻译水平调控 翻译后水平调控 转录调控测序研究热点 RNA分类 转录组研究 概念 转录组(transcriptome): 特定组织或细胞在某一发育阶段或功能状态下转录出来的所有RNA的集合,包括 mRNA和ncRNA,从整体水平研究基因功能和基因结构,揭示特定生物学过程的分子机理。 转录组测序(RNA-seq): 通过第二代高通量测序技术进行原创 2020-08-28 14:35:37 · 3286 阅读 · 0 评论 -
2020.8.28丨蛋白质组产品介绍、方案设计和案例解析
蛋白质组概述 研究意义: 蛋白质组是空间和时间上动态变化着的整体,一个基因组对应多个蛋白质组 人类与简单生物的巨大差别,来自蛋白质之间相互作用的数量 蛋白质定义:一类重要的生物高分子,参与了生物体内几乎所有的生理功能和代谢过程。由20种氨基酸通过肽键(酰胺键)连接形成的长链分子(肽链),在此基础 上,肽链进一步形成二级、三级的空间结构。有的蛋白质还包含辅基成分,如金属铁、 锰等。 蛋白质组:一种基因组或一个细胞、组织所表达的全套蛋白质 蛋白质组学:围绕一种细胞或一个生物体所表达原创 2020-08-28 14:30:30 · 513 阅读 · 0 评论 -
2020.8.28丨转录组、全转录组方案设计和案例解析
知识点梳理 方案设计 研究背景 本课题组前期工作的 总结,当前研究领域 文章综述,研究的目 的。 前期工作: 种质资源 生理指标 优良性状 相关研究: 查找文献,与高通量测序相关的文献 搜索:物种拉丁名+transcriptome+? 百度学术http://xueshu.baidu.com/中文、方便、可以迅速 对物种信息、研究背景进行了解 NCBI pubmedhttps://www.ncbi.nl..原创 2020-08-28 14:17:05 · 3628 阅读 · 0 评论 -
2020.8.26丨全长转录组测序产品概述
知识点梳理全长转录组 测序发展史 测序原理 Sanger测序:毛细管电泳测序 illumina测序:制备文库、桥式PCR、可逆终止边合成边测序 SMRT测序:边合成边测序 二代拼接与组装 二代测序:更多关注基因表达情况 弊端: 多倍体或杂合物种(无参)转录本拼接难 无参转录组的定量准确性偏低 无法准确检测可变剪接位点(假阳性较高)、APA、融合基因,基因家族 可变剪接 概念:一个mRNA前体通过不同的剪接方原创 2020-08-26 13:50:19 · 1232 阅读 · 0 评论 -
2020.08.18【转载】丨叶绿体基因组二代测序组装经验分享
叶绿体基因组二代测序组装(个人经验分享)前段时间,有老师咨询我关于叶绿体基因组组装的问题,虽然本人不才,但也很热心地帮了个忙。虽说中间出了一些小意外,唉唉算了还是不提了。在这里顺便就个人常用的叶绿体基因组组装思路和方法(基于二代测序),给大家作个分享。叶绿体基因组本身不大(平均不到200kb),所以使用二代测序,在高深度测序模式下,配合一个有效的参考基因组,理论上足以组装出一条完整的环状序列出来(10个里面9个可以吧)。当然,只单纯地通过组装软件自动拼接基本上是不可能实现的(主要是IR区的问题.转载 2020-08-18 16:49:01 · 20256 阅读 · 8 评论 -
2020.8.18丨MUMmer中文使用说明
如何使用MUMmer比对大片段序列测序技术刚开始发展的时候,大家得到的序列都是单个基因的长度,所以一般都是逐个基因的比较,用的都是BLAST或FASTA通过逐个基因联配的方式搜索数据库。但是1999年后,越来越多的物种全基因组出现,比如说在1999年出现了Helicobacter pylori的第二类菌株的基因组序列,就需要研究同一物种不同品系进化过程的基因组变化,比如说基因倒置现象。传统的BLAST/FASTA就用不了,就需要用到新的工具,这就是MUMmer出现的历史背景。那么MUMmer能用来研转载 2020-08-18 14:06:11 · 1588 阅读 · 0 评论 -
2020-08-18 | 39个RNAseq分析工具与对比
史上最全 | 39个RNAseq分析工具与对比文献:Sahraeian S M E, Mohiyuddin M, Sebra R, et al. Gaining comprehensive biological insight into the transcriptome by performing a broad-spectrum RNA-seq analysis[J]. Nature Communications, 2017, 8(1):59.这是一篇在NC上发表的使用RNAseq工具对比的一篇转载 2020-08-18 13:52:05 · 3666 阅读 · 0 评论