转载 Extract lowercase masked FASTA from a BLAST database with masking information

If a BLAST database contains masking information, this can be extracted using the blastdbcmd options –db_mask and –mask_sequence as follows:$ blastdbcmd -info -db mask-data-dbDatabase: Mask data te

原创 本地blast

目前本地blast的版本:下载:wget ftp://ftp.ncbi.nlm.nih.gov/blast/executables/LATEST/解压:tar zxvpf ncbi-blast-2.2.31+-x64-linux.tar.gz之后生成一个文件夹:ncbi-blast-2.2.31+Under bash, the followi

原创 待整理

Seed-and-extend alignersAn alignment strategy that first builds a hash table containing the location of each k-mer (seed) within thereference genome. These algorithms then extend these seeds

原创 edgeR(未完)

edgeR的安装:source("http://bioconductor.org/biocLite.R") biocLite("edgeR")查看R的当前工作目录:> getwd()[1] "D:/My Documents"载入包:library(limma)library(edgeR)读取数据:raw.data 查看数据

转载 质量值体系 Phred33 和 Phred 64 的由来 及其在质量控制中的实际影响

最近在学习质控知识时, 对于质量值体系及转换产生了一些疑问, 作了一些尝试, 趁集群故障, 在此总结一下质量值体系相比之前培训时所学的质控内容, (我拿到的) 流程中还多了一步 phred33to64, 也就是把 .fastq 格式的数据从 Phred33 质量值体系转换为 Phred64 质量体系, 于是先补充学习了下质量值体系:首先要从质量值说起, 测序仪器下机数

转载 VCFtools quality filtering

VCFtools provide a wide range of functionality for the filtering, analysis and transformation of vcf files. Typically, SNPs of quality < 20 and read depth < 20 are filtered out as they are considere

原创 Read alignment后的质量控制

Drop low-quality alignments: Each alignment is given a quality score (MAPQ) which is equivalent to Phred scores (with respect to determining relative quality of different alignments). You can screen f

原创 命令行整理

提取fastq文件中的一部分序列来进行测试:zcat ERR022075pe.fasta.gz | head ­1500000 > subset.fasta

转载 Genome denovo assembly using velvet

Velvet is denovo assembler suitable for small genomes. It is based on deBruijn graph andwe must define kmer length when using it.In practice you should try several assemblies with different values

原创 分子生物学上的生物定义整理


原创 NGS library construction(未完待续)

基本原理:Fundamental to NGS library construction is the preparation of the nucleic acid target, RNA or DNA, into a form that is compatible with the sequencing system to be used (Figure 1).Figure 1. 

原创 转录组小知识点收集

转录组即特定细胞在某一功能状态下转录出来的所有RNA的总和,包括mRNA和非编码RNA。RNA-Seq,是基于新一代测序技术的转录组学研究方法:首先提取生物样品的全部转录的RNA并进行mRNA富集,然后反转录为 cDNA后进行的新一代高通量测序,在此基础上进行片段的拼接组装,从而可得到一个个的转录本,进而可以形成对该生物样品当前发育状态的基因表达状况的全局了解。不同阶段或部位的生物样品的RNA

原创 文库的构建及测序(未完待续)

提取样品总 RNA后,用带有Oligo(dT)的磁珠富集真核生物 mRNA(若为原核生物,则用试剂盒去除 rRNA后进入下一步)。加入 fragmentation buffer将mRNA打断成短片段,以mRNA为模板,用六碱基随机引物(random hexamers)合成第一条cDNA链,然后加入缓冲液、dNTPs、RNase H 和DNA polymerase I合成第二条cDNA链,在经过 Q

原创 转录组(未完待续)

统计Mapped Reads在基因组的CDS(Exon)、Intron、Intergenic等区域的分布,用于检测测序序列在基因组上的来源,正常情况下,Exon(外显子)区域的测序序列定位的百分比含量应该最高,定位到Intron(内含子)区域的测序序列可能是由于非成熟的mRNA的污染或者基因组注释不完全导致的,而定位到Intergenic(基因间隔区域)的测序序列可能为基因组注释不完全以及背景噪音

转载 链特异性转录组测序


翻译 引物设计的原则

Good primer design is essential for a successful PCR reaction. There are many factors to take into account when designing the optimal primers for your gene of interest. Here are some tips to consider

转载 Linux command 汇总(未完待续)

When downloading software, you will often find binaries labeled with either i386 or x86_64. Without going too deep into details, these numbers refer to the type of processor the binaries were compil

原创 关于Bowtie

首先来说下以参考基因组建索引:下面是官网上的一个介绍bowtie-build builds a Bowtie index from a set of DNA sequences. bowtie-build outputs a set of 6 files with suffixes .1.ebwt, .2.ebwt, .3.ebwt, .4.ebwt, .rev.1.ebwt, a

原创 question(未完待续)

Why Call SNPs?How can we tell which mismatches represent real mutations and which are just noise?

原创 example 收集(未完待续)

Go注释的例子:In an example of GO annotation, the gene product "cytochrome c" can be described by the Molecular Function term "oxidoreductase activity", the Biological Process terms "oxidative phospho

转载 Using DAVID for GO and pathway enrichment analysi

网址:https://david.ncifcrf.gov/步骤:Upload or paste a gene listTo start DAVID, first click on "Functional Annotation" under "Shortcut to David tools" at the left of the home page. This will take

原创 R包的安装

#记录小知识点,我的R版本是R-2.15.3安装R包的两种方式:手动安装:R console 上的package--》install package---》选择镜像---》然后选择要安装的包命令安装:install.packages("xlsx")

转载 单因素方差分析


原创 gene ID转换

Retrieve/ID mappingEnter identifiers, separated by a space or a new line, into the form field, for example:P31946 P62258ALBU_HUMANEFTU_ECOLIIf you need to convert to another identifi

原创 关于Trimmomatic

标题:Trimmomatic: A flexible trimmer for Illumina Sequence DataTrimmomatic as a more flexible and efficient pre-processing tool, which could correctly handle paired-end data.下载地址:http://www.usad

转载 GO 和 KEGG 注释之前,为什么要先进行序列比对(BLAST)?

在进行功能注释和通路注释之前,我们会先将差异蛋白与合适的数据库中的蛋白序列进行比对。目的一:很多物种目前研究的程度还很有限,关于这些物种的蛋白注释信息还很不完善。根据相似性原理,具有相似序列的蛋白可能也具有相似的功能,因此,我们可以将 BLAST 所得的同源蛋白的注释信息转嫁到我们关注的差异蛋白上,来完成对于差异蛋白尤其是研究程度不足的物种的差异蛋白的注释。目的二:我们在查库过程中,为了得到更多的

转载 一颗初心,慢煮岁月(最美文字)


