.fasta 格式文件
感谢这篇文章
fasta文件用于储存一个或多个核苷酸序列或氨基酸序列。
每个序列信息由描述行和序列行组成。
描述行:以>开始,跟着此序列的唯一id,后也可以加描述(空格隔开)
序列行:储存序列,可以多行,一般(80个左右为一行)
>gi|186681228|ref|YP_001864424.1| phycoerythrobilin:ferredoxin oxidoreductase
MNSERSDVTLYQPFLDYAIAYMRSRLDLEPYPIPTGFESNSAVVGKGKNQEEVVTTSYAFQTAKLRQIRA
AHVQGGNSLQVLNFVIFPHLNYDLPFFGADLVTLPGGHLIALDMQPLFRDDSAYQAKYTEPILPIFHAHQ
QHLSWGGDFPEEAQPFFSPAFLWTRPQETAVVETQVFAAFKDYLKAYLDFVEQAEAVTDSQNLVAIKQAQ
LRYLRYRAEKDPARGMFKRFYGAEWTEEYIHGFLFDLERKLTVVK
注意一些对应关系
A --> adenosine M --> A C (amino)
C --> cytidine S --> G C (strong)
G --> guanine W --> A T (weak)
T --> thymidine B --> G T C
U --> uridine D --> G A T
R --> G A (purine) H --> A C T
Y --> T C (pyrimidine) V --> G C A
K --> G T (keto) N --> A G C T (any)
- gap of indeterminate length
A ALA alanine P PRO proline
B ASX aspartate or asparagine Q GLN glutamine
C CYS cystine R ARG arginine
D ASP aspartate S SER serine
E GLU glutamate T THR threonine
F PHE phenylalanine U selenocysteine
G GLY glycine V VAL valine
H HIS histidine W TRP tryptophan
I ILE isoleucine Y TYR tyrosine
K LYS lysine Z GLX glutamate or glutamine
L LEU leucine X any
M MET methionine * translation stop
N ASN asparagine - gap of indeterminate length
.fastq格式文件
fastq格式是一种基于文本的存储生物序列和对应碱基(或氨基酸)质量的文件格式。
每一个序列有四行组成:
第一行以@开头,表示这个read的ID,不会重复,没有空格。
第二行表示序列,通常以AGCTN(any)表示。
第三行是+,旧版fastq中会直接重复第一行,现在不会,一般没有附加信息。
第四行是质量信息
@FCD056DACXX:3:1101:2163:1959#TCGCCGTG/1
TCCGATAACGCTCAACCAGAGGGCTGCCAGCTCCGATCGGCAGTTGCAACCCATTGGCCGTCTGAGCCAGCAACCCCGGA
+
gggiiiiiiiiiiiiiiiiiiiiiiiiiigggggeeecccccc^bcbcccccccbccccc]aaccbbccc^R^^acccc_
质量信息与序列信息一一对应。
质量信息计算:
在测序仪进行测序的时候,会自动根据荧光信号的强弱给出一个参考的测序错误概率(error probility,P),如果直接储存(0.01)浪费内存,所以就将P取log10后乘以-10,得到Q值,Q值加33(或64)后得到的值去ASCII表中对应值即为质量值*
*不同测序的计算方法不同
seq-kit 好用的序列整理工具
具体看这篇文章
详细看这篇文章
fastq「只找到了fastqc?」
感谢爱码网
测序数据质控工具。
它输出为.html,当有多个文件时,默认将所有输出压缩为一个.zip文件输出。
结果是图表,绿色PASS,黄色WARN,红色FAIL。
纵轴为质量Q值,横轴是read的位置
横轴是质量,纵轴是reads数目,峰小于27(0.2%错误率)报warn,小于20(1%错误率)报fail。
ATCG含量,纵轴位置,横轴百分比,判断是否被污染。
Fastp
新的质控工具,效率高,接受单端/双端测序结果,可以自动处理接头信息,做重复率统计,插入评估。对5mer做出现次数统计。不同碱基的质量值,ATCG含量等
这篇文章写的很详细
conda
- 一个能支持Python、R、Java、JavaScript、C等语言包、依赖和环境管理工具
- 一个能在Windows、MacOS、Linux上运行开源的软件包管理系统和环境管理系统
- 一个能在本地轻松创建、保存、切换环境
保姆文档