.fasta | .fastq | seq-kit | fastq | fastp | conda

.fasta 格式文件

感谢这篇文章

fasta文件用于储存一个或多个核苷酸序列或氨基酸序列。

每个序列信息由描述行和序列行组成。

描述行:以>开始,跟着此序列的唯一id,后也可以加描述(空格隔开)

序列行:储存序列,可以多行,一般(80个左右为一行)

>gi|186681228|ref|YP_001864424.1| phycoerythrobilin:ferredoxin oxidoreductase
MNSERSDVTLYQPFLDYAIAYMRSRLDLEPYPIPTGFESNSAVVGKGKNQEEVVTTSYAFQTAKLRQIRA
AHVQGGNSLQVLNFVIFPHLNYDLPFFGADLVTLPGGHLIALDMQPLFRDDSAYQAKYTEPILPIFHAHQ
QHLSWGGDFPEEAQPFFSPAFLWTRPQETAVVETQVFAAFKDYLKAYLDFVEQAEAVTDSQNLVAIKQAQ
LRYLRYRAEKDPARGMFKRFYGAEWTEEYIHGFLFDLERKLTVVK

注意一些对应关系

        A --> adenosine           M --> A C (amino)
        C --> cytidine            S --> G C (strong)
        G --> guanine             W --> A T (weak)
        T --> thymidine           B --> G T C
        U --> uridine             D --> G A T
        R --> G A (purine)        H --> A C T
        Y --> T C (pyrimidine)    V --> G C A
        K --> G T (keto)          N --> A G C T (any)
        -     gap of indeterminate length
    A ALA alanine                         P PRO proline
    B ASX aspartate or asparagine         Q GLN glutamine
    C CYS cystine                         R ARG arginine
    D ASP aspartate                       S SER serine
    E GLU glutamate                       T THR threonine
    F PHE phenylalanine                   U     selenocysteine
    G GLY glycine                         V VAL valine
    H HIS histidine                       W TRP tryptophan
    I ILE isoleucine                      Y TYR tyrosine
    K LYS lysine                          Z GLX glutamate or glutamine
    L LEU leucine                         X     any
    M MET methionine                      *     translation stop
    N ASN asparagine                      -     gap of indeterminate length

.fastq格式文件

fastq格式是一种基于文本的存储生物序列和对应碱基(或氨基酸)质量的文件格式。

每一个序列有四行组成:

第一行以@开头,表示这个read的ID,不会重复,没有空格。

第二行表示序列,通常以AGCTN(any)表示。

第三行是+,旧版fastq中会直接重复第一行,现在不会,一般没有附加信息。

第四行是质量信息

@FCD056DACXX:3:1101:2163:1959#TCGCCGTG/1
TCCGATAACGCTCAACCAGAGGGCTGCCAGCTCCGATCGGCAGTTGCAACCCATTGGCCGTCTGAGCCAGCAACCCCGGA
+
gggiiiiiiiiiiiiiiiiiiiiiiiiiigggggeeecccccc^bcbcccccccbccccc]aaccbbccc^R^^acccc_

质量信息与序列信息一一对应。

质量信息计算:

在测序仪进行测序的时候,会自动根据荧光信号的强弱给出一个参考的测序错误概率(error probility,P),如果直接储存(0.01)浪费内存,所以就将P取log10后乘以-10,得到Q值,Q值加33(或64)后得到的值去ASCII表中对应值即为质量值*

*不同测序的计算方法不同

seq-kit 好用的序列整理工具

具体看这篇文章

详细看这篇文章

fastq「只找到了fastqc?」

感谢爱码网

测序数据质控工具。

它输出为.html,当有多个文件时,默认将所有输出压缩为一个.zip文件输出。

结果是图表,绿色PASS,黄色WARN,红色FAIL。

纵轴为质量Q值,横轴是read的位置

​​​​​​​​​​​​​​

 横轴是质量,纵轴是reads数目,峰小于27(0.2%错误率)报warn,小于20(1%错误率)报fail。

 ATCG含量,纵轴位置,横轴百分比,判断是否被污染。

Fastp

新的质控工具,效率高,接受单端/双端测序结果,可以自动处理接头信息,做重复率统计,插入评估。对5mer做出现次数统计。不同碱基的质量值,ATCG含量等

这篇文章写的很详细​​​​​​​

conda

  • 一个能支持Python、R、Java、JavaScript、C等语言包、依赖和环境管理工具
  • 一个能在Windows、MacOS、Linux上运行开源的软件包管理系统和环境管理系统
  • 一个能在本地轻松创建、保存、切换环境

保姆文档​​​​​​​


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值