三代纳米孔直接测序:dorado 碱基识别结果 SAM 、BAM文件格式详解

dorado结果 SAM 、BAM文件格式

头部信息

  • @HD VN:1.6 SO:unknown - 版本和排序顺序。
  • @PG ID:basecaller PN:dorado VN:0.2.4+3fc2b0f CL:dorado basecaller - 程序信息,包括ID、名称、版本和命令行。
    • DS:gpu:Quadro GV100 - 使用的GPU类型。

读组头部信息

  • RG ID <basecalling_model><barcode_arrangement> - 读段组ID。
  • PU <flow_cell_id> - 流动池ID。
  • PM <device_id> - 设备ID。
  • DT <exp_start_time> - 实验开始时间。
  • PL ONT - 平台类型(Oxford Nanopore Technologies)。
  • DS basecall_model=<basecall_model_name> modbase_models=<modbase_model_names> runid=<run_id> - 详细描述。
  • LB <sample_id> - 文库ID。
  • SM <sample_id> - 样本ID。

读段标签

  • RG:Z: <basecalling_model><barcode_arrangement> - read标签。
  • qs:f: 平均基础调用质量分数
  • ts:i: 从信号开始被修剪的信号数
  • ns:i:剪辑识别序列对应信号的区间
  • mx:i: read复用信息
  • ch:i: read通道
  • rn:i: read编号
  • st:Z: read开始时间(UTC)
  • du:f: read持续时间(秒)
  • fn:Z: 文件名
  • sm:f: 信号缩放中点/均值/中位数
  • sd:f: 信号缩放离散度
  • sv:Z: 缩放版本
  • mv:B:c 序列到信号移动表(可选)。
  • dx:i: 表示双端read的布尔值(仅在双端模式下)。
  • pi:Z: 分割读段的父读段ID
  • sp:i: 分割读段在父读段信号中的开始坐标
  • pt:i: 估计的polya聚腺苷酸(A/T)尾部长度
  • bh:i: 检测到的bed文件命中数(仅在指定bed文件进行对齐时)。
  • MN:i: 在生成MM和ML时的序列长度

修饰碱基标签

  • 当请求输出修饰碱基(通过--modified-bases CLI参数)时,修饰碱基调用将直接通过SAM标签输出。MM和ML标签在SAM文档中有说明。

Minimap2 比对标签

  • 当使用dorado运行比对时,每个SAM记录会添加额外的来自Minimap2的标签。

分割读段标签

  • 当单个输入读段包含多个连接的读段时,dorado基础调用器将原始输入读段分割为单独的子读段。这个操作默认适用于DNA和RNA。每个子读段都被分配一个新的读段ID。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值