dorado结果 SAM 、BAM文件格式
头部信息
- @HD VN:1.6 SO:unknown - 版本和排序顺序。
- @PG ID:basecaller PN:dorado VN:0.2.4+3fc2b0f CL:dorado basecaller - 程序信息,包括ID、名称、版本和命令行。
- DS:gpu:Quadro GV100 - 使用的GPU类型。
读组头部信息
- RG ID <basecalling_model><barcode_arrangement> - 读段组ID。
- PU <flow_cell_id> - 流动池ID。
- PM <device_id> - 设备ID。
- DT <exp_start_time> - 实验开始时间。
- PL ONT - 平台类型(Oxford Nanopore Technologies)。
- DS basecall_model=<basecall_model_name> modbase_models=<modbase_model_names> runid=<run_id> - 详细描述。
- LB <sample_id> - 文库ID。
- SM <sample_id> - 样本ID。
读段标签
- RG:Z: <basecalling_model><barcode_arrangement> - read标签。
- qs:f: 平均基础调用质量分数。
- ts:i: 从信号开始被修剪的信号数。
- ns:i:剪辑识别序列对应信号的区间。
- mx:i: read复用信息。
- ch:i: read通道。
- rn:i: read编号。
- st:Z: read开始时间(UTC)。
- du:f: read持续时间(秒)。
- fn:Z: 文件名。
- sm:f: 信号缩放中点/均值/中位数。
- sd:f: 信号缩放离散度。
- sv:Z: 缩放版本。
- mv:B:c 序列到信号移动表(可选)。
- dx:i: 表示双端read的布尔值(仅在双端模式下)。
- pi:Z: 分割读段的父读段ID。
- sp:i: 分割读段在父读段信号中的开始坐标。
- pt:i: 估计的polya聚腺苷酸(A/T)尾部长度。
- bh:i: 检测到的bed文件命中数(仅在指定bed文件进行对齐时)。
- MN:i: 在生成MM和ML时的序列长度。
修饰碱基标签
- 当请求输出修饰碱基(通过
--modified-bases
CLI参数)时,修饰碱基调用将直接通过SAM标签输出。MM和ML标签在SAM文档中有说明。
Minimap2 比对标签
- 当使用dorado运行比对时,每个SAM记录会添加额外的来自Minimap2的标签。
分割读段标签
- 当单个输入读段包含多个连接的读段时,dorado基础调用器将原始输入读段分割为单独的子读段。这个操作默认适用于DNA和RNA。每个子读段都被分配一个新的读段ID。