三代纳米孔直接测序：dorado 碱基识别结果 SAM 、BAM文件格式详解

最新推荐文章于 2024-10-23 21:49:13 发布

生信碱移

最新推荐文章于 2024-10-23 21:49:13 发布

阅读量945

点赞数 5

文章标签： python 数据分析经验分享

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_49214410/article/details/141814393

版权

dorado结果 SAM 、BAM文件格式

头部信息

@HD VN:1.6 SO:unknown - 版本和排序顺序。
@PG ID:basecaller PN:dorado VN:0.2.4+3fc2b0f CL:dorado basecaller - 程序信息，包括ID、名称、版本和命令行。
- DS:gpu:Quadro GV100 - 使用的GPU类型。

读组头部信息

RG ID <basecalling_model><barcode_arrangement> - 读段组ID。
PU <flow_cell_id> - 流动池ID。
PM <device_id> - 设备ID。
DT <exp_start_time> - 实验开始时间。
PL ONT - 平台类型（Oxford Nanopore Technologies）。
DS basecall_model=<basecall_model_name> modbase_models=<modbase_model_names> runid=<run_id> - 详细描述。
LB <sample_id> - 文库ID。
SM <sample_id> - 样本ID。

读段标签

RG:Z: <basecalling_model><barcode_arrangement> - read标签。
qs:f: 平均基础调用质量分数。
ts:i: 从信号开始被修剪的信号数。
ns:i:剪辑识别序列对应信号的区间。
mx:i: read复用信息。
ch:i: read通道。
rn:i: read编号。
st:Z: read开始时间（UTC）。
du:f: read持续时间（秒）。
fn:Z: 文件名。
sm:f: 信号缩放中点/均值/中位数。
sd:f: 信号缩放离散度。
sv:Z: 缩放版本。
mv:B:c 序列到信号移动表（可选）。
dx:i: 表示双端read的布尔值（仅在双端模式下）。
pi:Z: 分割读段的父读段ID。
sp:i: 分割读段在父读段信号中的开始坐标。
pt:i: 估计的polya聚腺苷酸（A/T）尾部长度。
bh:i: 检测到的bed文件命中数（仅在指定bed文件进行对齐时）。
MN:i: 在生成MM和ML时的序列长度。

修饰碱基标签

当请求输出修饰碱基（通过--modified-bases CLI参数）时，修饰碱基调用将直接通过SAM标签输出。MM和ML标签在SAM文档中有说明。

Minimap2 比对标签

当使用dorado运行比对时，每个SAM记录会添加额外的来自Minimap2的标签。

分割读段标签

当单个输入读段包含多个连接的读段时，dorado基础调用器将原始输入读段分割为单独的子读段。这个操作默认适用于DNA和RNA。每个子读段都被分配一个新的读段ID。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。