Hifiasm参数详细解释

Hifiasm Parameter Reference

概要

仅使用 HiFi reads进行组装

hifiasm -o [prefix] -t [nThreads] [options] input1.fq [input2.fq [...]]

#-o [prefix]: 指定输出文件的前缀。hifiasm会根据这个前缀生成几个输出文件,包括最终的组装结果、日志文件等。
#-t [nThreads]: 指定用于组装过程的线程数。增加线程数可以加快计算速度,但请注意不要超过你的硬件资源限制。

#[options]: hifiasm提供了一系列的选项来调整组装参数,例如:
#-s: 是否使用单分子序列。
#-p: 是否使用PacBio CLR序列。
#-P: 是否使用PacBio CCS序列。
#-S: 是否使用Nanopore序列。
#-L: 设置长序列的最小重叠长度。
#-k: 设置k-mer大小。
#input1.fq [input2.fq [...]]: 一个或多个输入文件,可以是FASTQ格式的测序读取文件。对于双端测序数据,需要提供正向和反向序列的文件。

三重组分分选(先用yak)

yak count -o paternal.yak -b37 [-t nThreads] [-k kmerLen] paternal.fq.gz
yak count -o maternal.yak -b37 [-t nThreads] [-k kmerLen] maternal.fq.gz
hifiasm [-o prefix] [-t nThreads] [options] -1 paternal.yak -2 maternal.yak child.hifi.fq.gz

#yak count 是一个用于快速估算基因组大小和杂合度的程序。它基于k-mer计数,可以帮助确定基因组中可能的重复区域和结构变异。
#-b37: 指定参考基因组的版本,这里 b37 指的是Human Genome Build 37。
#-k [kmerLen]: 可选参数,用于指定k-mer的长度。
#这里,paternal.fq.gz 和 maternal.fq.gz 是压缩的测序数据文件,分别对应父本和母本的样本。

Hi-C集成组件

hifiasm -o [prefix] -t [nThreads] --h1 [hic_r1.fq.gz,...] --h2 [hic_r2.fq.gz,...] [options] HiFi.read.fq.gz

获取选项的详细说明

hifiasm -h
#or
man ./hifiasm.1

常规选项

  • **-o <FILE=hifiasm.asm>**输出文件的前缀。

  • -t <INT=1> hifiasm使用的CPU线程数。

  • -h -显示帮助信息。

  • –version --版本

错误方案

  • -k <INT=51> K-mer长度。此选项必须小于64。

  • -w <INT=51> 最小化窗口大小

  • -f <INT=37> 过滤器,0 表示禁用。该 过滤器用于在计算所有 k-mers 时过滤掉单个 k-mers。它占用 2(INT-3) 字节内存。适当的设置可以节省内存。建议在人类组装时使用 -f37。对于小型基因组,使用 -f0 可禁用初始过滤器,该过滤器在开始时占用 16GB 内存。对于比人类大得多的基因组,最好使用 -f38 甚至 -f39,以节省 k 聚合体计数的内存。

  • -D <FLOAT=5.0> 丢弃出现 >FLOAT 覆盖次数的 k-mers。Hifiasm 在纠错过程中会丢弃这些高频 k-mer,以减少运行时间。覆盖次数由 hifiasm 根据 k-mer 图自动确定,测序覆盖度可以通过以下公式计算得出: 覆盖度(%)=(测序得到的碱基总数基因组大小)/(基因组大小测序得到的碱基总数)×100,简单理解就是测序深度,提高该选项可提高重复区域的分辨率,但需要更长的时间

  • -N <INT=100> 这个参数定义了在组装过程中,每个定向读取(oriented read)所考虑的重叠(overlaps)的最大数量,这个数量由 -D 参数和测序覆盖度的乘积与 -N 的值中的较大者决定

    hifiasm -o output_prefix -t 8 -D 6.0 -N 150 input1.fq input2.fq
    
  • -r <INT=3> 参数指定了进行单倍型感知错误校正(haplotype-aware error correction)的轮数单倍型感知错误校正是一种考虑到基因组中可能存在的杂合性(即个体基因组中同一位置的两个等位基因可能不同)的校正过程。在人类和其他多倍体生物中,杂合性是常见的,因此单倍型感知校正对于提高组装质量尤其重要。

  • -z <INT=0> 用于指定应该从每个读取序列的两端去除的适配器(adaptors,也称为接头或引物)的长度。这个选项对于处理一些包含短适配器的旧 HiFi 读取数据特别有用。

  • –max-kocc <INT=2000> 用于指定在处理重复区域(repeats)时使用的 k-mers 的最大出现次数。这个选项可以影响组装过程中对重复序列的处理,尤其是在基因组中存在高度重复的区域时。使用出现次数更少的 k-mers 来改善重复区域的分辨率

  • –hg-size <INT(k/m/g)> 用于估计单倍体基因组大小,即一个单倍体基因组中的碱基对总数。这个参数对于推断读取覆盖度(read coverage)非常重要,特别是在错误校正过程中需要准确估计纯合(homozygous)读取的覆盖度。

  • –min-hist-cnt <INT=5> 用于在分析 k-mer 频谱时忽略小于指定整数值 INT 的计数。这个选项对于处理不同覆盖度的 HiFi 数据特别重要,可以帮助减少由于测序深度不足导致的假阴性结果,但也可能增加计算时间和假阳性结果的风险。

组装选项

  • -a <INT=4> 用于指定组装图(assembly graph)清理的轮数。这个步骤是在基因组组装过程中对组装图进行优化,以提高最终组装结果的质量和准确性

  • -m <INT=10000000> 参数用于设置在生成主要/替代(primary/alternate)连续图(contig graphs)时,进行气泡(bubbles)弹出操作的最大探测距离。这个参数决定了在组装图中,多长距离的气泡会被考虑弹出。气泡弹出(Bubble Popping):在基因组组装图中,气泡是指由测序错误或基因组中的重复区域引起的环状结构。这些气泡可能会干扰组装过程,导致生成非最优的连续图。气泡弹出是指识别并移除这些环状结构,以改善组装图的质量。

  • -p <INT=0> 参数用于设置在生成单倍型解析的加工单元图(haplotype-resolved processed unitig graph)时进行气泡弹出操作的最大探测距离。这个参数特别关注于不包含小气泡的图的生成。

  • -n <INT=3> 用于定义小单元图(small unitigs)的阈值。单元图是指在基因组组装图中,由一系列重叠的读取序列组成的连续序列。在基因组组装过程中,小单元图可能会在多个步骤中被尝试移除。这是因为小单元图可能代表基因组中的低复杂区域、测序错误或覆盖度不足的区域。移除这些小单元图可以提高最终组装结果的质量和准确性。

  • -x <FLOAT1=0.8>, -y <FLOAT2=0.2> 参数用于控制在组装图中移除短重叠区域(overlaps)时使用的最大和最小重叠丢弃比率。这两个参数与 -a 参数一起使用,用于优化组装图,提高最终基因组组装的质量。在组装图的每个节点 N 上,HiFiasm 会计算与该节点相连的重叠的长度。然后,根据 -x-y 设定的阈值范围,HiFiasm 会迭代地移除那些长度与节点 N 最长重叠长度之比低于这个范围的重叠。如果你想要更积极地移除短重叠,可以减小 -x 的值并增大 -y 的值:

  • -i 忽略所有bin文件,以便hifiasm从头开始,Bin 文件是在基因组组装过程中产生的中间文件,它们包含了组装的某些部分或阶段的信息。

  • -u 数用于禁用组装后的特定步骤,即连接(post-join)步骤。这个步骤通常用于提高连续图(contigs)的 N50 值,但有时可能会引入错误组装(misassemblies)。连接步骤是指在初步组装后,尝试将连续图进一步连接成长度更长的序列,N50 是衡量组装质量的一个指标,代表最长的连续序列,使得该序列及更长序列的总长度至少占基因组大小的 50%

  • -hom-cov 用于指定纯合(homozygous)读取测序深度的估计值。这个参数对于工具自动推断的测序深度进行调整,可以影响包括 Hi-C 分相组装(Hi-C phased assembly)和仅限 HiFi 数据的组装(HiFi-only assembly)在内的不同类型输出

  • –pri-range <INT1[,INT2]> 用于指定在组装过程中处理主要(primary)组装的碱基范围。这个参数可以用于控制组装的区域,特别是当对基因组的某些特定区域感兴趣时。如果未指定“INT 2”,则将其设置为无穷大。设置-1表示禁用

  • –lowQ <INT=70> 用于设置低质量分数的阈值,在测序数据中,每个碱基后面通常跟着一个质量分数,该分数表示了测序过程中该碱基被正确识别的置信度。较低的质量分数意味着较高的测序错误率。设置0为禁用

  • –b-cov <INT=0> 在组装过程中考虑的气泡(bubbles)的最小覆盖度阈值

  • –h-cov <INT=-1> 用于设置在组装过程中考虑的异质性气泡(heterozygous bubbles,或称为杂合气泡)的最小覆盖度阈值。异质性气泡是指在基因组组装图中,由于杂合性(即个体基因组中同一位置的两个等位基因不同)而产生的环状结构

  • –m-rate <FLOAT=0.75> 用于设置在组装过程中考虑的匹配率(match rate)的阈值。这个参数对于决定哪些重叠(overlaps)将被用于组装图的构建

  • –primary--primary 参数与 --alternate(或简写为 -l0)一起使用时,可以输出两种类型的组装结果:主要(primary)组装和替代(alternate)组装。

  • 主要组装:这是最有可能代表个体基因组的标准路径。它通常代表了基因组中的主要等位基因或最频繁出现的序列。

  • 替代组装:这代表了除了主要路径之外的其他可能的组装路径。在杂合个体中,这可能揭示了次要等位基因或其他变异形式。

Trio-binning选项

  • -1 由来自父本/单倍型1read的yak计数生成的K-mer。

  • -2 由来自母本/单倍型2read的yak计数生成的K-mer。

  • -3 父系/单倍型1read名称列表。

  • -4 -4母系/单倍型2read名称列表。

  • -c <INT1=2>, -d <INT2=5> 区分不同样本的 k-mer 频率的下限和上限,如果一个 k-mer 在一个样本中出现的次数 >= INT2,而在另一个样本中出现的次数 < INT1,则称该 k-mer 为差异化 k-mer

  • –t-occ <INT=60> 于在基因组组装过程中强制移除包含多于指定阈值数量(INT)的非预期单倍型特异读取(haplotype-specific reads)的单元图(unitigs)如果一个单元图包含超过60个非预期的单倍型特异读取,该单元图将被移除如果一个单元图包含超过60个非预期的单倍型特异读取,该单元图将被移除

有关重复选项

  • -l <INT=3> 清除重复的级别。0表示禁用,1表示仅清除包含的单倍体,2表示清除所有类型的单倍体,3表示以最积极的方式清除所有类型的单倍体。默认情况下,3表示非trio装配,0表示trio装箱装配。对于trio装箱装配,仅允许级别0和级别1。

  • -s <FLOAT=0.55> 应该清除的重复单倍体的相似性阈值。默认情况下,0.75用于-l1/-l2,0.55用于-l3。此选项同时影响HiFi-only组装和Hi-C分阶段组装。有关更多详细信息,请参阅如何调整参数以改善Hi-C整合组装?以及为什么初级组装或部分分阶段组装的大小远大于估计的基因组大小?

  • -O <INT=1> 应清除的重复单倍体的重叠读段的最小数量。

  • –purge-max 清除重复的覆盖率上限,默认情况下自动推断。如果重叠群的覆盖率高于此上限,则不应用清除重复。较大的值使组装更连续,但可能会折叠重复或分段重复

  • –n-hap <INT=2> 单倍型数的假设。如果设置为> 2,则可能提高多倍体基因组初级组装的质量。

Hi-C组装选项

  • –h1 输入Hi-C R1的文件名[r1_1.fq,r1_2.fq,...].

  • –h2 输入Hi-C R2的文件名[r2_1.fq,r2_2.fq,...].

  • –n-weight <INT=3> 重新加权Hi-C链接的回合。提高此选项可能会改善相位调整结果,但需要更长的时间。

  • –n-perturb <INT=10000> 扰动轮次。增加此选项可能会改善相位调整结果,但需要更长的时间。

  • –f-perturb <FLOAT=0.1> 扰动翻转的分数。增加此选项可能会改善相位调整结果,但需要更长的时间。

  • –seed <INT=11> RNG seed.RNG种子。

  • –l-msjoin <INT=500000> 检测大小为“>=INT”的错误连接的单元格; 0将禁用。

  • 46
    点赞
  • 43
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值