trf 4.10安装与使用-生信工具42

01 背景

DNA 中的串联重复(Tandem Repeat)指的是两个或多个相邻且近似的核苷酸模式的拷贝。Tandem Repeats Finder (TRF) 是一个程序,用于定位并显示 DNA 序列中的串联重复。用户只需提交一个以 FASTA 格式编写的序列,无需指定重复模式、模式大小或其他参数。程序输出两个文件:一个重复表格文件和一个比对文件。

重复表格文件可以在网页浏览器中查看,包含每个重复的相关信息,包括其位置、大小、拷贝数量和核苷酸组成。点击表格条目中的位置索引,可以打开另一个浏览器页面,显示重复序列与共识模式的比对结果。程序运行速度非常快,可在几秒钟内分析约 0.5Mb 的序列。提交的序列长度可以是任意的,程序可以检测模式大小范围在 1 到 2000 个碱基之间的重复。

02 参考
https://github.com/Benson-Genomics-Lab/TRF   #官网
https://tandem.bu.edu/trf/trf.html    #官网2
03 安装

编译指南

编译 TRF 需要:

  • C 编译器(如 gccclang),并安装标准库。
    TRF 已在基于 UNIX 的系统(如 Linux 和 macOS)以及 Windows 的 Cygwin/MinGW 环境中进行了测试。

简略编译步骤(高级用户):

# 检查实际版本
tar xzvf trf-4.10.0.tar.gz
cd trf-4.10.0
mkdir build
cd build
../configure
make
# 安装到系统
sudo make install
# 或将二进制文件复制到其他目录
cp src/trf DESTINATION

从仓库克隆的替代方法:

git clone https://github.com/Benson-Genomics-Lab/TRF.git
cd TRF

逐步编译:

  1. 打开终端,切换到克隆的 TRF 仓库目录。
  2. 创建名为 build 的目录:mkdir build,并切换到该目录。
  3. 运行 ../configure
  4. 运行 make
  5. 如果希望安装可执行文件,运行 sudo make install,否则只需从 build/src 目录中复制生成的二进制文件。

conda安装

conda install bioconda::trf
04 使用
trf File Match Mismatch Delta PM PI Minscore MaxPeriod [options]
参数详细说明:

File:输入序列文件(FASTA 格式)。
Match, Mismatch, Delta:用于 Smith-Waterman 比对的匹配、错配、插入/删除的权重。推荐值为 Match=2, Mismatch=7, Delta=7。
PM, PI:匹配和插入/删除的概率。推荐值为 PM=80, PI=10。
Minscore:最小比对得分。
MaxPeriod:最大模式长度。
选项:
-m:生成掩码序列文件(重复序列位置标记为 N)。
-f:记录重复的两侧序列。
-d:生成 .dat 数据文件(文本格式,适合进一步处理)。
-h:禁止生成 HTML 输出。
-l <n>:指定最大重复长度(单位:百万碱基,默认值为 2)。
-u:显示帮助信息。
-v:显示版本信息。
05 常用参数

运行 TRF 的可执行文件测试文件 test_seqs.fasta,命令如下(假设可执行文件名为 trf):

trf test_seqs.fasta 2 5 7 80 10 50 2000 -l 10

这将生成 9 个文件,其中包括:

  • test_seqs.fasta.2.5.7.80.10.50.2000.summary.html
  • 若干 .html 文件和 .txt.html 文件,显示重复信息及比对结果。

推荐的命令行如下:

trf yourfile.fa 2 5 7 80 10 50 2000

运行后,将生成两个或多个 HTML 文件,可使用浏览器查看重复表格和比对结果。

输出说明

表格解释:

重复表格包含以下信息:

  • 重复序列的索引。
  • 模式长度(周期)。
  • 拷贝数量。
  • 模式的共识序列大小。
  • 匹配百分比。
  • 插入/删除百分比。
  • 对齐得分。
  • 各碱基的组成百分比。
  • 熵(基于碱基组成计算)。

比对解释:

比对文件包含:

  • 每个周期的序列与共识序列的比对。
  • 插入/删除(用 - 表示)和错配(用 * 表示)。
  • 邻接碱基的匹配统计。
06 引用

Benson G.
Tandem repeats finder: a program to analyze DNA sequences.
Nucleic Acids Res. 1999; 27(2):573–580. doi:10.1093/nar/27.2.573

第 1 章 Unix/Linux操作系统介绍...........................................................................................................1 1.1 远程登陆...................................................................................................................................1 1.2 文件的复制、删除和移动命令................................................................................................7 1.3 目录的创建、删除及更改目录命令........................................................................................9 1.4 文本查看命令.........................................................................................................................11 1.5 文本处理命令.........................................................................................................................13 1.6 改变文件或目录的权限命令..................................................................................................16 1.7 备份压缩命令.....................................................................................................................18 1.8 磁盘及系统管理.....................................................................................................................20 1.9 软件安装简介.........................................................................................................................22 1.10 其他......................................................................................................................................23 第2 章 数据的基本处理........................................................................................................................25 2.1 测序原理介绍..........................................................................................................................25 2.2 峰图转化 Phred ......................................................................................................................27 2.3 Phd2Fasta ...............................................................................................................................32 2.4 载体屏蔽 cross_match ........
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值