gce的使用方法:首先在github中下载安装包(https://github.com/fanagislab/GCE),解压,进入gce.1.0.2,使用make进行编译,编译后,使用gce进行基因组survey
在使用gce进行基因组survey时,一定要注意使用的命令,如果使用第一步的kmerfreq命令,就需要指定kmerfreq的位置,如果使用gce命令,就要指定gce的地址
第一步,获取测序数据的K-mer频率
./gce-1.0.2/kmerfreq -k 17 -t 10 -p ara cleandatalist
# -k 是kmer大小,一定要在13-19之间,不然会报错,
-p是输出文件前缀,
最后的cleandatalist是一个文件,里面每一行都是测序数据的地址,
具体样式见下图
运行之后会得到一个后缀是kmer.freq.stat的文件,我的前缀是ara,所以文件就是ara.kmer.freq.stat,使用这个文件进行下一步分析
第二步,得到gce运行参数
less ara.kmer.freq.stat | grep "#Kmer indivdual number" #获取gce参数-g
less ara.kmer.freq.stat | perl -ne 'next if(/^#/ || /^\s/); print; ' | awk '{print $1"\t"$2}' > ara.kmer.freq.stat.2colum
#获得gce参数-f,也就是这里的ara.kmer.freq.stat.2colum
第三步 ,使用gce进行survey
纯合模式
./gce -g 3295248520 -f ara.kmer.freq.stat.2colum >gce.table 2>gce.log
#使用之前的得到的-g和-f参数进行基因组survey
纯合模式
使用纯合模式得到kmer统计的rawpeak之后,再使用杂合模式运行一次
rawpeak在纯合模式运行后的gce.log里
这里的rawpeak就是28
杂合模式
./gce -g 3295248520 -f ara.kmer.freq.stat.2colum -H 1 -c 28 >gce.table 2>gce.log
#使用之前的得到的-g和-f参数进行基因组survey
使用杂合模式进行kmer统计必须同时指定-c 和 -H 1,其中-c 的值一般指定为纯合模式运行得到的rawpeak
运行结果
首先要根据杂合模式运行结果得到基因组杂合度,根据基因组杂合度判断使用纯合模式运行结果还是杂合模式运行结果
在杂合模式运行得到的gce.log文件里,有一个kmer-species heterozyugous ratio is
这是kmer种类的杂合率使用此杂合率/kmer大小,等于基因组杂合率,基因组杂合率<0.002,可以大概判断是纯合基因组,否则是杂合基因组
然后根据是纯合还是杂合基因组,去使用对应的gce.log的结果,纯合基因组使用纯合模水的结果,杂合基因组使用杂合模式的结果
基因组大小:纯合模式和杂合模式运行后,在得到的gce.log的最下方,有一个genomesize,就是基因组大小,
基因组杂合度:上面说过了呢
重复序列占比:
纯合模式运行结果的最下面有genomesize和b[1]信息
杂合模式的运行结果最下面有genomesize和b[1],b[1/2]信息
纯合模式重复序列占比=1-b[1]
杂合模式重读序列占比=1-b[1/2]-b[1]
先写这些,下次再写
QwQ