选择信号检测--基于单体型haplotype的选择信号的检测(iHS)

该文详细介绍了如何使用plink、vcftools和beagle等工具对SNP数据进行质控、格式转换、定相填充,以及通过selscan计算iHS值的过程。涉及的关键步骤包括数据过滤、基因型填充、染色体分割、遗传距离转换和最终的iHS结果提取与合并,为遗传学研究提供了一套流程化的方法。
摘要由CSDN通过智能技术生成

这篇播客主要借鉴了大佬的信号检测文章原文链接

1.数据文件制备

一、首先手里拿到一份plink的ped、map文件:

(1)转vcf文件格式
plink --file test --recode vcf --out test
(2)利用vcf文件过滤掉一些质量较低的位点
 (最大缺失率(max-missing)<10%即检出率>90%的SNP位点,
 最小等位基因频率(MAF)>0.03;
(去除多等位基因和等位基因缺失: --min-alleles 2 --max-alleles 2)
 vcftools --vcf test --remove-indels --max-missing 0.9 --maf 0.03 --min-alleles 2 --max-alleles 2 --recode --recode-INFO-all --out test.zk.vcf
(3)质控结束后直接进行定相填充
java -Xmx1g -jar beagle... gt=test.zk.vcf out=test.gt.zk.vcf nthread=10
一般结束以后就有货了!!!
(3.1)顺手转个ped、map
plink --vcf test.gt.zk.vcf --recode --out test.gt

二、统一格式: map文件位置名称 ,空格分隔

awk '{print$1,$1":"$4,$3,$4}' test.gt.map > test.gt1.map
转换成vcf格式
plink --file test.gt1 --recode vcf --out test.gt1

三、使用perl代码处理vcf特异格式

perl -pe "s/\s\.:/\t.\/.:/g" test.miss.gt1.vcf | bgzip -c > test.gt1.vcf.gz
意思是:用perl执行"s/\s\.:/\t.\/.:/g"

四、再次定相填充

java -Xmx1g -jar beagle... gt=test.gt1.vcf.gz out=test.2gt 

五、分染色体:这个是重点

#vcf文件分割
for i in {1..27}
do
  vcftools --vcf 12.perl.gt.vcf.gz --chr ${i} --recode --recode-INFO-all --out ${i}.test
done
#map文件分割
for k in {1..27}
do
  vcftools --vcf ${k}.test.recode.vcf --plink --out ${k}.mp
done

六、遗传距离(Bp)的转化:这个是最重的重点!因为涉及到该物种的基因组大小。这个必须整明白。

for k in {1..27}
do
  awk 'BEGIN{OFS=" "} {print 1,".",$4/1000000,$4}' ${k}.mp.map > ${k}.MT.map2
done

看明白代码:只取map文件后两列!

七、计算iHS

for k in {1..27}
do
  selscan --ihs --vcf ${k}.test.recode.vcf --map ${k}.MT.map2 --out ${k}.iHS
done
# 得到 ${k}.iHS.ihs.out文件,运行时间久!




# 提取结果
for k in {1..27}
do
  awk '{print '${k}',$2,$3,$4,$5,$6}' ${k}.iHS.ihs.out > ${k}.hu.ihs.out
  sed -i 's/ /\t/g' ${k}.hu.ihs.out
done

七、搞大事
到了这一步就可以基本搞定了。一行代码,合并文件

cat *hu.ihs.out > all.ihs

接下来在all.ihs文件中取一列ihs绘制曼哈顿图就搞定了可别像我一样画一张难看的图能被老师骂死,话说人长的丑就不能图丑点嘛~~~
在这里插入图片描述

  • 5
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 28
    评论
### 回答1: "hap-depends" 是一个英文的词语,它结合了 "happiness"(幸福)和 "depends"(依赖)两个词的含义。 这个词可以解释为幸福是依赖于一些其他因素或条件存在的观念。它提醒我们,幸福感是由很多不同的因素所影响和塑造的,而不仅仅是由单一的因素所决定的。 人们的幸福感往往依赖于他们的生活环境、个人经历、人际关系、自身能力感和个人追求等多个方面。这些因素相互作用和相互依赖,共同影响一个人的幸福感。 因此,认识到 "hap-depends" 的观念可以帮助我们更好地理解幸福感的本质,并意识到我们需要关注和培养多个方面,以提高自己的幸福感。 要达到持久的幸福,我们需要在生活中寻找平衡,并满足自己的基本需求,同时也需要培养积极乐观的思维方式,建立良好的人际关系,追求个人的目标和意义,并关注身心健康。 总之,"hap-depends" 提醒我们幸福是一种综合性的体验,不仅仅取决于单一因素,而是由多个方面相互作用所决定的。理解并实践这一概念,有助于我们更好地追求和享受幸福的生活。 ### 回答2: hap-depends是一个英文短语,细分来看,"hap"代表的是"高度可靠性"(High Availability)的缩写,而"depends"代表的是"即便变量变化"(depending)的意思。因此,这个短语的意思可以理解为"高度可靠性取决于即便变量变化"。 在计算机领域中,高度可靠性是指系统具备了足够的冗余性和容错机制,能够保持服务的可用性。即便变量变化则表示系统应该可以适应不同的环境和条件的变化。 因此,在这个短语中,hap-depends强调了高度可靠性系统对于即便变量变化的依赖。具体来说,一个高度可靠性的系统应该具备自适应性,能够根据变化的环境和条件进行调整和优化,以保持服务的可靠性和稳定性。这种依赖关系表明一个系统设计的良好程度,越能适应变化,系统的可靠性和稳定性就越高。 因此,为了实现高度可靠性的系统,我们需要考虑各种即便变量变化的情况,例如硬件故障、网络中断、软件更新等,从而提供相应的冗余和容错机制,使系统能够持续提供稳定的服务。考虑到即便变量变化的多样性和不确定性,系统设计和实施需要综合各种因素,包括可靠性需求、环境变量等,以确保系统在面对变化时能够保持高度可靠性。 ### 回答3: "hap-depends" 是一个混搭词组,由“hap”和“depends”两个词组成。 “Hap” 是haplotype 的缩写,指的是一组在某个特定基因位点上的遗传变体。每个人都有两个互补的拷贝,一个来自母亲,一个来自父亲。haplotype 描述了这两个拷贝在某个位点上的变异情况。 “Depends” 是depend 的第三人称单数形式,意为“依赖”,表示一个事物或现象取决于另一个事物或现象。 因此,"hap-depends" 的意思可以解释为:一个遗传类haplotype)的存在或表现取决于其他因素或条件。 具体来说,"hap-depends" 可以指代以下情况: 1. 表达取决于遗传类:某个特定的遗传类影响一个人的基因表达,从而导致特定的生理或生物学特征。 2. 疾病易感性取决于遗传类:某些疾病的发病风险会受到遗传倾向的影响,即不同的遗传类可能会增加或减少患某种疾病的风险。 3. 药物反应取决于遗传类:一些人对药物的反应可能会因其遗传类而有所不同,有些人可能对特定药物具有特殊的敏感性或耐受性。 总而言之,"hap-depends" 强调了遗传类在某些生理、疾病或药物方面的重要作用,但也提醒我们要综合其他因素才能全面了解一个现象的成因。
评论 28
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值