GWAS数据分析流程—SNP、Indel注释

1、snpeff

1.1、snpeff软件下载

wget https://snpeff.blob.core.windows.net/versions/snpEff_latest_core.zip

unzip snpEff_latest_core.zip

cd snpEff

解压后即可使用。

1.2、在snpeff文件夹下新建一个命名为data的文件夹,data文件夹下面再新建一个要生成数据库的文件夹,命名为maize,在maize里面下载参考基因组序列和基因组的GTF文件,分别重命名为sequences.fa和genes.gtf。

 1.3、定义snpEff.config文件,

 vi snpEff.config打开snpEff.config文件,添加

# maize genome, version maizev5
maize.genome : maize

如图所示:

 1.4、SNP、Indel注释

##SNP注释
java -Xmx4g -jar  /ipm1/hang/pl/program/snp_indel_snpeff/snpEff/snpEff.jar -c  /ipm1/hang/pl/program/snp_indel_snpeff/snpEff/snpEff.config -ud 2000 -csvStats maizesnp.csv -htmlStats maizesnp.html -o vcf  maizev4  maize.snp.filed.vcf > maize.filtered.snp.ann.vcf  

##indel注释
java -Xmx4g -jar  /ipm1/hang/pl/program/snp_indel_snpeff/snpEff/snpEff.jar -c  /ipm1/hang/pl/program/snp_indel_snpeff/snpEff/snpEff.config -ud 2000 -csvStats maizeindel.csv -htmlStats maizeindel.html -o vcf  maizev4   maize.indel.filed.vcf > maize.filtered.indel.ann.vcf

2、annovar

2.1、软件安装

annovar下载地址Download ANNOVAR - ANNOVAR Documentation

解压后输出环境变量

export PATH=/ipm1/hang/pl/program/snp_indel_snpeff/annovar:$PATH

annovar的使用需要gtfToGenePred软件包

下载地址为:https://link.zhihu.com/?target=http%3A//hgdownload.soe.ucsc.edu/admin/exe/linux.x86_64/    

下载后运行 chmod +x ./gtfToGenePred 增加运行权限

2.2、将GTF文件转换成refGene格式

gtfToGenePred -genePredExt -ignoreGroupsWithoutExons  genes.gtf  maize_refGene.txt


2.3、建立注释库

/ipm1/hang/pl/program/snp_indel_snpeff/annovar/retrieve_seq_from_fasta.pl --format refGene --seqfile sequences.fa maize_refGene.txt --out maize_refGeneMrna.fa

2.4、将VCF文件转换成表格格式输入文件

##SNP
/ipm1/hang/pl/program/snp_indel_snpeff/annovar/convert2annovar.pl -format vcf4 -allsample -withfreq maize.snp.filed.vcf > maize.snp.vcf.annovar.input

##Indel
/ipm1/hang/pl/program/snp_indel_snpeff/annovar/convert2annovar.pl -format vcf4 -allsample -withfreq maize.indel.filed.vcf > maize.indel.vcf.annovar.input

2.5、SNP、Indel注释

##SNP注释     
/ipm1/hang/pl/program/snp_indel_snpeff/annovar/annotate_variation.pl -geneanno --neargene 2000 -buildver maize  -dbtype refGene -outfile maizesnp.anno -exonsort maize.snp.vcf.annovar.input ./

##indel注释
/ipm1/hang/pl/program/snp_indel_snpeff/annovar/annotate_variation.pl -geneanno --neargene 2000 -buildver maize  -dbtype refGene -outfile maizeindel.anno -exonsort maize.indel.vcf.annovar.input ./

2.6、统计变异信息、查看变异类型等

less -S maizesnp.anno.variant_function |cut -f 1|sed 's/;/\n/g' |sort | uniq -c

less -S maizeindel.anno.variant_function |cut -f 1|sed 's/;/\n/g' |sort | uniq -c




 

### 回答1: GWAS meta分析可以用来发现与多个疾病共同相关的SNP,以下是一个Python脚本的例子,用于进行GWAS meta分析,并筛选出共病风险SNP: ```python import pandas as pd import numpy as np import statsmodels.api as sm # 读取所有研究的GWAS结果文件 study1 = pd.read_csv("study1.csv") study2 = pd.read_csv("study2.csv") study3 = pd.read_csv("study3.csv") # 将每个研究的p值进行变换,转化为z值 study1["z"] = np.sqrt(2) * sm.stats.proportion.proportions_ztest(study1["n_cases"], study1["n_total"], value=study1["OR"])[0] study2["z"] = np.sqrt(2) * sm.stats.proportion.proportions_ztest(study2["n_cases"], study2["n_total"], value=study2["OR"])[0] study3["z"] = np.sqrt(2) * sm.stats.proportion.proportions_ztest(study3["n_cases"], study3["n_total"], value=study3["OR"])[0] # 将每个研究的z值和样本量进行合并 meta_data = pd.concat([study1[["SNP", "z", "n_cases", "n_total"]], study2[["SNP", "z", "n_cases", "n_total"]], study3[["SNP", "z", "n_cases", "n_total"]]]) # 计算每个SNP的z值和加权样本量 meta_data["wz"] = meta_data["z"] * np.sqrt(meta_data["n_cases"] + meta_data["n_controls"]) meta_data["w"] = np.sqrt(meta_data["n_cases"] + meta_data["n_controls"]) # 计算meta分析的z值和p值 meta_z = meta_data["wz"].sum() / meta_data["w"].sum() meta_p = 2 * (1 - sm.stats.norm.cdf(abs(meta_z))) # 筛选出共病风险SNP threshold = 0.05 / len(meta_data) # Bonferroni校正阈值 meta_data["p"] = 2 * (1 - sm.stats.norm.cdf(abs(meta_data["z"]))) # 计算每个SNP的p值 comorbid_snps = meta_data[meta_data["p"] < threshold]["SNP"] # 筛选出共病风险SNP # 输出结果 print("Meta-analysis result:") print("z value: ", meta_z) print("p value: ", meta_p) print("共病风险SNP: ", comorbid_snps) ``` 这个脚本首先进行GWAS meta分析,计算每个SNP的加权z值和加权样本量,最后计算meta分析的z值和p值。然后,使用Bonferroni校正阈值对每个SNP的p值进行校正,筛选出共病风险SNP,并输出结果。需要注意的是,Bonferroni校正可能过于保守,可以根据具体情况选择其他的多重比较校正方法。 ### 回答2: GWAS (基因组关联研究) meta 分析是通过整合多个独立的 GWAS 研究来寻找与共病风险相关的单核苷酸多态性 (SNP) 代码。这些 SNP 代码代表了基因组中的特定位点,其变异可能与某种疾病的发生风险相关联。 通过 GWAS meta 分析,研究者能够对大量样本进行研究,从而获得更加统计显著的结果。在分析的过程中,SNPs 的频率和效应大小等关键信息会被考虑。 共病风险 SNP 代码是指那些在 GWAS meta 分析中被认为与共病风险相关的 SNP。这些代码能够提供与特定疾病或疾病组群相关的遗传变异信息。 通过 GWAS meta 分析得到的共病风险 SNP 代码对于疾病的研究非常重要。研究者可以通过这些代码来识别可能的疾病风险基因,理解遗传变异对共病风险的贡献程度,并为疾病的预防和治疗提供潜在的靶点。 然而,需要注意的是,共病风险 SNP 代码仅仅代表了相关性,不能直接表明因果关系。进一步的功能研究和验证实验是必不可少的,以确定 SNP 引发的生物过程和其对疾病发展的实际作用。 总结来说,GWAS meta 分析可以提供共病风险 SNP 代码,这些代码对于研究疾病的遗传背景和潜在机制,以及疾病的预防和治疗具有重要意义。然而,我们仍需进一步的研究来厘清 SNPs 与疾病之间的因果关系。 ### 回答3: GWAS(基因组范围的关联研究)是一种常用的遗传学研究方法,用于研究基因与疾病之间的关联关系。在进行GWAS研究时,研究者会收集来自不同研究中心的数据,并进行meta分析。 meta分析是一种将多个独立研究的结果进行合并和整合的统计分析方法。在进行GWAS meta分析时,研究者会按照特定的标准,选择符合要求的研究,并提取其中的共病风险SNP代码。 共病风险SNP代码是指在GWAS meta分析中被发现与某种疾病共同关联的单核苷酸多态性(Single Nucleotide Polymorphism)。这些SNP代码代表了基因组上特定位点的变异情况,与疾病的发生和发展有一定的相关性。 在GWAS meta分析中,研究者会对收集到的数据进行整合和比对,找出共病风险SNP代码。这些代码可以用于进一步的遗传学研究,以探究这些SNP与疾病之间的具体关联机制。此外,共病风险SNP代码还可以为疾病的预测、诊断和治疗提供依据。 总之,GWAS meta分析得到的共病风险SNP代码代表了基因与疾病之间的关联关系,对于研究疾病的发生机制和提供个体化医疗具有重要意义。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值