GWAS
文章平均质量分 78
育种数据分析之放飞自我
个人公众号:育种数据分析之放飞自我
展开
-
GWAS分析中显著位点如何注释基因:excel???
大家好,我是邓飞。今天星球的小伙伴问了一个问题:我现在在做GWAS分析,现在已经找到性状关联的SNP位点,下一步我如何根据position 找到基因呢?关于基因注释,之前写过一些博客,可以用到的软件有:ANNOVAR、Bedtools,今天回答了这个问题,感觉excel也可以做基因注释了。下面,对我的回答进行进一步的阐述。原创 2024-09-30 17:51:45 · 1246 阅读 · 0 评论 -
GWAS分析中PCA分层不明显怎么办?你秀什么优越感?
但是,因为样本量很小,勉强将这些群体放在一起,但是这些分层的群体,分层之间的效应一定要去除,这和试验设计中设置区组,然后分解出区组效应是一样一样的,都是为了降低外在因素的影响,降低系统性误差!如果你的群体分层严重,但是你没有考虑PCA,没有将PCA放到模型中,那就惨啦,模型结果不靠谱,你看到的显著性位点大都是假阳性,都是由于群体分层导致的,考虑PCA效果会好一点。讲真,GWAS分析中,群体结构分层明显的群体,真不如没有分层的群体,毕竟,好好的群体本来就在一起,不是挺好吗。分得很开,好像才算正常的结果!原创 2024-09-29 12:38:44 · 293 阅读 · 0 评论 -
IBS和IBD的区别和计算方法介绍
系谱计算的是IBD,同胞,半同胞,表兄弟,都是有亲戚关系的,他们性格,长相相似,是有依据的,因为他们由IBD计算的血缘相似性较高。根据SNP或者SSR计算的是IBS,虽然两个人没有亲戚,但依旧有很高的相似性(比如长相,性格,体型,爱好等),这说明两者的IBS计算的相似性较高。,怎么推断呢,比如0.25是半同胞,0.5是全同胞或者亲子关系,写到这里,我突然想到,人类的亲疏是根据IBD划分的,亲子关系和同父母的兄弟姐妹的IBD都是0.5,应该是人类中最亲的关系了。同样的道理,如果是SNP数据计算的G矩阵(原创 2024-09-08 09:24:40 · 640 阅读 · 0 评论 -
R语言迅速计算多基因评分(PRS)
GWAS分析结果中,有每个SNP的beta值、se值、P值,因为GWAS分析中将SNP变为0-1-2编码,所以这些显著的SNP的beta值,就可以用于预测。个体3的多基因评分为:0.6 + 0.4 + -0.1 = 0.9。个体2的多基因评分为:0.3 + 0 + -0.1 = 0.2。不会安装使用PRSice-2软件就太不讲究了。多基因风险预测模型2–相关概念和软件。多基因风险预测模型1–先立Flag。那么个体1的多基因评分为:0。原创 2024-03-21 21:24:48 · 1227 阅读 · 0 评论 -
关于遗传力常见的误解
正确的解释:遗传力为0.4,就意味着表型变异中有40%是由基因型变异决定的。原创 2024-03-11 21:04:32 · 1529 阅读 · 0 评论 -
GWAS软件:GEMMA的安装和使用教程
GCTA和GEMMA是GWAS分析中应用最广泛的两款软件,GCTA可以在Windows电脑下运行,而GEMMA软件只有Linux和Mac系统,这里介绍一下如何在Linux系统中安装GEMMA软件。。原创 2023-11-01 20:08:34 · 4761 阅读 · 1 评论 -
GWAS软件包:GAPIT3它来啦
GAPIT是一款非常老的而且非常流行的软件包,傻瓜式操作,一键出图出结果,一篮子的解决方案,是我最经常使用的GWAS分析软件包。最近,GAPIT现在的版本是GAPIT3,速度比第二版有较大的提升:更大的变化,终于有GAPIT这个软件包了,可以用library载入进去,而且安装方式可以用github安装,更符合R-style。原创 2023-10-25 21:40:55 · 1043 阅读 · 3 评论 -
plink分析100个性状的批量gwas分析
大家好,我是邓飞。GWAS分析时,3~5个性状是正常操作,要分析100个性状呢,手动修改参数,工作量是够了,但是程序员的修养体现在哪里了???如果还是按照每个性状一个文件夹,每个文件夹中一个脚本,不断地修改脚本,一点也不高端,所以,遇到这种情况,批量处理就派上用场了。之所以之前一直不用,因为10个性状一下,没有必要,费心思想还不如直接动手操作了,但是100个性状真的吓到我了,不满足才能有进步。就看了一下参数说明,然后五分钟搞定了。原创 2023-10-18 21:01:39 · 750 阅读 · 0 评论 -
vcf 文件如何修改染色体修改样本名称提取样本
大家好,我是邓飞。用到的软件是bcftools,用到的系统是Linux。原创 2023-10-10 22:25:16 · 1277 阅读 · 1 评论 -
liftOver 不同版本基因组文件相互转化
大家好,我是邓飞。前一段时间有小伙伴在星球提问:想将不同版本的SNP数据合并,不想重新call snp,想把绵羊的V2和V4版本的数据合并,具体来说,是V2转为V4然后与V4合并。我建议用liftOver软件进行处理,并许诺写篇博客介绍一下。还有小伙伴想把1.2的参考基因组,变为3.1的,问我如何处理,我还是建议用liftOver,在线网站也可以解决,但是本地编程更快一些。原创 2023-05-30 22:12:47 · 1720 阅读 · 0 评论 -
GWAS分析中的GO和KEGG富集分析
上一次,我们介绍如何根据显著性snp,使用bedtools根据上下游距离,根据gff文件注释基因。这一次,介绍一下如何根据注释的基因,进行富集分析,主要是看一下GWAS定位的基因有没有某一个趋势,也算是一种验证的方法。比如籽粒大小找到的30个候选基因,如果都与籽粒发育相关的生化途径一致,那就说明找到的都是相关的基因。原创 2023-05-20 17:55:24 · 1502 阅读 · 0 评论 -
多个plink文件合并方法
大家好,我是邓飞,这里总结一下多个plink文件合并的问题。所以,这里也分为两种方法总结一下。原创 2023-03-21 20:34:53 · 3442 阅读 · 5 评论 -
第三篇:Haploview做单倍型教程3--结果解读
大家好,我是邓飞,这里介绍一下如何使用Haploview进行单倍型的分析。今天是第三篇。原创 2023-01-26 20:43:09 · 3899 阅读 · 0 评论 -
第二篇:Haploview做单倍型教程2--分析教程
大家好,我是邓飞,这里介绍一下如何使用Haploview进行单倍型的分析。今天是第二篇。原创 2023-01-26 09:30:20 · 4861 阅读 · 1 评论 -
GWAS分析中曼哈顿图如何显示SNP信息
GWAS分析中,曼哈顿图如何显示SNP的名称。原创 2023-01-11 20:30:17 · 1659 阅读 · 2 评论 -
Haploview做单倍型教程1--软件安装
大家好,我是邓飞,这里介绍一下如何使用Haploview进行单倍型的分析。今天是第一篇。下面是Haploview做的结果:下面是LDblockShow做的结果:两者结果是一致的。原创 2022-12-29 20:39:42 · 3265 阅读 · 0 评论 -
plink中的BGEN格式的数据如何用
现代遗传关联研究通常使用数万至数十万个体的数据,这些数据是全基因组数千万标记的基因分型或估算的。基于这些数据的文本表示的传统数据格式(如IMPUTE输出的GEN格式或变量调用格式)有时不太适合这些数据量。事实上,对于简单的程序,解析这些格式所花费的时间可以支配程序执行时间。本页介绍了二进制GEN文件格式(“BGEN”格式),旨在解决这些问题。BGEN是一种稳健的格式,其设计具有特定的混合特性,我们认为这对此类研究很有用。它的目标是用于大型、潜在的遗传数据集。主要功能包括:存储直接输入和输入数据的能力。原创 2022-12-08 19:50:44 · 2594 阅读 · 1 评论 -
plink2.0和plink1.9的忧伤笔记
虽然plink2.0已经存在好久了,但是一直用的都是plink1.9,因为语法熟悉。更主要是plink2.0语法变动太大,害怕步子迈得太大了……今天看一下plink2.0的读入和输出数据常用参数,plink2.0用是不会用的,2022年都不会用!!!但是碰到bgen,pgen数据进行转化为bed,bim,fam文件,然后用plink1.9使用的想法还是有的,而且很大!!!本篇目的:使用plink2.0软件将下面格式随便输入、输出。原创 2022-12-01 19:22:37 · 3421 阅读 · 0 评论 -
plink如何更新表型数据
大家好,我是邓飞。平时在分析时,也有时候需要将外部准备好的数据,更新到plink数据中。plink有两种格式类型,二进制文件(bed,bim,fam)在fam文件的第六列,文本文件(ped,map)在ped文件的第六列。数据量小时,可以用excel打开,直接手动增加,如果数据量大,就需要编程实现,比如R语言,Perl或者Python。其实,plink自己有一个参数,可以自动更新表型数据,只需要将所要更新的表型数据准备好就行了。下面介绍一下操作流程。原创 2022-11-13 09:30:02 · 3063 阅读 · 0 评论 -
主成分分析PCA并给出解释百分比
出图:包括PC1和PC2的散点图,以及PC1和PC2的解释百分比。原创 2022-11-09 19:50:49 · 6832 阅读 · 0 评论 -
GWAS中的effect与数量遗传学中的替换效应
虽然,我早就知道GWAS分析中的effect值,就是数量遗传学的基因中的替换效应,但是一直没有仔细阅读相关材料。今天通过阅读数量遗传学的教程,理解了这个概念,真好。原创 2022-11-08 22:57:56 · 2136 阅读 · 0 评论 -
计算连续性状的PRS得分
对于动植物育种而言,我之前写过PRS和MAS以及GS的关系,有老师评论说PRS更类似GS,因为它可以利用已有的GWAS信息,直接预测候选群的表型,如果按照动植物的GS方法,几十万几百万的样本做GS显然不现实,而PRS提供了这种思路,就可以利用已有的GWAS结果,通过一些质控,来预测候选群的表现(目标群体的风险得分)。当然,这里的PRS,是多基因风险得分,是预测疾病的表现,而PGS(多基因得分)更中性一点。相对于MAS和GS,PRS模型,可以考虑位点的LD质控,特别是位点少的MAS,更准确。原创 2022-11-07 19:30:17 · 1104 阅读 · 0 评论 -
基因注释:区间范围匹配
大家好,我是邓飞。今天,有老师问我一个问题,如果从一个区间匹配到另一个的区间范围,并找出来。我觉得比较有代表性,就写篇博客总结一下。图1是SNP的上下游区间,图2是基因的上下游区间,想以图1为标准,将区间内有基因的行放到右边。原创 2022-11-06 12:27:47 · 1020 阅读 · 0 评论 -
一文搞定基因型数据清洗
如果想要把表型数据和基因型数据合并,需要整理的表型格式:FID,IID,y三列。plink将vcf文件变为plink的二进制文件(bed和bim和fam)。如果对其进行质控,用–maf 0.01,会去掉maf小于0.01的位点。《统计遗传学》中的章节介绍,有关代码实操部分,单独列出来,进行展示。缺失包括样本缺失率统计和位点缺失率统计。这里介绍一下常用的基因型数据清洗方法。查看基因频率的统计结果,用–freq。可以看到,已经合并成功了。查看结果,结果文件是。原创 2022-11-01 20:00:14 · 1401 阅读 · 0 评论 -
LDblock绘制连锁不平衡和单体型图
大家好,我是邓飞。在GWAS分析中,我们挖掘到了一些显著性的位点,如何确定这些位点是不是假阳性呢?我们可以通过LDblock分析并进行可视化进行判断。我们知道GWAS分析中是依据SNP与性状控制的基因存在LD,所以如果位点显著,则周围应该有一些位点都显著,或者说位点所在的区域LD值比较高,能形成Block,才比较靠谱。否则,显著性为点形单影只,并且没有形成Block,极大可能是假阳性!下面介绍如何通过基因型数据和GWAS分析结果,绘制LDblock。软件介绍:(这两款神奇是一人开发,大神呀!)原创 2022-11-01 19:59:38 · 8256 阅读 · 1 评论 -
如何使用plink进行二分类性状的GWAS分析并计算PRS得分
这篇博客,用之前GWAS教程中的示例数据,把数据分为Base数据和Target数据,通过plink运行二分类的logistic模型进行GWAS分析,然后通过PRSice-2软件,进行PRS分析。最终,选出最优SNP组合,并计算Target的PRS得分,主要结果如下:最适合的SNP个数是133个,R2位0.232258,P值为0.014上面数据中,个体的PRS为正值,说明风险高,为负值,说明风险低。正文数据使用GWAS分析教程中的数据。原创 2022-10-31 20:00:12 · 3348 阅读 · 2 评论 -
使用bedtools进行gwas基因注释
软件github地址:https://github.com/arq5x/bedtools2/比较好的介绍文档:https://www.jieandze1314.com/post/cnposts/151/总的来说,bedtools实用工具是一把瑞士军刀,用于广泛的基因组学分析任务。最广泛使用的工具支持基因组算法:即基因组集合论。例如,bedtools允许人们以广泛使用的基因组文件格式(如BAM、BED、GFF/GTF、VCF)从多个文件中交叉、合并、计数、补充和混洗基因组间隔。原创 2022-10-31 19:59:39 · 3079 阅读 · 0 评论 -
R包clusterProfiler如何安装成功
里面有些坑,写篇博客介绍一下。R包是生物信息分析汇总,基因富集分析可视化经常用到的R包,但是安装时,新手经常会遇到一些问题,这里简单总结一下。原创 2022-10-26 19:14:14 · 12926 阅读 · 1 评论 -
LD衰减图绘制--PopLDdecay
大家好,我是邓飞。GWAS中LD衰减图,可以形象的查看群体LD衰减的情况。LD衰减是由于连锁不平衡所致,LD衰减速度在不同物种或者不同亚种中差异不同,通常用LD衰减到一般的距离来作为群体的衰减距离(还有其它计算方法),如果LD衰减很快,则在进行GWAS分析时需要更多的位点才能达到一定的精度(https://blog.csdn.net/yijiaobani/article/details/122812786)。原创 2022-10-26 18:39:00 · 6013 阅读 · 0 评论 -
多个性状的曼哈顿图合并如何做?
同一个性状,在不同的环境中定位了GWAS显著性位点,想着曼哈顿图上看一下相关趋势,将不同环境的结果合并在一起,用不同的颜色表示,更直观。多个性状,有遗传相关,通过合并曼哈顿图的形式,展示趋势,更直观。原创 2022-10-24 19:32:23 · 2166 阅读 · 2 评论 -
一张图介绍PRS的计算步骤
查看了一下博客和文献,把我的理解总结一下。PRS是多基因风险评分,下面介绍一下它处理的步骤。原创 2022-10-22 18:55:30 · 2606 阅读 · 0 评论 -
SNP密度图绘制
本文绘制这种图:每个SNP在染色体上的分布图,也称为SNP密度图,不同的颜色表示1Mb内包含的SNP个数。原创 2022-09-02 20:11:16 · 6535 阅读 · 1 评论 -
TASSEL软件导入plink格式文件报错
之前介绍过Excel的SNP数据(Excel格式的SNP数据怎么变为plink格式),转为plink的方法,如果要导入plink格式中,会报错:报错:显示超过区间problem: string index out of range: 30 file因为plink编码的是AA TT的格式,变为A A T T的格式才可以。报错的plink数据:可以看到GG CC两个是连续的。用--recode处理一下,变为test再进行读取:plink --file file --recode --out t原创 2022-08-08 08:37:13 · 721 阅读 · 0 评论 -
基因对疾病的影响规律--读论文
我们对疾病遗传基础的理解已经从对总体遗传力或家族性的描述发展到对大量风险位点的识别。人们可以使用大量的测量方法来量化这些基因位点对疾病的影响,这些方法可以指导新实验的决策,例如,是专注于已识别的变异的生物学还是花更多的精力去发现新的变异。然而,不同的度量方法可以赋予一个变量不同的重要性。...原创 2022-08-06 10:00:40 · 814 阅读 · 0 评论 -
人类微生物组和缺失遗传力--读论文
缺失遗传力”问题表明,全基因组关联研究中的遗传变异不能完全解释复杂性状的遗传力。传统上,表型的遗传力是通过对双胞胎、兄弟姐妹和其他近亲的家族研究来衡量的,并假设他们之间的遗传相似性。当将该遗传力与通过GWAS获得的相同性状的遗传力进行比较时,两个测量值之间出现了很大差距,全基因组研究报告的值明显较小。已经提出了这种“缺失遗传力”的几种机制,如表观遗传学、上位性和测序深度。然而,它们都不能完全解释这种遗传力差距。...原创 2022-08-06 10:00:20 · 737 阅读 · 0 评论 -
遗传力缺失的案例
在研究人员寻找遗传性的过程中,有一种挥之不去的担忧:常见疾病实际上可能并不常见。医学试图把一系列复杂的症状混为一谈,称之为疾病。但是,如果数千种罕见的基因变异导致了一种疾病,而基因基础对不同的人可能有根本的不同,这有多普遍呢?这些实际上是不同的疾病吗?GW AS实际上可能被证明如此困难,因为研究人员正在一群可能共享很少(如果有的话)的人中寻找共享的易感基因。然而,如果对遗传学没有更深入的了解,就不可能对它们进行更好的分类。“这可能是罕见的变异,常见的疾病。这对人们来说有点可怕,因为很难找到这些东西。...原创 2022-08-06 09:59:48 · 519 阅读 · 0 评论 -
统计遗传学:第五章,多基因评分PGS
大多数表型和健康状况的遗传结构本质上是多基因的。多基因指的是这样一个事实,即它不是单个或少数变体,而是数百或数千个变体,每个变体对表型的影响都很小。虽然有些单基因疾病如亨廷顿病具有单基因效应,但我们研究的大多数性状都是多基因的。随着全基因组关联研究(GWASs)和更大样本的增长,PGSs越来越成为定量遗传研究领域的主要工具。本章的目的首先是让您了解多基因得分、它们是如何出现的,以及有效应用它们的核心挑战和潜在解决方案。第二个目标是为您提供如何在该领域开展自己研究的蓝图。...原创 2022-08-04 18:08:27 · 2346 阅读 · 0 评论 -
统计遗传学:第四章,GWAS分析
大家好,我是飞哥。前几天推荐了这本书,可以领取pdf和配套数据代码。这里,我将各个章节介绍一下,总结也是学习的过程。引文部分是原书的谷歌翻译,正文部分是我的理解。第一章:基因组基础概念(这部分介绍过了,点击进入)第二章:统计分析概念第三章:群体遗传学第四章:GWAS分析介绍第五章:多基因效应第六章:基因与环境互作随着基因分型技术的发展、成本的降低和先进数据分析方法的发展,遗传关联研究的设计在过去几十年中发生了巨大的变化。...原创 2022-08-04 18:08:07 · 4106 阅读 · 0 评论 -
消失的遗传力的进一步剖分及应用
Chip heritability,是通过REML估计的遗传力,使用的是全部SNP数据,比如GCTA、asreml中的GBLUP,估计的遗传力都属于此,对应的是SNP遗传力。比如,如果身高的遗传力是0.8,但是GWAS分析中显著性的SNP只解释了45%的变异(遗传力为0.45),这样还是有0.35的遗传力丢失了,这就叫做丢失的遗传力。(泛基因组的应用区间)而如果一个性状的遗传力,降低了消失的遗传力,是的可以操作的部分增加了,那么就会提升估计的准确性,加大了选择相应,增加了选择的效率。...原创 2022-08-02 19:02:04 · 552 阅读 · 0 评论 -
xlsx文件的SNP数据转为plink常见问题
之前写过两篇Excle数据转为plink的格式:这里介绍一下常见的问题以及解决方法。测序公司给的是xls或者xlsx格式的数据,数据的格式如下:这里,每一行是一个SNP,每一列是一个样本。代码的逻辑:第一,读取数据第二,整理为map数据第三,整理为ped数据第四,保存为plink的格式注意,这里的缺失定义为,后面需要通过sed命令,将其转为00字符。map数据:ped数据:如果没有报错,就转化成功了。这个一版是map和ped数据不匹配,可以通过R中的map和map查看一下什么情况:原创 2022-07-07 21:37:12 · 2149 阅读 · 0 评论