自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

邓飞----育种数据分析之放飞自我

育种数据分析 遗传参数评估 生物统计 全基因组选择

  • 博客(523)
  • 资源 (1)
  • 问答 (1)
  • 收藏
  • 关注

原创 PRS中增加PCA 1-10如何操作

PRS就是多基因风险评分模型,它根据GWAS已经挖掘的结果(GWAS结果,gwas summary),然后使用自己的数据,选择合适的位点,进行个体的风险得分预测。收集已有的gwas summary结果整理自己的snp分型和表型数据进行PRS计算。

2022-11-13 09:57:32 737

原创 plink如何更新表型数据

大家好,我是邓飞。平时在分析时,也有时候需要将外部准备好的数据,更新到plink数据中。plink有两种格式类型,二进制文件(bed,bim,fam)在fam文件的第六列,文本文件(ped,map)在ped文件的第六列。数据量小时,可以用excel打开,直接手动增加,如果数据量大,就需要编程实现,比如R语言,Perl或者Python。其实,plink自己有一个参数,可以自动更新表型数据,只需要将所要更新的表型数据准备好就行了。下面介绍一下操作流程。

2022-11-13 09:30:02 2921

原创 主成分分析PCA并给出解释百分比

出图:包括PC1和PC2的散点图,以及PC1和PC2的解释百分比。

2022-11-09 19:50:49 6596

原创 GWAS中的effect与数量遗传学中的替换效应

虽然,我早就知道GWAS分析中的effect值,就是数量遗传学的基因中的替换效应,但是一直没有仔细阅读相关材料。今天通过阅读数量遗传学的教程,理解了这个概念,真好。

2022-11-08 22:57:56 2068

原创 计算连续性状的PRS得分

对于动植物育种而言,我之前写过PRS和MAS以及GS的关系,有老师评论说PRS更类似GS,因为它可以利用已有的GWAS信息,直接预测候选群的表型,如果按照动植物的GS方法,几十万几百万的样本做GS显然不现实,而PRS提供了这种思路,就可以利用已有的GWAS结果,通过一些质控,来预测候选群的表现(目标群体的风险得分)。当然,这里的PRS,是多基因风险得分,是预测疾病的表现,而PGS(多基因得分)更中性一点。相对于MAS和GS,PRS模型,可以考虑位点的LD质控,特别是位点少的MAS,更准确。

2022-11-07 19:30:17 1061

原创 基因注释:区间范围匹配

大家好,我是邓飞。今天,有老师问我一个问题,如果从一个区间匹配到另一个的区间范围,并找出来。我觉得比较有代表性,就写篇博客总结一下。图1是SNP的上下游区间,图2是基因的上下游区间,想以图1为标准,将区间内有基因的行放到右边。

2022-11-06 12:27:47 976

原创 基因组选择中的参考群更新策略

基因组选择(GS)通常用于家畜,越来越多地用于植物育种。根据参考群体的表型和基因型,GS允许对只有基因型的年轻个体进行性能预测。这有望实现快速的高遗传增益,但可能会失去遗传多样性。现有的保护遗传多样性的方法主要取决于育种个体的选择。在本研究中,我们建议修改参考种群组成,以减轻多样性损失。由于表型的高成本是GS的限制因素,我们的发现具有重大的经济意义。这项研究旨在回答以下问题:关于参考种群的决定将如何影响繁殖种群,以及如何最佳选择个体以更新参考种群,并平衡最大化遗传增益和最小化遗传多样性损失?

2022-11-03 19:11:51 970

原创 一文搞定基因型数据清洗

如果想要把表型数据和基因型数据合并,需要整理的表型格式:FID,IID,y三列。plink将vcf文件变为plink的二进制文件(bed和bim和fam)。如果对其进行质控,用–maf 0.01,会去掉maf小于0.01的位点。《统计遗传学》中的章节介绍,有关代码实操部分,单独列出来,进行展示。缺失包括样本缺失率统计和位点缺失率统计。这里介绍一下常用的基因型数据清洗方法。查看基因频率的统计结果,用–freq。可以看到,已经合并成功了。查看结果,结果文件是。

2022-11-01 20:00:14 1351

原创 LDblock绘制连锁不平衡和单体型图

大家好,我是邓飞。在GWAS分析中,我们挖掘到了一些显著性的位点,如何确定这些位点是不是假阳性呢?我们可以通过LDblock分析并进行可视化进行判断。我们知道GWAS分析中是依据SNP与性状控制的基因存在LD,所以如果位点显著,则周围应该有一些位点都显著,或者说位点所在的区域LD值比较高,能形成Block,才比较靠谱。否则,显著性为点形单影只,并且没有形成Block,极大可能是假阳性!下面介绍如何通过基因型数据和GWAS分析结果,绘制LDblock。软件介绍:(这两款神奇是一人开发,大神呀!)

2022-11-01 19:59:38 7687 1

原创 如何使用plink进行二分类性状的GWAS分析并计算PRS得分

这篇博客,用之前GWAS教程中的示例数据,把数据分为Base数据和Target数据,通过plink运行二分类的logistic模型进行GWAS分析,然后通过PRSice-2软件,进行PRS分析。最终,选出最优SNP组合,并计算Target的PRS得分,主要结果如下:最适合的SNP个数是133个,R2位0.232258,P值为0.014上面数据中,个体的PRS为正值,说明风险高,为负值,说明风险低。正文数据使用GWAS分析教程中的数据。

2022-10-31 20:00:12 3181 2

原创 使用bedtools进行gwas基因注释

软件github地址:https://github.com/arq5x/bedtools2/比较好的介绍文档:https://www.jieandze1314.com/post/cnposts/151/总的来说,bedtools实用工具是一把瑞士军刀,用于广泛的基因组学分析任务。最广泛使用的工具支持基因组算法:即基因组集合论。例如,bedtools允许人们以广泛使用的基因组文件格式(如BAM、BED、GFF/GTF、VCF)从多个文件中交叉、合并、计数、补充和混洗基因组间隔。

2022-10-31 19:59:39 2955

原创 R包clusterProfiler如何安装成功

里面有些坑,写篇博客介绍一下。R包是生物信息分析汇总,基因富集分析可视化经常用到的R包,但是安装时,新手经常会遇到一些问题,这里简单总结一下。

2022-10-26 19:14:14 12313 1

原创 LD衰减图绘制--PopLDdecay

大家好,我是邓飞。GWAS中LD衰减图,可以形象的查看群体LD衰减的情况。LD衰减是由于连锁不平衡所致,LD衰减速度在不同物种或者不同亚种中差异不同,通常用LD衰减到一般的距离来作为群体的衰减距离(还有其它计算方法),如果LD衰减很快,则在进行GWAS分析时需要更多的位点才能达到一定的精度(https://blog.csdn.net/yijiaobani/article/details/122812786)。

2022-10-26 18:39:00 5745

原创 多个性状的曼哈顿图合并如何做?

同一个性状,在不同的环境中定位了GWAS显著性位点,想着曼哈顿图上看一下相关趋势,将不同环境的结果合并在一起,用不同的颜色表示,更直观。多个性状,有遗传相关,通过合并曼哈顿图的形式,展示趋势,更直观。

2022-10-24 19:32:23 2061 2

原创 一张图介绍PRS的计算步骤

查看了一下博客和文献,把我的理解总结一下。PRS是多基因风险评分,下面介绍一下它处理的步骤。

2022-10-22 18:55:30 2515

原创 PRSice-2软件安装教程

二进制文件,直接运行即可。核心计算文件,计算PRS。Base file,基础文件,可以根据指定a1,a2,maf,beta,bp,chr,pvalue等信息Target file,目标文件,支持plink二进制文件,可以定义表型,maf质控等Dosage,主要是定义运行的资源配置,比如线程、硬盘、内存等(可以省略)Clumping,主要是质控Clumping参数,有默认值(可以省略)Covariates,定义协变量,包括数字协变量和因子协变量。

2022-10-21 21:15:21 1967

原创 多基因风险预测模型2--相关概念和软件

计算PRS时,设计到的概念和常用的软件,这里整理一下。

2022-10-13 22:01:32 1329

原创 多基因风险预测模型1--先立Flag

在非吸烟者中,高遗传风险人群同样具备筛查价值,建议遗传风险最高的1%人群从62岁起进行肺癌筛查,而对于遗传风险最低的5%人群,当年龄达到74岁时才可达到参考届值。但是动植物现在我都有接触,发现共同点,理解不同点,算是上路了,但是对于人类的数据分析,比如多基因风险预测模型和孟德尔随机化分析,也是朦朦胧胧,学习起来也是倍感吃力,屡次想放弃。综合起来,就是当你的年龄是多少,吸烟量是多少,基因分型的是什么,最后预测你5年患癌症的概率是多少,概率高的话就是高危人群,建议戒烟或者降低吸烟量,定期体检……

2022-10-11 19:21:04 454

原创 vcftools如何在Linux系统中安装

这里,记录一下vcftools的安装教程。https://vcftools.github.io/examples.html下载到本地,上传到服务器中。2. 解压缩 unzip vcftools-vcftools-v0.1.16-18-g581c231.zip cd vcftools-vcftools-581c231/3. 安装 bash autogen.sh./configure makemake install安装完成日志: /usr/bin/mkdir -p

2022-09-25 21:01:03 1404 1

原创 如何引用R语言以及R包:文献引用

p_cite和p_citation都可以用,包的名称加不加引号都可以用,更人性化一点。数据分析中经常使用R语言以及相关R包,写文章时就需要引用。注意,函数中什么参数都不添加,会返回R语言的版本和相关信息。LaTeX的用户的BibTeX条目是。

2022-09-25 19:16:32 5890

原创 SNP密度图绘制

本文绘制这种图:每个SNP在染色体上的分布图,也称为SNP密度图,不同的颜色表示1Mb内包含的SNP个数。

2022-09-02 20:11:16 6201 1

原创 R语言3.6版本安装ggplot2报错解决方法

现在最新的R版本是4.2.1,因为有些包只能运行在3.6版本中,因此我需要安装3.6,这里安装常用的ggplot2时报错了,总结一下问题解决的方法。继续安装pillar,编译安装,安装成功后,继续安装ggplot2,如果哪个包报错,就安装哪个包。看起来,主要是因为rlange这个包版本太低,应该是大于1.0.0,现在是0.4.11.可以看到,我的R版本是3.6.3,ggplot2的版本是3.3.6,搞定!可以看到,上面的R版本是3.6.3,rlang的版本是1.0.1,搞定。

2022-08-22 18:34:41 8159 1

原创 根据系谱数据查看个体间关系

当然,上面品种较多,可视化不太直观,如果挑选出感兴趣的少数个体(比如20~50个),用上面的方法是非常方便的。首先,这是三列系谱数据,我们需要将其转为15列系谱数据,包括每个个体的三个世代的数据。邓老师,想问一下如何根据猪场子代父母代数据找出它们之间的系谱关系图呢,最好是方便统计的那种。相关的数据和代码,我上传到了我的知识星球,欢迎感兴趣的小伙伴下载使用。上一步中,得到的系谱还有937条,我们对着937条系谱进行可视化。以上就是根据系谱查看个体间关系的三种方法,希望对大家有所帮助。系谱可视化,可以使用。..

2022-08-11 09:31:34 518

原创 钉钉与RStudio快捷方式冲突--钉钉快捷键设置

在Rstudio中,Ctrl+Shift+D是复制代码行。更新钉钉后,发现Ctrl+Shift+D是打开钉钉的窗口,在Rstudio中按快捷键,就打开了钉钉……酸爽。下面介绍一下如何取消钉钉的快捷键:1,打开钉钉2,点击个人头像,进入设置3,翻到最后找到快捷键设置,去除就可以了。666......

2022-08-08 08:52:42 449

原创 数量遗传学遗传力计算2:半同胞和全同胞

1. 半同胞2. 全同胞3. 同卵双胞胎汇总:

2022-08-08 08:38:56 2012

原创 数量遗传学遗传力计算1:亲子回归方法

遗传力定义遗传力是育种值对表型值的回归系数。遗传力,是育种值与表型值相关系数的平方。1. 后代与一个亲本方差组分的计算:2. 后代与中亲值方差组分:这样,计算的斜率就是遗传力和标准误。......

2022-08-08 08:38:01 936

原创 TASSEL软件导入plink格式文件报错

之前介绍过Excel的SNP数据(Excel格式的SNP数据怎么变为plink格式),转为plink的方法,如果要导入plink格式中,会报错:报错:显示超过区间problem: string index out of range: 30 file因为plink编码的是AA TT的格式,变为A A T T的格式才可以。报错的plink数据:可以看到GG CC两个是连续的。用--recode处理一下,变为test再进行读取:plink --file file --recode --out t

2022-08-08 08:37:13 683

原创 基因对疾病的影响规律--读论文

我们对疾病遗传基础的理解已经从对总体遗传力或家族性的描述发展到对大量风险位点的识别。人们可以使用大量的测量方法来量化这些基因位点对疾病的影响,这些方法可以指导新实验的决策,例如,是专注于已识别的变异的生物学还是花更多的精力去发现新的变异。然而,不同的度量方法可以赋予一个变量不同的重要性。...

2022-08-06 10:00:40 783

原创 人类微生物组和缺失遗传力--读论文

缺失遗传力”问题表明,全基因组关联研究中的遗传变异不能完全解释复杂性状的遗传力。传统上,表型的遗传力是通过对双胞胎、兄弟姐妹和其他近亲的家族研究来衡量的,并假设他们之间的遗传相似性。当将该遗传力与通过GWAS获得的相同性状的遗传力进行比较时,两个测量值之间出现了很大差距,全基因组研究报告的值明显较小。已经提出了这种“缺失遗传力”的几种机制,如表观遗传学、上位性和测序深度。然而,它们都不能完全解释这种遗传力差距。...

2022-08-06 10:00:20 712

原创 遗传力缺失的案例

在研究人员寻找遗传性的过程中,有一种挥之不去的担忧:常见疾病实际上可能并不常见。医学试图把一系列复杂的症状混为一谈,称之为疾病。但是,如果数千种罕见的基因变异导致了一种疾病,而基因基础对不同的人可能有根本的不同,这有多普遍呢?这些实际上是不同的疾病吗?GW AS实际上可能被证明如此困难,因为研究人员正在一群可能共享很少(如果有的话)的人中寻找共享的易感基因。然而,如果对遗传学没有更深入的了解,就不可能对它们进行更好的分类。“这可能是罕见的变异,常见的疾病。这对人们来说有点可怕,因为很难找到这些东西。...

2022-08-06 09:59:48 506

原创 消失的遗传力--wiki

缺失遗传力”问题,是一个事实,即单个遗传变异不能解释疾病、行为和其他表型的遗传力。这是一个对医学有重大影响的问题,因为一个人对疾病的易感性可能更多地取决于“背景中所有基因的综合效应,而不是前景中的疾病基因”,或者基因的作用可能被严重高估。前景中的疾病基因,应该是个体所具有的分型。背景应该是群体具有的分型。...

2022-08-05 19:22:45 294

原创 统计遗传学:第五章,多基因评分PGS

大多数表型和健康状况的遗传结构本质上是多基因的。多基因指的是这样一个事实,即它不是单个或少数变体,而是数百或数千个变体,每个变体对表型的影响都很小。虽然有些单基因疾病如亨廷顿病具有单基因效应,但我们研究的大多数性状都是多基因的。随着全基因组关联研究(GWASs)和更大样本的增长,PGSs越来越成为定量遗传研究领域的主要工具。本章的目的首先是让您了解多基因得分、它们是如何出现的,以及有效应用它们的核心挑战和潜在解决方案。第二个目标是为您提供如何在该领域开展自己研究的蓝图。...

2022-08-04 18:08:27 2279

原创 统计遗传学:第四章,GWAS分析

大家好,我是飞哥。前几天推荐了这本书,可以领取pdf和配套数据代码。这里,我将各个章节介绍一下,总结也是学习的过程。引文部分是原书的谷歌翻译,正文部分是我的理解。第一章:基因组基础概念(这部分介绍过了,点击进入)第二章:统计分析概念第三章:群体遗传学第四章:GWAS分析介绍第五章:多基因效应第六章:基因与环境互作随着基因分型技术的发展、成本的降低和先进数据分析方法的发展,遗传关联研究的设计在过去几十年中发生了巨大的变化。...

2022-08-04 18:08:07 4032

原创 如何科学预测后代的身高

否者环境的效应为负,那就达不到理论身高了,误差是负的。如果成千上万的亲子身高数据,我们就可以观测到回归的现象,就是高尔顿所观测到的高的父母,后代会低于父母的平均值,低的父母,会高于父母的平均值。对于第二个,这是随机的,但是可以通过基因分型检测出来孟德尔抽样,也就是在孩子小的时候就可以检测出来像父亲还是像母亲,这样身高贡献时可能父母就是不是对半分了,而是父亲的0.6,母亲的0.4,或者反之。这就是遗传力,遗传力越高,说明受遗传的因素越高,遗传力越低,说明受遗传的因素越小,受环境的影响因素越大。......

2022-08-04 18:07:08 5455 2

原创 全同胞家系如何计算遗传力及育种值

全同胞家系,由同父同母所生子女的集合体称为全同胞家系。比如父本是A1,A2,A3,母本是B1,B2,B3,如果A1B1,A2A1*B1,有10个后代,分别是:A1B1_1, A1B1_2……,A1B1_10,那么这10个后代为一个全同胞家系上面共有30个个体,属于3个全同胞家系。...

2022-08-04 18:06:20 1918 1

原创 消失的遗传力的进一步剖分及应用

Chip heritability,是通过REML估计的遗传力,使用的是全部SNP数据,比如GCTA、asreml中的GBLUP,估计的遗传力都属于此,对应的是SNP遗传力。比如,如果身高的遗传力是0.8,但是GWAS分析中显著性的SNP只解释了45%的变异(遗传力为0.45),这样还是有0.35的遗传力丢失了,这就叫做丢失的遗传力。(泛基因组的应用区间)而如果一个性状的遗传力,降低了消失的遗传力,是的可以操作的部分增加了,那么就会提升估计的准确性,加大了选择相应,增加了选择的效率。...

2022-08-02 19:02:04 527

原创 Error: grouping factors must have > 1 sampled level

报错:Error: grouping factors must have > 1 sampled level报错代码:分析一年多点数据,需要考虑地点和地点内区组,都用混合线性模型的随机因子。这里换为。正确的代码如下:方差组分结果:这样就搞定了!...

2022-07-13 19:16:27 1396 1

原创 vcftools 转为plink报错:Error: Could not open temporary file

想使用vcftools转为plink文件,这样plink的map文件有名称,可以一步到位。一般最简单的方法是:这里:但是今天报错了:问题解决本来上面的代码没有问题,修改一下系统的即可,比如修改为4000,然后再运行就不会出错了。然后在运行vcftools命令:搞定!...

2022-07-13 19:15:41 1005

原创 xlsx文件的SNP数据转为plink常见问题

之前写过两篇Excle数据转为plink的格式:这里介绍一下常见的问题以及解决方法。测序公司给的是xls或者xlsx格式的数据,数据的格式如下:这里,每一行是一个SNP,每一列是一个样本。代码的逻辑:第一,读取数据第二,整理为map数据第三,整理为ped数据第四,保存为plink的格式注意,这里的缺失定义为,后面需要通过sed命令,将其转为00字符。map数据:ped数据:如果没有报错,就转化成功了。这个一版是map和ped数据不匹配,可以通过R中的map和map查看一下什么情况:

2022-07-07 21:37:12 2042

原创 使用知云阅读器翻译统计遗传学书籍

这里,介绍一下阅读英文书籍,选种翻译的功能。在阅读网页版的英文资料时,可以通过安装沙拉翻译,选中英文,直接翻译:pdf在浏览器中打开,不支持选种翻译,这里使用知云,进行阅读翻译。https://www.zhiyunwenxian.cn/微信扫码登录:如果扫码没反应,就点击:其它功能–重新登录,多试几次就可以了。选种英文的段落,右边出现中文的翻译。整体中文结果不影响理解,可以大大加快阅读的速度。...

2022-07-06 22:32:25 433

DMU-遗传评估软件cookbook

遗传评估软件DMU的cookbook, 里面包括代码和示例运算.

2019-04-08

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除