自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

邓飞----育种数据分析之放飞自我

育种数据分析 遗传参数评估 生物统计 全基因组选择

  • 博客(514)
  • 资源 (1)
  • 问答 (1)
  • 收藏
  • 关注

原创 R语言迅速计算多基因评分(PRS)

GWAS分析结果中,有每个SNP的beta值、se值、P值,因为GWAS分析中将SNP变为0-1-2编码,所以这些显著的SNP的beta值,就可以用于预测。个体3的多基因评分为:0.6 + 0.4 + -0.1 = 0.9。个体2的多基因评分为:0.3 + 0 + -0.1 = 0.2。不会安装使用PRSice-2软件就太不讲究了。多基因风险预测模型2–相关概念和软件。多基因风险预测模型1–先立Flag。那么个体1的多基因评分为:0。

2024-03-21 21:24:48 631

原创 关于遗传力常见的误解

正确的解释:遗传力为0.4,就意味着表型变异中有40%是由基因型变异决定的。

2024-03-11 21:04:32 1245

原创 如何引用R语言版本以及R包版本

在分析数据时,我们需要引用R语言的特定版本,以及使用R包的版本,其实R语言中有代码可以调用,下面介绍一下。

2024-01-16 19:57:51 736

原创 GWAS软件:GEMMA的安装和使用教程

GCTA和GEMMA是GWAS分析中应用最广泛的两款软件,GCTA可以在​Windows电脑下运行,而GEMMA软件只有Linux和Mac系统,这里介绍一下如何在Linux系统中安装GEMMA软件。​。

2023-11-01 20:08:34 3387

原创 GWAS软件包:GAPIT3它来啦

GAPIT是一款非常老的而且非常流行的软件包,傻瓜式操作,一键出图出结果,一篮子的解决方案,是我最经常使用的GWAS分析软件包。最近,GAPIT现在的版本是GAPIT3,速度比第二版有较大的提升:更大的变化,终于有GAPIT这个软件包了,可以用library载入进去,而且安装方式可以用github安装,更符合R-style。

2023-10-25 21:40:55 616 3

原创 plink分析100个性状的批量gwas分析

大家好,我是邓飞。GWAS分析时,3~5个性状是正常操作,要分析100个性状呢,手动修改参数,工作量是够了,但是程序员的修养体现在哪里了???如果还是按照每个性状一个文件夹,每个文件夹中一个脚本,不断地修改脚本,一点也不高端,所以,遇到这种情况,批量处理就派上用场了。之所以之前一直不用,因为10个性状一下,没有必要,费心思想还不如直接动手操作了,但是100个性状真的吓到我了,不满足才能有进步。就看了一下参数说明,然后五分钟搞定了。

2023-10-18 21:01:39 521

原创 vcf 文件如何修改染色体修改样本名称提取样本

大家好,我是邓飞。用到的软件是bcftools,用到的系统是Linux。

2023-10-10 22:25:16 564

原创 围棋与育种

最近因为娃子报名了围棋课,我本着交一次课学两个人的态度,入门围棋,买了些书,听了些课,有所得。学了两个多月,现在6级水平,了解了基本的攻杀技巧,会判断输赢。下面截图是今天的一盘棋,执黑胜利27子。围棋作为最后被计算机攻克的棋牌类游戏,它的复杂度相对于其它游戏遥遥领先,之前没有接触过,一直感觉到高深莫测,也没有机会学习,这次入门围棋让我想到了很多,写篇博客介绍一下吧。

2023-08-27 22:54:47 494

原创 ldsc python程序安装以及测试

下一章节介绍ldsc的运行教程。貌似python没有配置好。这个bug后面博客更新。

2023-06-19 00:39:19 1766 2

原创 snpEFF和bedtools基因注释有何异同?

大家好,我是邓飞,现在写博客越来越繁琐了,每个平台对图片都有自己的规则,不能通用,各种找不到图片,本着充值是我变强的原则,买了Markdown Nice的VIP(https://product.mdnice.com/),据说实现了一键发布多个平台,而且有自己的图库,今天先水一篇,试试效果。snpEFF,输入文件是vcf格式,另外,他需要基因组数据和gff创建数据库(通用的物种官网有现成的,但是推荐自定义构建,不容易出错。snpEFF,主要是下机数据,vcf数据,运算速度快,给出每个SNP的信息。

2023-05-31 21:55:38 725 1

原创 liftOver 不同版本基因组文件相互转化

大家好,我是邓飞。前一段时间有小伙伴在星球提问:想将不同版本的SNP数据合并,不想重新call snp,想把绵羊的V2和V4版本的数据合并,具体来说,是V2转为V4然后与V4合并。我建议用liftOver软件进行处理,并许诺写篇博客介绍一下。还有小伙伴想把1.2的参考基因组,变为3.1的,问我如何处理,我还是建议用liftOver,在线网站也可以解决,但是本地编程更快一些。

2023-05-30 22:12:47 783

原创 tidyverse中filter行筛选时缺失值存在的一个坑

大家好,我是邓飞,好久没有更新博客了,是因为好久没有进步了。之前我认为鲁迅说的对,他在《野草》中写道:“当我沉默着的时候,我觉得充实;我将开口,同时感到空虚”。现在确切的情况是,当我停止更新时,我感到充实和无压力,然后越来越不想更新,最后发现没有什么可写的,一旦我想写点东西,就是特别空虚,腹中空空但是又开始大腹便便,好像肚子里没东西,但是都是肉,成年人的忧伤……

2023-05-29 20:51:42 775

原创 GWAS分析中的GO和KEGG富集分析

上一次,我们介绍如何根据显著性snp,使用bedtools根据上下游距离,根据gff文件注释基因。这一次,介绍一下如何根据注释的基因,进行富集分析,主要是看一下GWAS定位的基因有没有某一个趋势,也算是一种验证的方法。比如籽粒大小找到的30个候选基因,如果都与籽粒发育相关的生化途径一致,那就说明找到的都是相关的基因。

2023-05-20 17:55:24 1108

原创 win11 的winrar软件选项合并了如何展开

集成,去掉:层叠的关联菜单,然后点击确定。不习惯,想变为之前的风格。打开winrar软件。

2023-05-06 21:27:33 274

原创 如何使用new bing画图--ChatGPT4.0--2023-05-05

默认是更平衡(蓝色),如果想画画,需要设置为:更有创造力(红色的颜色),就可以了!

2023-05-05 09:13:50 2016

原创 多个plink文件合并方法

大家好,我是邓飞,这里总结一下多个plink文件合并的问题。所以,这里也分为两种方法总结一下。

2023-03-21 20:34:53 2450 4

原创 win11更新 中间多了个搜索 如何去掉

今天,windows11升级后,桌面下面的地方,出现了一个搜索框,很难看:下面介绍一下如何去掉。

2023-03-16 20:48:13 1059

原创 PRSice-2在windows系统安装教程

二进制文件,直接运行即可。核心计算文件,计算PRS。

2023-03-13 22:05:11 643 1

原创 new bing的chatGPT如何解析英文论文pdf

您好,这是必应。这篇文章的主要内容是利用单步基因组最佳线性无偏预测(ssGBLUP)方法来提高巨型淡水虾(Macrobrachium rosenbergii)体重的遗传评估效率。文章使用了410个基因分型的亲本和83,480个单核苷酸多态性(SNP)位点来估计体重的方差成分和遗传参数,并通过五折交叉验证(CV)来计算遗传值(EBV)和基因组遗传值(GEBV)的预测准确度。

2023-03-12 21:43:50 20081 3

原创 升级Rstudio后打不开我又退回旧版本了

然后,今天我的Rstudio打开后,是这一片空白,没有菜单,没有编程界面,什么都没有,比我的脸还干净。测试的时候,我发现能不能打开Rstudio,是一个玄学问题:如果我重启电脑并且在整点时间(比如九点整,十点整)打开时,是能够打开的,其它时间打不开!没说的,换旧版本的Rstudio,然后双击打开,“嗖的一下”,就能打开,很快的,不像新版本还要出一个logo,然后能不能打开就看是不是黄道吉日了……这一次的经历和我上一次升级windows11一样,开始很爽,然后崩了,退回到了windows10,真香。

2023-02-21 21:28:27 1479 1

原创 chatGTP的全称Chat Generative Pre-trained Transformer

chatGPT是由OpenAI开发的一个人工智能聊天机器人程序,于2022年11月推出。该程序使用基于GPT-3.5架构的大型语言模型并通过强化学习进行训练。ChatGPT目前仍以文字方式交互,而除了可以通过人类自然对话方式进行交互,还可以用于相对复杂的语言工作,包括自动文本生成、自动问答、自动摘要等在内的多种任务。如:在自动文本生成方面,ChatGPT可以根据输入的文本自动生成类似的文本(剧本、歌曲、企划等),在自动问答方面,ChatGPT可以根据输入的问题自动生成答案。

2023-02-14 21:07:23 24047 3

原创 基因组选择中rrBLUP的应用案例

试试chatGPT水文的过程。

2023-02-13 21:07:32 1268

原创 植物育种中广义遗传力的定义

广义遗传力(H2H^2H2)定义为归因于基因型总体遗传变异的表型变异比例。通常他包括三个解释:(详见我这篇博客的公式推导回归系数 相关系数 遗传力的关系(i)它相当于观察到的表型上不可观察的基因型值的线性回归的确定系数;(ii)也是预测表型值和基因型值之间的相关系数的平方;(iii)它表示可以实现为选择响应(RR)的选择差异(SS)的比例(Falconer和Mackay,2005)。

2023-02-12 17:37:41 954

原创 Rstudio连接不上R语言常用解决方案

如果自己有很多R版本,可以在设置中进行定义,方法如下:上面就是几种常见的Rstudio不能链接到R语言的解决方法,希望对大家有所帮助。如果有用,欢迎三连!!!

2023-01-27 12:14:15 5202

原创 第三篇:Haploview做单倍型教程3--结果解读

大家好,我是邓飞,这里介绍一下如何使用Haploview进行单倍型的分析。今天是第三篇。

2023-01-26 20:43:09 2979

原创 第二篇:Haploview做单倍型教程2--分析教程

大家好,我是邓飞,这里介绍一下如何使用Haploview进行单倍型的分析。今天是第二篇。

2023-01-26 09:30:20 3605 1

原创 GWAS分析中曼哈顿图如何显示SNP信息

GWAS分析中,曼哈顿图如何显示SNP的名称。

2023-01-11 20:30:17 1244 1

原创 Haploview做单倍型教程1--软件安装

大家好,我是邓飞,这里介绍一下如何使用Haploview进行单倍型的分析。今天是第一篇。下面是Haploview做的结果:下面是LDblockShow做的结果:两者结果是一致的。

2022-12-29 20:39:42 2542

原创 2022-12版本的Rstudio它来了,它喊我升级了

从更新的方向上来看,它是想对待R语言一样对待Python,比如识别版本,比如运行shiny,这也是非常适合R语言用户的地方,有时候我们不得不写python脚本,这时候Rstudio就有用了……功能介绍:https://www.rstudio.com/products/rstudio/release-notes/最近每一次打开Rstudio,总是推送给我最新版的Rstudio:……描述内容一大堆,看完了,什么也没看懂。运行python脚本时,会自动升级。试一下下面的python代码:。整体而言,体验不错。

2022-12-26 19:35:57 3164 1

原创 plink中的BGEN格式的数据如何用

现代遗传关联研究通常使用数万至数十万个体的数据,这些数据是全基因组数千万标记的基因分型或估算的。基于这些数据的文本表示的传统数据格式(如IMPUTE输出的GEN格式或变量调用格式)有时不太适合这些数据量。事实上,对于简单的程序,解析这些格式所花费的时间可以支配程序执行时间。本页介绍了二进制GEN文件格式(“BGEN”格式),旨在解决这些问题。BGEN是一种稳健的格式,其设计具有特定的混合特性,我们认为这对此类研究很有用。它的目标是用于大型、潜在的遗传数据集。主要功能包括:存储直接输入和输入数据的能力。

2022-12-08 19:50:44 1950 1

原创 plink2.0和plink1.9的忧伤笔记

虽然plink2.0已经存在好久了,但是一直用的都是plink1.9,因为语法熟悉。更主要是plink2.0语法变动太大,害怕步子迈得太大了……今天看一下plink2.0的读入和输出数据常用参数,plink2.0用是不会用的,2022年都不会用!!!但是碰到bgen,pgen数据进行转化为bed,bim,fam文件,然后用plink1.9使用的想法还是有的,而且很大!!!本篇目的:使用plink2.0软件将下面格式随便输入、输出。

2022-12-01 19:22:37 2738

原创 PRS中增加PCA 1-10如何操作

PRS就是多基因风险评分模型,它根据GWAS已经挖掘的结果(GWAS结果,gwas summary),然后使用自己的数据,选择合适的位点,进行个体的风险得分预测。收集已有的gwas summary结果整理自己的snp分型和表型数据进行PRS计算。

2022-11-13 09:57:32 638

原创 plink如何更新表型数据

大家好,我是邓飞。平时在分析时,也有时候需要将外部准备好的数据,更新到plink数据中。plink有两种格式类型,二进制文件(bed,bim,fam)在fam文件的第六列,文本文件(ped,map)在ped文件的第六列。数据量小时,可以用excel打开,直接手动增加,如果数据量大,就需要编程实现,比如R语言,Perl或者Python。其实,plink自己有一个参数,可以自动更新表型数据,只需要将所要更新的表型数据准备好就行了。下面介绍一下操作流程。

2022-11-13 09:30:02 2328

原创 主成分分析PCA并给出解释百分比

出图:包括PC1和PC2的散点图,以及PC1和PC2的解释百分比。

2022-11-09 19:50:49 5141

原创 GWAS中的effect与数量遗传学中的替换效应

虽然,我早就知道GWAS分析中的effect值,就是数量遗传学的基因中的替换效应,但是一直没有仔细阅读相关材料。今天通过阅读数量遗传学的教程,理解了这个概念,真好。

2022-11-08 22:57:56 1334

原创 计算连续性状的PRS得分

对于动植物育种而言,我之前写过PRS和MAS以及GS的关系,有老师评论说PRS更类似GS,因为它可以利用已有的GWAS信息,直接预测候选群的表型,如果按照动植物的GS方法,几十万几百万的样本做GS显然不现实,而PRS提供了这种思路,就可以利用已有的GWAS结果,通过一些质控,来预测候选群的表现(目标群体的风险得分)。当然,这里的PRS,是多基因风险得分,是预测疾病的表现,而PGS(多基因得分)更中性一点。相对于MAS和GS,PRS模型,可以考虑位点的LD质控,特别是位点少的MAS,更准确。

2022-11-07 19:30:17 907

原创 基因注释:区间范围匹配

大家好,我是邓飞。今天,有老师问我一个问题,如果从一个区间匹配到另一个的区间范围,并找出来。我觉得比较有代表性,就写篇博客总结一下。图1是SNP的上下游区间,图2是基因的上下游区间,想以图1为标准,将区间内有基因的行放到右边。

2022-11-06 12:27:47 815

原创 基因组选择中的参考群更新策略

基因组选择(GS)通常用于家畜,越来越多地用于植物育种。根据参考群体的表型和基因型,GS允许对只有基因型的年轻个体进行性能预测。这有望实现快速的高遗传增益,但可能会失去遗传多样性。现有的保护遗传多样性的方法主要取决于育种个体的选择。在本研究中,我们建议修改参考种群组成,以减轻多样性损失。由于表型的高成本是GS的限制因素,我们的发现具有重大的经济意义。这项研究旨在回答以下问题:关于参考种群的决定将如何影响繁殖种群,以及如何最佳选择个体以更新参考种群,并平衡最大化遗传增益和最小化遗传多样性损失?

2022-11-03 19:11:51 810

原创 一文搞定基因型数据清洗

如果想要把表型数据和基因型数据合并,需要整理的表型格式:FID,IID,y三列。plink将vcf文件变为plink的二进制文件(bed和bim和fam)。如果对其进行质控,用–maf 0.01,会去掉maf小于0.01的位点。《统计遗传学》中的章节介绍,有关代码实操部分,单独列出来,进行展示。缺失包括样本缺失率统计和位点缺失率统计。这里介绍一下常用的基因型数据清洗方法。查看基因频率的统计结果,用–freq。可以看到,已经合并成功了。查看结果,结果文件是。

2022-11-01 20:00:14 1090

原创 LDblock绘制连锁不平衡和单体型图

大家好,我是邓飞。在GWAS分析中,我们挖掘到了一些显著性的位点,如何确定这些位点是不是假阳性呢?我们可以通过LDblock分析并进行可视化进行判断。我们知道GWAS分析中是依据SNP与性状控制的基因存在LD,所以如果位点显著,则周围应该有一些位点都显著,或者说位点所在的区域LD值比较高,能形成Block,才比较靠谱。否则,显著性为点形单影只,并且没有形成Block,极大可能是假阳性!下面介绍如何通过基因型数据和GWAS分析结果,绘制LDblock。软件介绍:(这两款神奇是一人开发,大神呀!)

2022-11-01 19:59:38 4727 1

DMU-遗传评估软件cookbook

遗传评估软件DMU的cookbook, 里面包括代码和示例运算.

2019-04-08

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除