自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

邓飞----育种数据分析之放飞自我

育种数据分析 遗传参数评估 生物统计 全基因组选择

  • 博客(500)
  • 资源 (1)
  • 问答 (1)
  • 收藏
  • 关注

原创 多个plink文件合并方法

大家好,我是邓飞,这里总结一下多个plink文件合并的问题。所以,这里也分为两种方法总结一下。

2023-03-21 20:34:53 273

原创 win11更新 中间多了个搜索 如何去掉

今天,windows11升级后,桌面下面的地方,出现了一个搜索框,很难看:下面介绍一下如何去掉。

2023-03-16 20:48:13 96

原创 PRSice-2在windows系统安装教程

二进制文件,直接运行即可。核心计算文件,计算PRS。

2023-03-13 22:05:11 104

原创 new bing的chatGPT如何解析英文论文pdf

您好,这是必应。这篇文章的主要内容是利用单步基因组最佳线性无偏预测(ssGBLUP)方法来提高巨型淡水虾(Macrobrachium rosenbergii)体重的遗传评估效率。文章使用了410个基因分型的亲本和83,480个单核苷酸多态性(SNP)位点来估计体重的方差成分和遗传参数,并通过五折交叉验证(CV)来计算遗传值(EBV)和基因组遗传值(GEBV)的预测准确度。

2023-03-12 21:43:50 2977 3

原创 升级Rstudio后打不开我又退回旧版本了

然后,今天我的Rstudio打开后,是这一片空白,没有菜单,没有编程界面,什么都没有,比我的脸还干净。测试的时候,我发现能不能打开Rstudio,是一个玄学问题:如果我重启电脑并且在整点时间(比如九点整,十点整)打开时,是能够打开的,其它时间打不开!没说的,换旧版本的Rstudio,然后双击打开,“嗖的一下”,就能打开,很快的,不像新版本还要出一个logo,然后能不能打开就看是不是黄道吉日了……这一次的经历和我上一次升级windows11一样,开始很爽,然后崩了,退回到了windows10,真香。

2023-02-21 21:28:27 415

原创 chatGTP的全称Chat Generative Pre-trained Transformer

chatGPT是由OpenAI开发的一个人工智能聊天机器人程序,于2022年11月推出。该程序使用基于GPT-3.5架构的大型语言模型并通过强化学习进行训练。ChatGPT目前仍以文字方式交互,而除了可以通过人类自然对话方式进行交互,还可以用于相对复杂的语言工作,包括自动文本生成、自动问答、自动摘要等在内的多种任务。如:在自动文本生成方面,ChatGPT可以根据输入的文本自动生成类似的文本(剧本、歌曲、企划等),在自动问答方面,ChatGPT可以根据输入的问题自动生成答案。

2023-02-14 21:07:23 9713 2

原创 基因组选择中rrBLUP的应用案例

试试chatGPT水文的过程。

2023-02-13 21:07:32 416

原创 植物育种中广义遗传力的定义

广义遗传力(H2H^2H2)定义为归因于基因型总体遗传变异的表型变异比例。通常他包括三个解释:(详见我这篇博客的公式推导回归系数 相关系数 遗传力的关系(i)它相当于观察到的表型上不可观察的基因型值的线性回归的确定系数;(ii)也是预测表型值和基因型值之间的相关系数的平方;(iii)它表示可以实现为选择响应(RR)的选择差异(SS)的比例(Falconer和Mackay,2005)。

2023-02-12 17:37:41 317

原创 Rstudio连接不上R语言常用解决方案

如果自己有很多R版本,可以在设置中进行定义,方法如下:上面就是几种常见的Rstudio不能链接到R语言的解决方法,希望对大家有所帮助。如果有用,欢迎三连!!!

2023-01-27 12:14:15 1305

原创 第三篇:Haploview做单倍型教程3--结果解读

大家好,我是邓飞,这里介绍一下如何使用Haploview进行单倍型的分析。今天是第三篇。

2023-01-26 20:43:09 1088

原创 第二篇:Haploview做单倍型教程2--分析教程

大家好,我是邓飞,这里介绍一下如何使用Haploview进行单倍型的分析。今天是第二篇。

2023-01-26 09:30:20 1484

原创 GWAS分析中曼哈顿图如何显示SNP信息

GWAS分析中,曼哈顿图如何显示SNP的名称。

2023-01-11 20:30:17 233

原创 Haploview做单倍型教程1--软件安装

大家好,我是邓飞,这里介绍一下如何使用Haploview进行单倍型的分析。今天是第一篇。下面是Haploview做的结果:下面是LDblockShow做的结果:两者结果是一致的。

2022-12-29 20:39:42 1043

原创 2022-12版本的Rstudio它来了,它喊我升级了

从更新的方向上来看,它是想对待R语言一样对待Python,比如识别版本,比如运行shiny,这也是非常适合R语言用户的地方,有时候我们不得不写python脚本,这时候Rstudio就有用了……功能介绍:https://www.rstudio.com/products/rstudio/release-notes/最近每一次打开Rstudio,总是推送给我最新版的Rstudio:……描述内容一大堆,看完了,什么也没看懂。运行python脚本时,会自动升级。试一下下面的python代码:。整体而言,体验不错。

2022-12-26 19:35:57 1600 1

原创 plink中的BGEN格式的数据如何用

现代遗传关联研究通常使用数万至数十万个体的数据,这些数据是全基因组数千万标记的基因分型或估算的。基于这些数据的文本表示的传统数据格式(如IMPUTE输出的GEN格式或变量调用格式)有时不太适合这些数据量。事实上,对于简单的程序,解析这些格式所花费的时间可以支配程序执行时间。本页介绍了二进制GEN文件格式(“BGEN”格式),旨在解决这些问题。BGEN是一种稳健的格式,其设计具有特定的混合特性,我们认为这对此类研究很有用。它的目标是用于大型、潜在的遗传数据集。主要功能包括:存储直接输入和输入数据的能力。

2022-12-08 19:50:44 538 1

原创 plink2.0和plink1.9的忧伤笔记

虽然plink2.0已经存在好久了,但是一直用的都是plink1.9,因为语法熟悉。更主要是plink2.0语法变动太大,害怕步子迈得太大了……今天看一下plink2.0的读入和输出数据常用参数,plink2.0用是不会用的,2022年都不会用!!!但是碰到bgen,pgen数据进行转化为bed,bim,fam文件,然后用plink1.9使用的想法还是有的,而且很大!!!本篇目的:使用plink2.0软件将下面格式随便输入、输出。

2022-12-01 19:22:37 929

原创 PRS中增加PCA 1-10如何操作

PRS就是多基因风险评分模型,它根据GWAS已经挖掘的结果(GWAS结果,gwas summary),然后使用自己的数据,选择合适的位点,进行个体的风险得分预测。收集已有的gwas summary结果整理自己的snp分型和表型数据进行PRS计算。

2022-11-13 09:57:32 312

原创 plink如何更新表型数据

大家好,我是邓飞。平时在分析时,也有时候需要将外部准备好的数据,更新到plink数据中。plink有两种格式类型,二进制文件(bed,bim,fam)在fam文件的第六列,文本文件(ped,map)在ped文件的第六列。数据量小时,可以用excel打开,直接手动增加,如果数据量大,就需要编程实现,比如R语言,Perl或者Python。其实,plink自己有一个参数,可以自动更新表型数据,只需要将所要更新的表型数据准备好就行了。下面介绍一下操作流程。

2022-11-13 09:30:02 656

原创 主成分分析PCA并给出解释百分比

出图:包括PC1和PC2的散点图,以及PC1和PC2的解释百分比。

2022-11-09 19:50:49 1216

原创 GWAS中的effect与数量遗传学中的替换效应

虽然,我早就知道GWAS分析中的effect值,就是数量遗传学的基因中的替换效应,但是一直没有仔细阅读相关材料。今天通过阅读数量遗传学的教程,理解了这个概念,真好。

2022-11-08 22:57:56 341

原创 计算连续性状的PRS得分

对于动植物育种而言,我之前写过PRS和MAS以及GS的关系,有老师评论说PRS更类似GS,因为它可以利用已有的GWAS信息,直接预测候选群的表型,如果按照动植物的GS方法,几十万几百万的样本做GS显然不现实,而PRS提供了这种思路,就可以利用已有的GWAS结果,通过一些质控,来预测候选群的表现(目标群体的风险得分)。当然,这里的PRS,是多基因风险得分,是预测疾病的表现,而PGS(多基因得分)更中性一点。相对于MAS和GS,PRS模型,可以考虑位点的LD质控,特别是位点少的MAS,更准确。

2022-11-07 19:30:17 312

原创 基因注释:区间范围匹配

大家好,我是邓飞。今天,有老师问我一个问题,如果从一个区间匹配到另一个的区间范围,并找出来。我觉得比较有代表性,就写篇博客总结一下。图1是SNP的上下游区间,图2是基因的上下游区间,想以图1为标准,将区间内有基因的行放到右边。

2022-11-06 12:27:47 322

原创 基因组选择中的参考群更新策略

基因组选择(GS)通常用于家畜,越来越多地用于植物育种。根据参考群体的表型和基因型,GS允许对只有基因型的年轻个体进行性能预测。这有望实现快速的高遗传增益,但可能会失去遗传多样性。现有的保护遗传多样性的方法主要取决于育种个体的选择。在本研究中,我们建议修改参考种群组成,以减轻多样性损失。由于表型的高成本是GS的限制因素,我们的发现具有重大的经济意义。这项研究旨在回答以下问题:关于参考种群的决定将如何影响繁殖种群,以及如何最佳选择个体以更新参考种群,并平衡最大化遗传增益和最小化遗传多样性损失?

2022-11-03 19:11:51 382

原创 一文搞定基因型数据清洗

如果想要把表型数据和基因型数据合并,需要整理的表型格式:FID,IID,y三列。plink将vcf文件变为plink的二进制文件(bed和bim和fam)。如果对其进行质控,用–maf 0.01,会去掉maf小于0.01的位点。《统计遗传学》中的章节介绍,有关代码实操部分,单独列出来,进行展示。缺失包括样本缺失率统计和位点缺失率统计。这里介绍一下常用的基因型数据清洗方法。查看基因频率的统计结果,用–freq。可以看到,已经合并成功了。查看结果,结果文件是。

2022-11-01 20:00:14 496

原创 LDblock绘制连锁不平衡和单体型图

大家好,我是邓飞。在GWAS分析中,我们挖掘到了一些显著性的位点,如何确定这些位点是不是假阳性呢?我们可以通过LDblock分析并进行可视化进行判断。我们知道GWAS分析中是依据SNP与性状控制的基因存在LD,所以如果位点显著,则周围应该有一些位点都显著,或者说位点所在的区域LD值比较高,能形成Block,才比较靠谱。否则,显著性为点形单影只,并且没有形成Block,极大可能是假阳性!下面介绍如何通过基因型数据和GWAS分析结果,绘制LDblock。软件介绍:(这两款神奇是一人开发,大神呀!)

2022-11-01 19:59:38 1248 1

原创 如何使用plink进行二分类性状的GWAS分析并计算PRS得分

这篇博客,用之前GWAS教程中的示例数据,把数据分为Base数据和Target数据,通过plink运行二分类的logistic模型进行GWAS分析,然后通过PRSice-2软件,进行PRS分析。最终,选出最优SNP组合,并计算Target的PRS得分,主要结果如下:最适合的SNP个数是133个,R2位0.232258,P值为0.014上面数据中,个体的PRS为正值,说明风险高,为负值,说明风险低。正文数据使用GWAS分析教程中的数据。

2022-10-31 20:00:12 702 1

原创 使用bedtools进行gwas基因注释

软件github地址:https://github.com/arq5x/bedtools2/比较好的介绍文档:https://www.jieandze1314.com/post/cnposts/151/总的来说,bedtools实用工具是一把瑞士军刀,用于广泛的基因组学分析任务。最广泛使用的工具支持基因组算法:即基因组集合论。例如,bedtools允许人们以广泛使用的基因组文件格式(如BAM、BED、GFF/GTF、VCF)从多个文件中交叉、合并、计数、补充和混洗基因组间隔。

2022-10-31 19:59:39 794

原创 R包clusterProfiler如何安装成功

里面有些坑,写篇博客介绍一下。R包是生物信息分析汇总,基因富集分析可视化经常用到的R包,但是安装时,新手经常会遇到一些问题,这里简单总结一下。

2022-10-26 19:14:14 2462

原创 LD衰减图绘制--PopLDdecay

大家好,我是邓飞。GWAS中LD衰减图,可以形象的查看群体LD衰减的情况。LD衰减是由于连锁不平衡所致,LD衰减速度在不同物种或者不同亚种中差异不同,通常用LD衰减到一般的距离来作为群体的衰减距离(还有其它计算方法),如果LD衰减很快,则在进行GWAS分析时需要更多的位点才能达到一定的精度(https://blog.csdn.net/yijiaobani/article/details/122812786)。

2022-10-26 18:39:00 1479

原创 多个性状的曼哈顿图合并如何做?

同一个性状,在不同的环境中定位了GWAS显著性位点,想着曼哈顿图上看一下相关趋势,将不同环境的结果合并在一起,用不同的颜色表示,更直观。多个性状,有遗传相关,通过合并曼哈顿图的形式,展示趋势,更直观。

2022-10-24 19:32:23 514

原创 一张图介绍PRS的计算步骤

查看了一下博客和文献,把我的理解总结一下。PRS是多基因风险评分,下面介绍一下它处理的步骤。

2022-10-22 18:55:30 698

原创 PRSice-2软件安装教程

二进制文件,直接运行即可。核心计算文件,计算PRS。Base file,基础文件,可以根据指定a1,a2,maf,beta,bp,chr,pvalue等信息Target file,目标文件,支持plink二进制文件,可以定义表型,maf质控等Dosage,主要是定义运行的资源配置,比如线程、硬盘、内存等(可以省略)Clumping,主要是质控Clumping参数,有默认值(可以省略)Covariates,定义协变量,包括数字协变量和因子协变量。

2022-10-21 21:15:21 1066

原创 多基因风险预测模型2--相关概念和软件

计算PRS时,设计到的概念和常用的软件,这里整理一下。

2022-10-13 22:01:32 492

原创 多基因风险预测模型1--先立Flag

在非吸烟者中,高遗传风险人群同样具备筛查价值,建议遗传风险最高的1%人群从62岁起进行肺癌筛查,而对于遗传风险最低的5%人群,当年龄达到74岁时才可达到参考届值。但是动植物现在我都有接触,发现共同点,理解不同点,算是上路了,但是对于人类的数据分析,比如多基因风险预测模型和孟德尔随机化分析,也是朦朦胧胧,学习起来也是倍感吃力,屡次想放弃。综合起来,就是当你的年龄是多少,吸烟量是多少,基因分型的是什么,最后预测你5年患癌症的概率是多少,概率高的话就是高危人群,建议戒烟或者降低吸烟量,定期体检……

2022-10-11 19:21:04 248

原创 vcftools如何在Linux系统中安装

这里,记录一下vcftools的安装教程。https://vcftools.github.io/examples.html下载到本地,上传到服务器中。2. 解压缩 unzip vcftools-vcftools-v0.1.16-18-g581c231.zip cd vcftools-vcftools-581c231/3. 安装 bash autogen.sh./configure makemake install安装完成日志: /usr/bin/mkdir -p

2022-09-25 21:01:03 359

原创 如何引用R语言以及R包:文献引用

p_cite和p_citation都可以用,包的名称加不加引号都可以用,更人性化一点。数据分析中经常使用R语言以及相关R包,写文章时就需要引用。注意,函数中什么参数都不添加,会返回R语言的版本和相关信息。LaTeX的用户的BibTeX条目是。

2022-09-25 19:16:32 1420

原创 SNP密度图绘制

本文绘制这种图:每个SNP在染色体上的分布图,也称为SNP密度图,不同的颜色表示1Mb内包含的SNP个数。

2022-09-02 20:11:16 1666 1

原创 R语言3.6版本安装ggplot2报错解决方法

现在最新的R版本是4.2.1,因为有些包只能运行在3.6版本中,因此我需要安装3.6,这里安装常用的ggplot2时报错了,总结一下问题解决的方法。继续安装pillar,编译安装,安装成功后,继续安装ggplot2,如果哪个包报错,就安装哪个包。看起来,主要是因为rlange这个包版本太低,应该是大于1.0.0,现在是0.4.11.可以看到,我的R版本是3.6.3,ggplot2的版本是3.3.6,搞定!可以看到,上面的R版本是3.6.3,rlang的版本是1.0.1,搞定。

2022-08-22 18:34:41 2283

原创 根据系谱数据查看个体间关系

当然,上面品种较多,可视化不太直观,如果挑选出感兴趣的少数个体(比如20~50个),用上面的方法是非常方便的。首先,这是三列系谱数据,我们需要将其转为15列系谱数据,包括每个个体的三个世代的数据。邓老师,想问一下如何根据猪场子代父母代数据找出它们之间的系谱关系图呢,最好是方便统计的那种。相关的数据和代码,我上传到了我的知识星球,欢迎感兴趣的小伙伴下载使用。上一步中,得到的系谱还有937条,我们对着937条系谱进行可视化。以上就是根据系谱查看个体间关系的三种方法,希望对大家有所帮助。系谱可视化,可以使用。..

2022-08-11 09:31:34 236

原创 钉钉与RStudio快捷方式冲突--钉钉快捷键设置

在Rstudio中,Ctrl+Shift+D是复制代码行。更新钉钉后,发现Ctrl+Shift+D是打开钉钉的窗口,在Rstudio中按快捷键,就打开了钉钉……酸爽。下面介绍一下如何取消钉钉的快捷键:1,打开钉钉2,点击个人头像,进入设置3,翻到最后找到快捷键设置,去除就可以了。666......

2022-08-08 08:52:42 191

DMU-遗传评估软件cookbook

遗传评估软件DMU的cookbook, 里面包括代码和示例运算.

2019-04-08

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除