geneHapR | 基因单倍型分析常见问题

syhz

已于 2024-09-19 15:20:59 修改

阅读量3.5k

点赞数 12

分类专栏： geneHapR 文章标签：其他

于 2023-05-31 23:13:56 首次发布

本文链接：https://blog.csdn.net/zhang_rl/article/details/130978521

版权

geneHapR 专栏收录该内容

7 篇文章

订阅专栏

1. 单倍型分析是否应该弃用杂合位点

一般来说，杂合位点在单倍型分析流程中是需要弃掉的。
原因如下：单倍型是指基因染色体上不同等位变异的线性组合。因此，单倍型的基因型通常是确定的；而如果某“单倍型”包含n个杂合位点，那么理论上该“单倍型”则包含了2ⁿ种状态 (2倍体物种)。由于自然条件下相邻变异位点的紧密连锁关系，实际的单倍型只有有限的几种。针对某特定个体来讲之多包含2种单倍型(2倍体物种)。

2. 单倍型分析是否应该填补缺失基因型

一般认为单倍型分析不应该利用软件或算法填补缺失的基因型。
一般地，进行单倍型分析的不同个体之间并没有直接的亲缘关系，个体A的基因型不影响B的基因型。然而，基因型填补软件多是基于群体中其他个体的基因型对缺失的基因型进行填补，所以填补出来的基因型与实际情况并不相符。所以在对特定基因进行单倍型分析时不建议使用该类软件填补基因型。
如果群体类型是重组自交系，由于不同株系的基因型均来自双亲，使用填补基因型的软件是没有问题的。但应注意，严格来讲，此时不应再称之为“单倍型分析”。

3. 单倍型分析是否应该关注大片段缺失

应该而且十分必要。

4. geneHapR软件相关的问题

4.1 软件安装不上
geneHapR是运行于R中的一个package，所以在安装genehapR之前应该先安装R，推荐同时安装RStudio。
为避免安装geneHapR时遇到问题，建议先安装几个依赖来自BioConductor的R包，
首先安装 BiocManager,再安装GenomicRanges, muscle, IRanges, rtracklayer, trackViewer。

install.packages("BiocManager")
BiocManager::install(c("Biostrings", "GenomicRanges", "muscle", "IRanges", "rtracklayer", "trackViewer"))

以上R包安装完成后再安装geneHapR。

install.packages("geneHapR")

如果在library(geneHapR)时提示错误，可能是某个依赖的包没有装上，可以重新安装geneHapR，尝试阅读报错信息，按照提示逐个安装缺失的R包即可。

如果实在安装不上，那么将R卸载掉并删除所有本地的R包，然后再重新安装，一般都能解决。

Linux用户：如果你是linux服务器用户，并且没有管理员权限或者有几个依赖难以解决，那么推荐在docker中使用geneHapR。

# Pull this image by codes: 
docker pull zhangrenl/genehapr:latest
# And run with codes: 
docker run -ti --rm zhangrenl/genehapr bash

2.1 vcf2hap()结果只有4行

数据中基因型确实或者杂合子太多了，将hetero_remove、na_drop两个参数设置成FALSE即可。

2.2 hap_summary()替换数据里有5行，但数据有4…

hap_summary报错
这里需要检查你的hapResult是否正常，如果hapResult只有4行，请参照2.1解决。
问题原因：一般的hapResult至少有四行，即Chr|POS|ALLELE|INFO；如果只有这四行，后续测操作会有类似的报错；需要检查你的vcf内容是不是有缺失，另外参考help文档把去除杂合子和缺失基因型的两个参数改为FLASE或者去掉某几个杂合子比较多的位点。
如果这个原因导致，请联系作者。

2.3 样品数据不对

在分析一个基因单倍型的时候，共650份品种最后几种单倍型总和只有400多份。但是分析其他基因单倍型的时候，是正常的，就是650份品种最后几种单倍型的加和也是650。
一般是由于该基因/区间内存在基因型缺失或杂合基因型，解决方法参照2.1。

2.4 displayVarOnGeneModel()

报错信息：*** in hapSummary/hapResult was not found in gff
通常是由于染色体名称不对导致的，检查你的基因型文件中包含的染色体名称和gff注释文件中的染色体名称是否一致。

报错信息：There was no overlap between hapResult: ***-*** and gff ***-***.
区间内没有外显子
通常是由于gff注释信息在给定区间内没有发现外显子或任何类型的注释。需要通过调整start或end扩大、移动给定区间大小；或者重新调整gff注释。

2.5 displayVarOnGeneModel()视窗的位置或大小不能是无限的

displayVarOnGeneModel
这个问题一般不会出现，如果遇到了这个问题请按照下面步骤操作。
1）把RStudio最大化
2）把绘图区尽量调大
3）使用R里面的设备（dev）tiff()、pdf()、jpeg()、png()等，将绘制结果直接输出到文件中
如果至此还解决不了，请更换电脑。
（重装能解决90%以上的问题，但换好的装备可以解决100%的问题）
4.2 其他问题
如果您有其他问题或者发现软件bug，欢迎联系作者QQ：1205654509.或者微信：suiyuanhongzhu