bin:是指没有发生重组的染色体区块,重组断点;
划分BIN目的: 简并大量SNP信息;
文件来源于: ICImapping划分BIN的sum文件
软件运行
可选项:
1. 考虑锚定信息(标记输入染色体)
2.按照缺失率,保留缺失率最低的标记代表这个Bin
标记属于chr9 ---划分为一个BIn-----最终保留了缺失率最小的一个标记/ 可选随机保留
因为看了软件的说明文档,目前没有找到作者划分bin的原理,所以对BIN划分存在以下疑问:
1. 输入文件标记是否按照物理距离排序,影响最终BIN划分吗,影响最终图谱构建吗?
尝试结果:Bin划分结果整体一致,但有个别bin划分不一致,但几乎不影响最终图谱构建结果。
2. 划分到一个bin的标记 物理位置距离近吗?
尝试结果:一般比较近,icimapping 划分bin的输入文件并不需要标记的物理位置,但最终划分到一个Bin的标记基本上物理位置很近;(如下,同属于binID=53 ,物理位置很近)
(bin代表没有发生重组的染色体区块,划分到一个bin的标记是在染色体上是整体连续的片段)
3.Bin内所有的标记,分型都一致吗?
尝试结果:基本Bin内所有的标记分型一致,也有部分不一致(猜测可能是作者在定义划分Bin规则的时候允许纠错,可能导致一个Bin内部部分位点分型不一致)
4. 挑选一个Bin内不同的标记,最终的图谱,遗传位置计算值一样吗?
之前通过缺失率保留标记-----------------现在随机保留标记:最终的图谱长度存在细小的差别
缺失率保留标记
随机保留标记
1. 划分Bin的结果没有区别,只是最终采用的代表一个bin的标记不同---------最终的bin的数目是一致的-----------------最终的图谱长度也有微小的差异(原来3284--现在3273);
具体核查过程:
文件来源于:1. ICImapping划分BIN的sum文件,2. 调取的个体基因型;
1. 文件1:包含每个bin中已识别的bin组和已删除标记的汇总信息。编号为0的bin组包含非冗余且未删除的标记。最后一列的数字1表示该标记被删除,数字0表示该标记被保留以进行进一步的遗传分析。
2. 文件2:输入文件中第二个sheet(这2个文件,标记的顺序是一致的)
3. 整理为
每一行是一个标记,BinID =3 的代表是划分到一个Bin里的标记;
0代表基因是偏向P1的纯合型,2代表基因是偏向P2的纯合型;
特点:
1. 划分到一个BIN的文件
可视化方式:
分析名称:bin的单体来源评估:bin内可以简并大量SNP信息,然后判断每个bin来源于父母本哪一方
与之前看的 Bin, Bin, Bin!Map, Map, Map Now! 不太相同,SNP数据基于binmap进行纠错,用于更好的遗传定位。
以下是之前看的具体内容