梦仔生信进阶-CSDN博客

原创【软件使用-MEGA】基于NJ和ML方法构建进化树结果比较

构建进化树有很多可选的算法，其中比较常用的NJ（邻接法），也有基于似然法NL，如下图所示，构建进化树具体方法可以参考我之前写的。特点： 1. 运算较NJ法很耗时，需要等一段时间，特别是样本数比较多时，可能需要3h左右。但邻接法可能只需要2分钟以内。此处基于fa格式文件，耗时约30秒，涉及计算遗传距离等过程。2种方法运算结果，并没有太大的差别。基于NJ方法构建进化树结果。基于ML方法构建进化树结果。

2024-04-12 19:15:00 502

原创【R基础】一组数据计算均值、方差与标准差方法及意义

【R基础】一组数据计算均值、方差与标准差方法及意义均值、方差与标准差是用来描述数据分布情况。

2024-04-10 19:15:00 667

原创【linux基础】bash脚本的学习：定义变量及引用变量、统计目标目录下所有文件行数、列数

4.读取列表变量值：从命令读取变量如 for state in $(cat file.txt)单个文件可以用 wc -l；多个文件，可以用通配符 / 借助bash脚本。输出到新的文件夹：./1.sh > 1.txt。修改脚本权限：chmod 777 1.sh。以上，可以简化为如下，根据通配符统计。统计并输出指定文件夹下所有文件行数。2.合并变量，有空格/无空格。1.定义变量名，使用引号。

2024-04-09 19:15:00 230

原创 [软件使用-Vcftools / Plink ] VCF文件中剔除/提取一个或多个样本，两组方法实现及运算时间比较

比如剔除一个样本--重测序数据可能需要1h;但vcf 转换为 plink可能耗时0.5h，借助plink提取/剔除样本可能就1min左右，可以试一下vcf 转换为 plink 后再执行提取或删除，速度相对比较快。剔除样本 --remove。tips: 运行比较耗时。提取样本 --keep。

2024-04-09 18:45:00 614

原创【R语言基础】如何提取矩阵的上三角矩阵

例如：已知矩阵，如何求除对角线值以外均值。

2024-04-08 22:00:00 407

原创【linux基础】之如何查看压缩文件

参考: 《工作效率篇》Linux命令行十种不解压查看压缩文件的方法。

2024-04-08 21:15:00 178

原创【R语言】R包-探索ggtree进化树美化

【代码】【R语言】R包-探索ggtree进化树美化。

2024-03-07 21:00:00 682

原创【RStudio】快速解锁新技能-快捷键

【代码】【RStudio】快速解锁新技能-快捷键。

2024-03-07 19:15:00 150

原创【软件使用-MEGA】如何基于ML方法构建进化树

特别提示：基于该方法软件提示输入需要是基因型 fa格式文件，故其它格式，如plink需要转换为 fa格式step1: 基于windows输出.mao文件----输出保存即可step2: 准备 fa 格式文件，进行进化树构建---生成 .nwk 文件step1: windows输入.fa文件选择nostep3: 可以直接看见进化树了----导出nwk文件导出NWK。

2024-03-05 21:45:00 671

原创【windows】快速汇总指定文件夹下的所有文件名称到excel

又到了月底疯狂总结本月项目情况的时候了，项目都储存在了指定文件夹下，以项目名称命名，这时候总结起来，一个个粘贴就比较费劲。就想借助windows自带的cmd 命令行，实现统一汇总到指定的excel下。果然强大的搜索功能，让我3分钟学会并解决我的问题。

2023-12-29 19:30:00 510

原创【python编辑器探索】Spyder

Spyder是一个功能强大的科学计算环境，用 Python 原生编写。下载推荐：见之前，如果电脑配置一般，打开Anaconda费劲，建议单独下载Spyder右上角，每行显示一个变量信息，包括变量名称、类型、长度、值。双击对应的变量行，还可以查看变量中的所有数据。右下角，查看数据分析运行结果，也可以输入代码。常用快捷键注释：Ctrl+1F5 ：运行当前 py 文件；Ctrl+Enter快捷键F9 ：运行当前行或者选定区域。Ctrl+D:删除整行Ctrl++ 放大。

2023-11-09 17:47:57 325

原创【plink】使用细节

3. 样本名称含下划线时，vcf转plink容易出错，需要加一个参数--const-fid，可以防止名称不一致，且有利于后期提取样本。如下划线10_2直接拆开变成了FID为前缀10 IID为后缀2。2. plink处理基因型数据时，vcf转换为plink数据时，非二态位点，会自动选用主等位基因为A2，A1次等位基因。4. 提取位点注意LD质控位点，位点名称不能为点，后期无法根据SNPID剔除位点。：如原始chr 30 ，经过plink处理以后会自动转变为30。需要位点重命名，提取就没问题了。

2023-10-20 21:00:00 350 1

原创【Linux】统计文件行数

【代码】【Linux】统计文件行数。

2023-10-19 19:30:00 73

原创【好用的文献阅读翻译软件】知云文献翻译

2. 可以重点翻译生词/翻译一句/一段。知云文献翻译网址：www.ZhiYunWenXian.cn。优点： 1. 可以直接标注重点。点开---默认一步一步下载。下载好啦--打开想看的文献。

2023-10-10 21:45:00 293

原创【R语言】自定义的函数 function

调用有参数的函数，括号里写明参数值 function(6) new.function(a = 11, b = 5, c = 3)#内置函数的简单示例是 seq()，mean()，max()，sum(x) 和 paste(...) 等。my.function1(1,1,1,1,1,1,1) #使用参数值调用函数（按位置和名称）# 调用没有参数的函数，直接用空的括号 new.function()# 示例1：求1的3次+2的3次+。2. 函数调用方式；

2023-10-08 21:30:00 1566

原创【plink】如何把基因型数据ATCG格式转换为012之一 --recodeA

-recodeA ：一个SNP标记只有1列,纯合转换为02，杂合为1（如TT 替换为0, 0是major;--recodeA : snp的major变为了0, snp的minor变为了2, 杂合变为了1.--recodeAD：一个标记有2列（TT 替换为00，AA替换为20；命令：将基因型数据转化为012的raw格式。

2023-10-08 21:15:00 1154

原创【分析软件GCTA】计算样本间亲缘关系、PCA、GBLUP、fst

是用于评估表型变异中遗传变异所占的比例，即评估遗传力的大小。参考官网有很多，但我更关注以下1. GCTA计算亲缘关系GRM矩阵（kinship矩阵）2. 利用全基因组SNP估计近亲系数3. 群体遗传中，GCTA中做4. 不同性状/表型间（traits）的遗传相关性默认Yang：–make-grm-alg 0近亲系数(coefficient of inbreeding)指的是某一个体从他的祖先得到一对纯合的，等同的基因的概率，即在遗传上是完全相同的基因的概率。

2023-09-26 22:15:00 687

原创【如何把html转换为pdf】

打开网页---右键打印---打印机（另存为pdf）----设置好宽度---保存。

2023-09-26 22:15:00 41 1

原创【如何根据vcf查找基因组】找到基因组版本及原始数据

基于NCBI查找-------找到对应编号ZJU1.0-----选中三个点-----查看明细。可以看到基因组组装水平、染色体条数、基因组大小、有多少个基因。染色体以NC开头与数字的对应关系-----可直接下载。查看vcf数据“##” 表头最后一行。----进入新的页面。

2023-09-26 21:45:00 186 1

原创【R语言optparse 包】如何让你的R脚本变简洁、变优雅

2. 1 的基础上，添加浮点参数（” %m.nf ” ，其中m 表示打印的宽度，n 表示小数点后的位数。如果流程比较长，或者是希望借助IT实现网页版分析，仅选择几个参数，普通不会代码的人也可以分析，则建议本文的重点R包--optparse。使得R脚本流程化，每次只需要修改参数即可，简化主流程脚本，与IT衔接，实现网页版小白点点点的分析目的。报错2：参数类型指定不对（错写为默认值）----------改为默认的整数 / 字符等即可。现实中，可能要实现一个分析目的，流程会很长，看起来没有逻辑，又很冗余。

2023-09-25 18:30:00 720 1

原创【Plink】数据先质控个体，还是先质控位点

数据先质控个体，还是先质控位点

2023-09-21 19:15:00 127 1

原创【iCIMapping】Bin划分如何理解

1. 划分Bin的结果没有区别，只是最终采用的代表一个bin的标记不同---------最终的bin的数目是一致的-----------------最终的图谱长度也有微小的差异（原来3284--现在3273）；尝试结果：一般比较近，icimapping 划分bin的输入文件并不需要标记的物理位置，但最终划分到一个Bin的标记基本上物理位置很近；包含每个bin中已识别的bin组和已删除标记的汇总信息。标记属于chr9 ---划分为一个BIn-----最终保留了缺失率最小的一个标记/ 可选随机保留。

2023-09-19 19:15:00 665 1

原创【plink】文件合并参数merge

两列：ped文件名，map文件名，一行是一对。准备要合并的文件：file_3.txt。

2023-07-26 21:45:00 471 1

原创【小妙招】为什么谷歌浏览器可以打开网页却不能搜索

此处检索即可。

2023-07-26 21:45:00 1311 2

原创【R语言】绘制PCA之一:基本理论

PCA 变换之后的各个维度被称为主成分，各个维度之间是线性无关的。为了使变换后的数据各个维度提供的信息量从大到小排列，变换后的数据的各个维度的方差也应该是从大到小排列的。数据经过 PCA 变换之后方差最大的那个维度被称为第一主成分。多个变量较为复杂---通过数学的方式---线性转换为少数几个变量（保留了原始数据绝大部分重要差异信息。. 群体分层分析和推断进化关系，与phylogenetic tree，structure的结果互相验证。. 检查离群样本，有选择的剔除离群样本（如取样错误、严重污染）。

2023-07-25 21:45:00 80

【R语言optparse 包】如何让你的R脚本变简洁、变优雅

【R语言optparse 包】如何让你的R脚本变简洁、变优雅

空空如也