自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(37)
  • 收藏
  • 关注

原创 【软件使用-MEGA】基于NJ和ML方法构建进化树结果比较

构建进化树有很多可选的算法,其中比较常用的NJ(邻接法),也有基于似然法NL,如下图所示,构建进化树具体方法可以参考我之前写的。特点: 1. 运算较NJ法很耗时,需要等一段时间,特别是样本数比较多时,可能需要3h左右。但邻接法可能只需要2分钟以内。此处基于fa格式文件,耗时约30秒,涉及计算遗传距离等过程。2种方法运算结果,并没有太大的差别。基于NJ方法构建进化树结果。基于ML方法构建进化树结果。

2024-04-12 19:15:00 502

原创 【R基础】一组数据计算均值、方差与标准差方法及意义

【R基础】一组数据计算均值、方差与标准差方法及意义均值、方差与标准差是用来描述数据分布情况。

2024-04-10 19:15:00 667

原创 【linux基础】bash脚本的学习:定义变量及引用变量、统计目标目录下所有文件行数、列数

4.读取列表变量值:从命令读取变量 如 for state in $(cat file.txt)单个文件可以用 wc -l;多个文件,可以用通配符 / 借助bash脚本。输出到新的文件夹:./1.sh > 1.txt。修改脚本权限:chmod 777 1.sh。以上,可以简化为如下,根据通配符统计。统计并输出指定文件夹下所有文件行数。2.合并变量,有空格/无空格。1.定义变量名,使用引号。

2024-04-09 19:15:00 230

原创 [软件使用-Vcftools / Plink ] VCF文件中剔除/提取一个或多个样本,两组方法实现及运算时间比较

比如剔除一个样本--重测序数据可能需要1h;但vcf 转换为 plink可能耗时0.5h,借助plink提取/剔除样本可能就1min左右,可以试一下vcf 转换为 plink 后再执行提取或删除,速度相对比较快。剔除样本 --remove。tips: 运行比较耗时。提取样本 --keep。

2024-04-09 18:45:00 614

原创 【R语言基础】如何提取矩阵的上三角矩阵

例如:已知矩阵,如何求除对角线值以外均值。

2024-04-08 22:00:00 407

原创 【linux基础】之如何查看压缩文件

参考: 《工作效率篇》Linux命令行十种不解压查看压缩文件的方法。

2024-04-08 21:15:00 178

原创 【R语言】R包-探索ggtree进化树美化

【代码】【R语言】R包-探索ggtree进化树美化。

2024-03-07 21:00:00 682

原创 【RStudio】 快速解锁新技能-快捷键

【代码】【RStudio】 快速解锁新技能-快捷键。

2024-03-07 19:15:00 150

原创 【软件使用-MEGA】如何基于ML方法构建进化树

特别提示:基于该方法软件提示输入需要是基因型 fa格式文件,故其它格式,如plink需要转换为 fa格式step1: 基于windows输出.mao文件----输出保存即可step2: 准备 fa 格式文件,进行进化树构建---生成 .nwk 文件step1: windows输入.fa文件选择nostep3: 可以直接看见进化树了----导出nwk文件导出NWK。

2024-03-05 21:45:00 671

原创 【windows】快速汇总指定文件夹下的所有文件名称到excel

又到了月底疯狂总结本月项目情况的时候了,项目都储存在了指定文件夹下,以项目名称命名,这时候总结起来,一个个粘贴就比较费劲。就想借助windows自带的cmd 命令行,实现统一汇总到指定的excel下。果然强大的搜索功能,让我3分钟学会并解决我的问题。

2023-12-29 19:30:00 510

原创 【python编辑器探索】Spyder

Spyder是一个功能强大的科学计算环境,用 Python 原生编写。下载推荐:见之前,如果电脑配置一般,打开Anaconda费劲,建议单独下载Spyder右上角,每行显示一个变量信息,包括变量名称、类型、长度、值。双击对应的变量行,还可以查看变量中的所有数据。右下角,查看数据分析运行结果,也可以输入代码。常用快捷键注释:Ctrl+1F5 :运行当前 py 文件;Ctrl+Enter快捷键F9 :运行当前行或者选定区域。Ctrl+D:删除整行Ctrl++ 放大。

2023-11-09 17:47:57 325

原创 【plink】使用细节

3. 样本名称含下划线时,vcf转plink容易出错,需要加一个参数--const-fid,可以防止名称不一致,且有利于后期提取样本。如下划线10_2直接拆开变成了FID为 前缀10 IID为 后缀2。2. plink处理基因型数据时,vcf转换为plink数据时,非二态位点,会自动选用主等位基因为A2,A1次等位基因。4. 提取位点 注意LD质控位点,位点名称不能为点,后期无法根据SNPID剔除位点。:如原始chr 30 ,经过plink处理以后会自动转变为30。需要位点重命名,提取就没问题了。

2023-10-20 21:00:00 350 1

原创 【Linux】统计文件行数

【代码】【Linux】统计文件行数。

2023-10-19 19:30:00 73

原创 【好用的文献阅读翻译软件】知云文献翻译

2. 可以重点翻译生词/翻译一句/一段。知云文献翻译网址:www.ZhiYunWenXian.cn。优点: 1. 可以直接标注重点。点开---默认一步一步下载。下载好啦--打开想看的文献。

2023-10-10 21:45:00 293

原创 【R语言】自定义的函数 function

调用有参数的函数,括号里写明参数值 function(6) new.function(a = 11, b = 5, c = 3)#内置函数的简单示例是 seq(),mean(),max(),sum(x) 和 paste(...) 等。my.function1(1,1,1,1,1,1,1) #使用参数值调用函数(按位置和名称)# 调用没有参数的函数 ,直接用空的括号 new.function()# 示例1: 求1的3次+2的3次+。2. 函数调用方式;

2023-10-08 21:30:00 1566

原创 【plink】如何把基因型数据ATCG格式转换为012之一 --recodeA

-recodeA : 一个SNP标记只有1列,纯合转换为02,杂合为1(如TT 替换为0, 0是major;--recodeA : snp的major变为了0, snp的minor变为了2, 杂合变为了1.--recodeAD:一个标记有2列 (TT 替换为00,AA替换为20;命令:将基因型数据转化为012的raw格式。

2023-10-08 21:15:00 1154

原创 【分析软件GCTA】计算样本间亲缘关系、PCA、GBLUP、fst

是用于评估表型变异中遗传变异所占的比例,即评估遗传力的大小。参考官网有很多,但我更关注以下1. GCTA计算亲缘关系GRM矩阵(kinship矩阵)2. 利用全基因组SNP估计近亲系数3. 群体遗传中,GCTA中做4. 不同性状/表型间(traits)的遗传相关性默认Yang:–make-grm-alg 0近亲系数(coefficient of inbreeding)指的是某一个体从他的祖先得到一对纯合的,等同的基因的概率,即在遗传上是完全相同的基因的概率。

2023-09-26 22:15:00 687

原创 【如何把html转换为pdf】

打开网页---右键打印---打印机(另存为pdf)----设置好宽度---保存。

2023-09-26 22:15:00 41 1

原创 【如何根据vcf查找基因组】找到基因组版本及原始数据

基于NCBI查找-------找到对应编号ZJU1.0-----选中三个点-----查看明细。可以看到基因组组装水平、染色体条数、基因组大小、有多少个基因。染色体以NC开头与数字的对应关系-----可直接下载。查看vcf数据“##” 表头最后一行。----进入新的页面。

2023-09-26 21:45:00 186 1

原创 【R语言optparse 包】如何让你的R脚本变简洁、变优雅

2. 1 的基础上,添加浮点参数(” %m.nf ” ,其中m 表示打印的宽度,n 表示小数点后的位数。如果流程比较长,或者是希望借助IT实现网页版分析,仅选择几个参数,普通不会代码的人也可以分析,则建议本文的重点R包--optparse。使得R脚本流程化,每次只需要修改参数即可,简化主流程脚本,与IT衔接,实现网页版小白点点点的分析目的。报错2:参数类型指定不对(错写为默认值)----------改为默认的整数 / 字符等即可。现实中,可能要实现一个分析目的,流程会很长,看起来没有逻辑,又很冗余。

2023-09-25 18:30:00 720 1

原创 【Plink】数据先质控个体,还是先质控位点

数据先质控个体,还是先质控位点

2023-09-21 19:15:00 127 1

原创 【iCIMapping】Bin划分如何理解

1. 划分Bin的结果没有区别,只是最终采用的代表一个bin的标记不同---------最终的bin的数目是一致的-----------------最终的图谱长度也有微小的差异(原来3284--现在3273);尝试结果:一般比较近,icimapping 划分bin的输入文件并不需要标记的物理位置,但最终划分到一个Bin的标记基本上物理位置很近;包含每个bin中已识别的bin组和已删除标记的汇总信息。标记属于chr9 ---划分为一个BIn-----最终保留了缺失率最小的一个标记/ 可选随机保留。

2023-09-19 19:15:00 665 1

原创 【plink】文件合并参数merge

两列:ped文件名,map文件名,一行是一对。准备要合并的文件:file_3.txt。

2023-07-26 21:45:00 471 1

原创 【小妙招】为什么谷歌浏览器可以打开网页却不能搜索

此处检索即可。

2023-07-26 21:45:00 1311 2

原创 【R语言】绘制PCA之一:基本理论

PCA 变换之后的各个维度被称为主成分,各个维度之间是线 性无关的。为了使变换后的数据各个维度提供的信息量从大到小排列,变换后的数据的各个维度的方差也应该是从大到小排列的。数据经过 PCA 变换 之后方差最大的那个维度被称为第一主成分。多个变量较为复杂---通过数学的方式---线性转换为少数几个变量(保留了原始数据绝大部分重要差异信息。. 群体分层分析和推断进化关系,与phylogenetic tree,structure的结果互相验证。. 检查离群样本,有选择的剔除离群样本(如取样错误、严重污染)。

2023-07-25 21:45:00 80

原创 【R语言】绘制PCA之三:为什么删除一个重复、离群样本,PCA分布变化很大,变分散或 变集中。

示例1:为什么剔除重复样本以后,反而聚在了一起。原因:1.1 PCA分析首先是要计算亲缘关系系数的;重复样本A、B的亲缘关系系数必然会很高,达0.99以上。1.2 PCA作图,每个点与点之间是一个相对的概念,当2个样本A、B为重复样本时,2个样本A、B之间的距离,相对于A、B与其它样本C、D、E、F、G 亲缘关系是近的,所以A、B与其它样本C、D、E、F、G就显著的分散开2堆;1.3 当A、B删除掉一个重复以后,A与其它样本C、D、E、F、G 亲缘关系就相对变化,PCA就变成了1堆。

2023-07-25 21:45:00 461

原创 【R语言】绘制PCA之二:PCA加置信度

GCTAPlink6.1 利用plink计算pca-----直接出结果结果文件具体内容6.2 利用GCTA计算pca-----分2步;先计算亲缘关系矩阵---再计算PCA。

2023-07-25 21:45:00 950

原创 【变异位点功能注释annovar】实操一:如何构架库文件

注意:如果染色体不是以数字表示,注释之前就需要替换染色体,否则后面注释出来也乱,非数字染色体。1. 下载基因组文件:fa/ fna gff3/ gff(2种格式都可以构建)2. gff 3 /gtf 转化为txt。来源:NCBI 可以查找对应的数字与编号。

2023-06-29 21:45:00 210 1

原创 【python学习】发现好用的Python版本的Rstudio之Spyder

按照流程安装好以后,点击绿圈 -----然后就闪现了下面的界面--淡定等它闪现3次就会出现主界面(第一次还以为安装出现问题,重新装了一次软件,第二次还是闪现,所以需要等待)但就是这个软件卡顿---嗯嗯--百度了以下(这个软件是一个开发环境,可能内含的东西比较多,打开就会慢一些,也可能与电脑配置有关)开始栏打开-------------明显速度快了很多--------推荐电脑打开Anaconda费劲的直接单独下载Spyder。这个界面是我喜欢的----从这里直接进----闪现了一下就没了?

2023-06-27 21:45:00 828

原创 【Linux基础】查看磁盘剩余空间 df、文件夹大小du

【代码】【Linux基础】查看磁盘剩余空间 df、文件夹大小du。

2023-06-19 21:15:00 197 1

原创 【python学习】开始学习前思考几个问题

示例2:手动将目标QTL区间内基因,对应在基因组注释文件里区间的基因挑选出来(可能涉及区间判断,QTL左右边界pos值,与基因组注释文件SNP位置大小比较,然后挑选区间基因)对我来说,1.同样的分析/数据整理,其它人用python实现,代码简洁、速度快;2.最初目的是为了看得懂其它人的代码;示例1:如何将每个样本的表达量数据,整理为所有样本的表达量矩阵(可能涉及匹配、行列转换、合并行/列);桌面小工具:1.比如匹配2个文件,输出重复,输出唯一值;书籍:python蟒蛇书 、python基础教程。

2023-05-05 19:15:00 42

原创 菜鸟生信学习第三节笔记:plink常用功能

由哈佛大学的Shaun Purcell开发的一个免费,开源的全基因组关联分析软件。1.数据提取,合并、提取特定SNP、样本、基因组某段区域的基因型3.;2. 数据(计算样本杂合度和SNP位点杂合度、最小等位基因频率MAF)3. 格式转换;4. 遗传参数4.1 计算最小等位基因频率4.2 计算杂合度4.3 计算LD、过滤R24.4 计算亲缘关系IBS,构建G矩阵;4.5 计算近交系数 ( 统计样本ROH);5. PCA6. plink将关联分析结果里的SNP注释:参考。

2023-05-03 17:44:06 10639 7

原创 【plink】vcf 转 plink 时,非二态位点是怎么处理的

1. 首先plink并不会把,这样非二态的位点删除,而是仅仅保留下来占比多的分型;这种会自动保留占比多的位点,最终可能为A1=2. 如果是REF ALT 为。转换为 (前后位置)

2023-05-03 17:37:31 135

原创 【R语言clusterProfiler包】KEGG数据库更新,分析时报错如何解决

注意:如果当时可以用,但是过一段时间不能用了;还是同样的报错,那就重新再装一次这个包,不然加载没问题,就一直找不到问题,必须重新装一次。报错原因:在线查询KEGG数据库更新了,需要用新版本的R,更新clusterProfiler包。本地查询与在线查询唯一不同的就是设置 use_internal_data =T。clusterProfiler包。R版本不对 R4.1。

2023-04-28 18:30:00 5088

原创 R语言在线网站:WebR - R in the Browser

R语言在线网站:WebR - R in the Browser。个人感觉还是下载本地的比较方便一些。

2023-04-28 18:15:00 1173 1

原创 【linux基础】指定分隔符分割文件 cut 、awk(指定多个分隔符分割文件提取列,如提取注释文件gff3内的基因ID)

如:你想提取QTL区间的基因,那你得先准备一个参考基因组上基因ID 、基因Name、起始、终止的文件。2. 思路:先提取第三列是基因---再提取有Name 的基因--再分隔。匹配也可以借助 awk '/Name/' file.txt。示例:如果你想从GFF3里提取出基因怎么做?2. awk ## 同时指定多个分割符。如果指定多个分隔符,使用中括号。

2023-04-19 20:30:00 1458 1

原创 【R报错】之安装包不可写入library:错误 lib = “C:/Program Files/R/R-4.0.4/library 不可写入

R报错 lib = “C:/Program Files/R/R-4.0.4/library 不可写入,解决办法

2022-12-06 14:41:12 5719 2

【R语言optparse 包】如何让你的R脚本变简洁、变优雅

【R语言optparse 包】如何让你的R脚本变简洁、变优雅

2023-09-25

【R语言optparse 包】如何让你的R脚本变简洁、变优雅

【R语言optparse 包】如何让你的R脚本变简洁、变优雅

2023-09-25

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除