- 博客(52)
- 收藏
- 关注
原创 【软件使用-MEGA】构建进化树报错
When = 2024年09月13日 下午 01时32分49秒 下午。构建进化树,最低样本数需要3个及以上,只有2个构建进化树就会报此错误。
2024-09-13 18:30:00 209
原创 【生信分析常用软件】plink常用功能之提取特定样本、并按指定样本顺序进行基因型数据排序
updata.txt 含oldFID、oldIID、newFID、newIID四列,以空格分割。# updata_sort.txt 含FID、IID两列,以空格分割,将按照该文件顺序排序。# keep.txt 含FID、IID两列,以空格分割。# 分析样本按指定顺序排序。
2024-08-28 21:30:00 267
原创 【生信分析常用软件】plink常用功能之翻转正负链(--flip)
1. 基于二进制文件合并,会自动输出不能合并的位点:all-merge.missnp,以输出文件名+“-merge.missnp”,内含不能合并的位点。分型数据二中SNP1:C G 类型,均可以通过链的翻转实现数据合并。当不同数据合并时,如果一个数据使用正链,另外一个数据使用反链,就会导致合并数据出现问题,报错。准备需要翻转位点明细,含一列:SNPID,可直接翻转上一步输出的文件*merge.missnp。方案二:尝试翻转分型,统一链,然后合并。数据合并报错会提示:多等位 3+ alleles。
2024-08-28 21:15:00 563
原创 【软件使用-MEGA】报错及解决方法
解决办法:基于plink计算的遗传距离,保留4位小数。报错原因:输入数据保留小数位太多不识别。报错原因:样本名称重复。
2024-08-27 18:45:00 349
原创 【其它-高效处理小技巧】如何批量备份263企业邮箱邮件之-如何查看.eml
2. 方法二是:借助第三方客户端软件:如Foxmail、outlook。完成下载软件后,直接右键目标.eml 选择打开方式---选择其中一种,邮件则被正常打开。小结:这样批量备份的邮件,再打开的时候,附件依然正常备份下来可以正常,是不是方便很多。1. 最简单的方法一是,作为附件再发一遍邮件,然后预览,但占邮箱内存;继之前批量备份邮件,如何查看呐?
2024-08-22 19:15:00 208
原创 【其它-高效处理小技巧】如何批量备份263企业邮箱邮件
近期由于有人离职,邮箱要注销,之前邮箱内有5000多封沟通邮件,为避免将来找不到沟通过程,所以需要备份。目的:一次性备份所有沟通邮件。
2024-08-21 19:45:00 437
原创 【脚本说明撰写markdown】如何基于VScode 撰写使用说明文档,及格式转换.md、.html、.pdf格式
进入vscode后,进入扩展工具(快捷键ctrl+shift+X),搜索markdown,选择markdown All in One并安装安装Markdown Preview Enhanced,是一种主题.打开右边预览,如图,可以直接观察到预览结果,Markdown 还没有办法指定图片的高度与宽度。
2024-08-07 21:45:00 699
原创 【Linux】解决windows下文件到linux下文件格式^M的问题之tr命令、sed命令
方法一: sed -i 's/^M/ /g ' 方法二 : tr -d "^M"1. 删除 -d 2. 替换字符
2024-06-25 21:07:56 281
原创 【linux基础awk】如何基于强大的awk打印列、计算
打印符合条件的条数:统计第一列大于0的行有多少个。先读取数据,然后判断大于0,则变量num加1,最后打印符合条件的总数。示例:基于plink计算 杂合度。
2024-06-25 21:02:48 265
原创 【linux基础】后台执行命令&,防止中断nohup
前台运行与后台运行:前台运行,就是运行过程一直在屏幕输出。语法:加载一个命令的最后面,表示这个命令放在后台执行。主要参考:linux后台执行命令:&与nohup的用法。用途:加在一个命令的最前面,表示不挂断的运行命令;补充:这样程序在后台运行,但是日志依然在前台;1.终端上不要有大量的log出现,后台运行。防止窗口关闭 / 断网造成运行代码异常。nohup command(命令) &命令可以查看当前有多少在后台运行。目的:1. 提交至后台。需要将日志输出重定向。
2024-06-25 21:00:23 255
原创 【基因功能富集2:分析流程】非模式生物怎么注释 clusterProfiler包GO、KEGG
例如:[百度茶树](https://baike.sogou.com/v87233.htm?ch=frombaikevr&fromTitle=%E8%8C%B6%E6%A0%91)官网:https://www.genome.jp/kegg/tables/br08606.html。Ctrl +f : 页面搜索Camellia sinensis。不常见的物种如何进行富集分析?提示:拉丁文名要准确。
2024-06-18 21:30:00 441
原创 【计算Nei遗传距离】
而其它的不识别这样的规则,同样用plink转换为vcf时,会有这样的提示。直接用plink转换为VCF,丢失了等位基因分型(REF ALT)(plink编码的规则)
2024-05-31 20:00:00 368
原创 【软件使用-MEGA】基于NJ和ML方法构建进化树结果比较
构建进化树有很多可选的算法,其中比较常用的NJ(邻接法),也有基于似然法NL,如下图所示,构建进化树具体方法可以参考我之前写的。特点: 1. 运算较NJ法很耗时,需要等一段时间,特别是样本数比较多时,可能需要3h左右。但邻接法可能只需要2分钟以内。此处基于fa格式文件,耗时约30秒,涉及计算遗传距离等过程。2种方法运算结果,并没有太大的差别。基于NJ方法构建进化树结果。基于ML方法构建进化树结果。
2024-04-12 19:15:00 1167
原创 【R基础】一组数据计算均值、方差与标准差方法及意义
【R基础】一组数据计算均值、方差与标准差方法及意义均值、方差与标准差是用来描述数据分布情况。
2024-04-10 19:15:00 1400
原创 【linux基础】bash脚本的学习:定义变量及引用变量、统计目标目录下所有文件行数、列数
4.读取列表变量值:从命令读取变量 如 for state in $(cat file.txt)单个文件可以用 wc -l;多个文件,可以用通配符 / 借助bash脚本。输出到新的文件夹:./1.sh > 1.txt。修改脚本权限:chmod 777 1.sh。以上,可以简化为如下,根据通配符统计。统计并输出指定文件夹下所有文件行数。2.合并变量,有空格/无空格。1.定义变量名,使用引号。
2024-04-09 19:15:00 316
原创 [软件使用-Vcftools / Plink ] VCF文件中剔除/提取一个或多个样本,两组方法实现及运算时间比较
比如剔除一个样本--重测序数据可能需要1h;但vcf 转换为 plink可能耗时0.5h,借助plink提取/剔除样本可能就1min左右,可以试一下vcf 转换为 plink 后再执行提取或删除,速度相对比较快。剔除样本 --remove。tips: 运行比较耗时。提取样本 --keep。
2024-04-09 18:45:00 1950
原创 【软件使用-MEGA】如何基于ML方法构建进化树
特别提示:基于该方法软件提示输入需要是基因型 fa格式文件,故其它格式,如plink需要转换为 fa格式step1: 基于windows输出.mao文件----输出保存即可step2: 准备 fa 格式文件,进行进化树构建---生成 .nwk 文件step1: windows输入.fa文件选择nostep3: 可以直接看见进化树了----导出nwk文件导出NWK。
2024-03-05 21:45:00 1929
原创 【windows】快速汇总指定文件夹下的所有文件名称到excel
又到了月底疯狂总结本月项目情况的时候了,项目都储存在了指定文件夹下,以项目名称命名,这时候总结起来,一个个粘贴就比较费劲。就想借助windows自带的cmd 命令行,实现统一汇总到指定的excel下。果然强大的搜索功能,让我3分钟学会并解决我的问题。
2023-12-29 19:30:00 864
原创 【python编辑器探索】Spyder
Spyder是一个功能强大的科学计算环境,用 Python 原生编写。下载推荐:见之前,如果电脑配置一般,打开Anaconda费劲,建议单独下载Spyder右上角,每行显示一个变量信息,包括变量名称、类型、长度、值。双击对应的变量行,还可以查看变量中的所有数据。右下角,查看数据分析运行结果,也可以输入代码。常用快捷键注释:Ctrl+1F5 :运行当前 py 文件;Ctrl+Enter快捷键F9 :运行当前行或者选定区域。Ctrl+D:删除整行Ctrl++ 放大。
2023-11-09 17:47:57 787
原创 【plink】使用细节
3. 样本名称含下划线时,vcf转plink容易出错,需要加一个参数--const-fid,可以防止名称不一致,且有利于后期提取样本。如下划线10_2直接拆开变成了FID为 前缀10 IID为 后缀2。2. plink处理基因型数据时,vcf转换为plink数据时,非二态位点,会自动选用主等位基因为A2,A1次等位基因。4. 提取位点 注意LD质控位点,位点名称不能为点,后期无法根据SNPID剔除位点。:如原始chr 30 ,经过plink处理以后会自动转变为30。需要位点重命名,提取就没问题了。
2023-10-20 21:00:00 634 2
原创 【好用的文献阅读翻译软件】知云文献翻译
2. 可以重点翻译生词/翻译一句/一段。知云文献翻译网址:www.ZhiYunWenXian.cn。优点: 1. 可以直接标注重点。点开---默认一步一步下载。下载好啦--打开想看的文献。
2023-10-10 21:45:00 651
原创 【R语言】自定义的函数 function
调用有参数的函数,括号里写明参数值 function(6) new.function(a = 11, b = 5, c = 3)#内置函数的简单示例是 seq(),mean(),max(),sum(x) 和 paste(...) 等。my.function1(1,1,1,1,1,1,1) #使用参数值调用函数(按位置和名称)# 调用没有参数的函数 ,直接用空的括号 new.function()# 示例1: 求1的3次+2的3次+。2. 函数调用方式;
2023-10-08 21:30:00 2742
原创 【plink】如何把基因型数据ATCG格式转换为012之一 --recodeA
-recodeA : 一个SNP标记只有1列,纯合转换为02,杂合为1(如TT 替换为0, 0是major;--recodeA : snp的major变为了0, snp的minor变为了2, 杂合变为了1.--recodeAD:一个标记有2列 (TT 替换为00,AA替换为20;命令:将基因型数据转化为012的raw格式。
2023-10-08 21:15:00 1958 1
原创 【分析软件GCTA】计算样本间亲缘关系、PCA、GBLUP、fst
是用于评估表型变异中遗传变异所占的比例,即评估遗传力的大小。参考官网有很多,但我更关注以下1. GCTA计算亲缘关系GRM矩阵(kinship矩阵)2. 利用全基因组SNP估计近亲系数3. 群体遗传中,GCTA中做4. 不同性状/表型间(traits)的遗传相关性默认Yang:–make-grm-alg 0近亲系数(coefficient of inbreeding)指的是某一个体从他的祖先得到一对纯合的,等同的基因的概率,即在遗传上是完全相同的基因的概率。
2023-09-26 22:15:00 1323
原创 【如何根据vcf查找基因组】找到基因组版本及原始数据
基于NCBI查找-------找到对应编号ZJU1.0-----选中三个点-----查看明细。可以看到基因组组装水平、染色体条数、基因组大小、有多少个基因。染色体以NC开头与数字的对应关系-----可直接下载。查看vcf数据“##” 表头最后一行。----进入新的页面。
2023-09-26 21:45:00 333 1
原创 【R语言optparse 包】如何让你的R脚本变简洁、变优雅
2. 1 的基础上,添加浮点参数(” %m.nf ” ,其中m 表示打印的宽度,n 表示小数点后的位数。如果流程比较长,或者是希望借助IT实现网页版分析,仅选择几个参数,普通不会代码的人也可以分析,则建议本文的重点R包--optparse。使得R脚本流程化,每次只需要修改参数即可,简化主流程脚本,与IT衔接,实现网页版小白点点点的分析目的。报错2:参数类型指定不对(错写为默认值)----------改为默认的整数 / 字符等即可。现实中,可能要实现一个分析目的,流程会很长,看起来没有逻辑,又很冗余。
2023-09-25 18:30:00 1244 1
原创 【iCIMapping】Bin划分如何理解
1. 划分Bin的结果没有区别,只是最终采用的代表一个bin的标记不同---------最终的bin的数目是一致的-----------------最终的图谱长度也有微小的差异(原来3284--现在3273);尝试结果:一般比较近,icimapping 划分bin的输入文件并不需要标记的物理位置,但最终划分到一个Bin的标记基本上物理位置很近;包含每个bin中已识别的bin组和已删除标记的汇总信息。标记属于chr9 ---划分为一个BIn-----最终保留了缺失率最小的一个标记/ 可选随机保留。
2023-09-19 19:15:00 1146 3
原创 【R语言】绘制PCA之一:基本理论
PCA 变换之后的各个维度被称为主成分,各个维度之间是线 性无关的。为了使变换后的数据各个维度提供的信息量从大到小排列,变换后的数据的各个维度的方差也应该是从大到小排列的。数据经过 PCA 变换 之后方差最大的那个维度被称为第一主成分。多个变量较为复杂---通过数学的方式---线性转换为少数几个变量(保留了原始数据绝大部分重要差异信息。. 群体分层分析和推断进化关系,与phylogenetic tree,structure的结果互相验证。. 检查离群样本,有选择的剔除离群样本(如取样错误、严重污染)。
2023-07-25 21:45:00 142
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人