![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
开源项目
小八四爱吃甜食
这个作者很懒,什么都没留下…
展开
-
conda显示“INFO: deactivate-gfortran_linux-64.sh made the following environmental changes:”
如下,因为昨天想用conda安装一个软件,安装了很多东西,结果第二天一打开服务器就出现这样的信息,目前看着没有实质性影响,但是非常碍眼,所以想着解决一下。原创 2023-07-12 10:04:18 · 2943 阅读 · 1 评论 -
linux处理数据——去掉重复行&保留指定信息
【代码】linux处理数据——去掉重复行&保留指定信息。原创 2023-07-05 14:29:51 · 847 阅读 · 0 评论 -
python处理数据——筛选某列包含(模糊匹配)某元素的行
这篇是上一篇的进阶版,不仅要拆分数据,还要根据aaa列进行行的筛选。这里要保留包含“Pathogenic”的行,像是“aaaPathogenic”、“Pathogenic”都要保留下来。原创 2023-04-12 09:25:20 · 1240 阅读 · 0 评论 -
CSDN每日一练__01__字符串转换
如果不考虑:“*号前一个字符可以变成任意多个”这句话,代码很容易实现。个人水平实在是有限,只能把没有这个条件下的情况实现出来了。本代码适用的情况如下:已知一个字符串a,b,字符串b中的特殊符号:.分别可以变成任意字符,*可以让任意字符变成任意多个。现在问b是否可以通过特殊符号变成a?如果可以输出“yes”,不可以输出“no”原创 2023-02-16 14:14:54 · 116 阅读 · 0 评论 -
linux中使用awk根据多个列名提取指定列数据
提取的文件,第一行为列名,与name.list对应,默认输出第一列(a0列)首先需要准备一个只包含列名的文件name.list。和你要从中提取列的文件data.txt。不输出第一列(a0列)原创 2022-10-21 15:56:22 · 3247 阅读 · 0 评论 -
R语言处理数据——替换数据中某元素
以上就是替换数据中某元素的R代码,亲测好用。原创 2022-10-21 15:48:23 · 6550 阅读 · 3 评论 -
层次聚类分析及代码实现
如果对计算距离矩阵和聚类的算法有特定要求,可以参考下面的参数介绍。3,闵科夫斯基距离:minkowski。4,切比雪夫距离:chebyshev。5,马氏距离:mahalanobis。2,欧氏距离:euclidean。4,最长距离法:complete。1,绝对距离:manhattan。6,蓝氏距离:canberra。7,密度估计法:density。1,类平均法:average。2,重心法:centroid。3,中间距离法:median。5,最短距离法:single。6,离差平方和法:ward。原创 2022-10-21 15:28:41 · 1684 阅读 · 0 评论 -
Python批量统计数据分布的偏度并画图
上述代码不仅可以计算偏度,还可以计算峰度。原创 2022-10-13 17:53:01 · 968 阅读 · 0 评论 -
python打包加密工具:Pyinstaller和Nuitka
还有编译成动态链接库的方法,在这里不赘述了,主要是编译成.so文件,安全性也是高的。会生成一个bin文件和其他文件,使用./yourpythonfile.bin就和python yourpythonfile.py的效果是一样的。封装的时候,.py文件首先是被转成了.c文件,然后被编译成了.o文件,最后合并成.bin可执行文件。这样的过程虽然简单,但是也可能被轻易反编译。从bin到C是不可逆的,从C到Python也是不可逆的,代码相对来说很安全。封装整个包,同时一些模块使用动态库的方式,可以使用下面的命令。原创 2022-09-02 13:17:24 · 3243 阅读 · 0 评论 -
linux批量修改多个文件的同一部分内容
文件脚本中我想批量修改"bashrc_crc"为"bashrc"原创 2022-07-20 14:08:25 · 866 阅读 · 0 评论 -
解决非root用户安装软件中cannot create regular file `/usr/local/lib/libz.a‘: Permission denied
比如我现在要安装一个软件叫zlib,安装过程如下:在make install这一步中出现了问题:由于无法写入/usr/local/lib,参考了网上的解决办法,可以自己添加一个usr文件夹。首先自定义编译的输出目录为/***/usr/接着,继续就可以了。如果想把这个命令添加到环境变量中,可以在~/.bashrc中添加一行:...原创 2022-07-07 10:39:49 · 9235 阅读 · 3 评论 -
批量提取网页中的超链接
如果使用Chrome的话,需要安装一个Google插件:Link Grabber。顾名思义,使用这个插件就能捕获网页中的所有链接。火狐也有类似功能的插件,但是需要安装指定的旧版本。具体可以百度。右键,点击“审查元素”,再在控制台上输入以下几行代码:随后就会出现你需要的链接...原创 2022-07-03 21:59:29 · 2648 阅读 · 1 评论 -
R语言画图——ggplot2画截断柱状图及R语言从图片中取色
R语言画图——ggplot2画截断柱状图及R语言从图片中取色1、ggplot2画截断柱状图(使用的R包:ggbreak)代码如下:##这里是省略y轴110到140之间的部分scale_y_break(c(110, 140), scale = 0.6, space = 0.1, ticklabels = c(200, 400), expand = expan原创 2022-05-03 19:51:41 · 3088 阅读 · 0 评论 -
R语言处理数据——快速将多列数据首尾相连成一列
快速将多列数据首尾相连成一列代码如下: data <- c(indv[,n]) for (j in a:b) { data <- c(data,indv[,j]) }原创 2022-04-20 10:49:10 · 5322 阅读 · 1 评论 -
R语言处理数据——仅删除全部缺失(全部为NA)的行
仅删除全部缺失(全部为NA)的行代码如下:# 先写成函数的形式,方便调用removeRowsAllNa <- function(x){x[apply(x, 1, function(y) any(!is.na(y))),]}removeColsAllNa <- function(x){x[, apply(x, 2, function(y) any(!is.na(y)))]}data <- removeRowsAllNa(data)# 非函数形式则更简短,其中 x 为 Da原创 2022-04-20 10:34:24 · 4690 阅读 · 2 评论 -
linux处理数据常用指令
linux处理数据常用指令统计某字符出现的行数## 例如,统计test.vcf文件中“-”字符出现的行数find test.vcf | xargs cat | grep .*-.*|wc –l删除某字符所在的行## 例如,删除test.vcf文件中“-”字符所在的行sed -e "/-/d" out.vcf > test_out.vcf替换文件内固定字符## 例如:把0|0替换为0sed -i 's#0|0#0#g' beagleout.vcf统计文件列数## 统计beag原创 2021-08-27 10:06:25 · 336 阅读 · 0 评论 -
R语言处理数据——ggplot2去掉网格线和背景色
ggplot2去掉网格线和背景色#ggplot2去掉网格线和背景色+ theme_bw() + theme(panel.grid.major=element_line(colour=NA), panel.background = element_rect(fill = "transparent",colour = NA), plot.background = element_rect(fill = "transparent",colour = NA),原创 2021-08-25 14:25:33 · 13439 阅读 · 1 评论 -
R语言处理数据——查看某列重复元素及重复次数
查看某列重复元素及重复次数#查看某列大于1的元素library(tidyfst)count_dt(g,POS) %>% filter_dt(n>1)原创 2021-08-25 14:24:41 · 14390 阅读 · 0 评论 -
R语言处理数据——查看数据缺失位置及替换
查看数据缺失位置及替换#查看geno.1中缺失所在列which(colSums(is.na(geno.1))==T)#查看geno.1中缺失所在行which(rowSums(is.na(geno.1))==T)#用0替换缺失值d[is.na(d)] <- 0#筛选a,b两个character中的不同元素并打印出来setdiff(a,b)...原创 2021-08-25 14:23:04 · 4960 阅读 · 0 评论 -
R语言处理数据——画图时加大标题
画图时加大标题##图形文本可分为三类,分别是标题,可以通过title()函数添加;##图形内部文本,通过text()函数实现;##图形周边文本,可以通过mtext()函数实现。#R语言加大标题,普通作图时mtext("dot and line",side = 4,outer = F,col = "purple")#遇到无法用mtext和legend时,例如用plot_grid进行作图添加标题title <- ggdraw() + draw_label(figure.title,原创 2021-08-25 14:22:00 · 4273 阅读 · 0 评论 -
R语言处理数据——删除指定列
删除指定列## R语言删除某列library(dplyr)## 按索引删除data <- select(data,-3)## 按列名删除单列data <- select(data,-lieming)## 按列名删除多列data <- select(data,-c(lieming1,lieming2))原创 2021-08-25 14:20:44 · 60240 阅读 · 2 评论 -
R语言处理数据——生成随机数
生成随机数#如下连续生成16组1:3的随机不重复整数(每次3个),存储至repl中:repl <- NULLfor(x in 1:16) {repl <- c(repl, sample(1:3, 3, replace = F))}原创 2021-08-25 14:13:12 · 2931 阅读 · 0 评论 -
R语言处理数据——重命名列
重命名列##重命名全部的列是name(data) <- c("NO","name")##但是数据集有点长的时候用name,没办法对单个列##查了一下colnames(data)[2] <- 'newname'原创 2021-08-25 14:11:48 · 8926 阅读 · 0 评论 -
R语言画图——structure图一页多图
structure图一页多图library(ggplot2)library(grid)library(cowplot)## 我这里是9个文件,要画9张图,画到一页上,且是9行1列的这种ta1 = read.table("fout.2.meanQ")ta2 = read.table("fout.3.meanQ")ta3 = read.table("fout.4.meanQ")ta4 = read.table("fout.5.meanQ")ta5 = read.table("fout.6.me原创 2021-08-25 14:09:21 · 1823 阅读 · 4 评论 -
R语言处理数据——筛选两个文件中某列的相同元素
筛选两个文件中某列的相同元素library(dplyr)# 筛选type1的POS列,和type2两个文件中的BP列的相同元素position <- Reduce(intersect,list(type1chr$POS,type2chr$BP))# 查看相同元素的个数(去重复)length(unique(position))...原创 2021-08-24 17:25:23 · 9470 阅读 · 11 评论 -
R语言处理数据——筛选某列中元素为特定值的行
筛选某列中元素为特定值的行举个例子,我想要筛选出文件中chr列为1-10的行时,可以这样处理:library(dplyr)data_chr <- filter(data, CHROM %in% 1:10)当然可以按之前发过的帖子,删除chr列为11的行:https://blog.csdn.net/weixin_46605479/article/details/119894195...原创 2021-08-24 17:18:36 · 18510 阅读 · 0 评论 -
R语言处理数据——批量读取文件取并集
批量读取文件取并集这里介绍的算是笨办法,适用于文件名字很有规律的情况,另外linux似乎也可以取并集,且比R语言更加方便。代码如下:# 加载一个我常用的数据处理R包library(dplyr)library(data.table) #读大文件很快# 读文件a1 <- fread(paste0("type4_ColB-B73v4.",1,".egwas"),sep = "\t")a2 <- fread(paste0("type4_ColB-B73v4.",2,".egwas"),原创 2021-08-24 17:10:43 · 1331 阅读 · 0 评论 -
R语言处理数据——删除文件某列中包含某元素的行
删除文件某列中包含某元素的行代码:# 挑选出列名为col中元素为delete的行数del <- which(data$col=="delete")# 删除这些行data_del <- data[-del,]原创 2021-08-24 17:05:23 · 20273 阅读 · 5 评论 -
对基因型和表型做t.test
t.test参考部分参考链接:https://zhuanlan.zhihu.com/p/126351774https://zhuanlan.zhihu.com/p/123907459因为只有数值型基因型和表型,想用tassel产生p-value很困难。所以老师建议用t检验。代码和数据如下。第一列是表型值,第二列及后面每列都是标记。可以说行是个体,列是基因型值。peaks.win <- matrix(NA, 2000, 4)colnames(peaks.win) <- c("ev1原创 2021-06-23 16:12:40 · 361 阅读 · 0 评论 -
GWAS曼哈顿图总结
一页多GWAS图文件如下:内部格式如下:贴出代码# setwd("路径")library(dplyr)library(stringr)library(tidyverse)library(qqman)pc <- 10#添加画布#pdf(paste0("mafplink_miami.pdf"),width=40, height=10)tiff(filename = "CML333-eigen_res.tiff",width = 5000,height = 1500,res =原创 2021-06-23 16:04:39 · 1143 阅读 · 0 评论 -
GWAS网站总结(解放收藏夹)
GWAS网站总结(解放收藏夹)跑通GWAS,用这些脚本就够了.WGS全基因组分析||VCFTOOLS使用.convert VCF to HMP format.VCF格式的学习及对VCF文件的统计.生物信息数据格式:vcf格式.vcftools用法详解.收集VCFTOOLS所有用法.vcf文件与vcftools(二).统计SNP数据的缺失率,MAF,Heterozygote.转载vcftools基于全基因组snp数据如何进行主成分分析(PCA).全基因组关联分析(GWAS)-统计方法与模原创 2021-06-17 11:55:09 · 1757 阅读 · 0 评论 -
深度学习笔记01
深度学习笔记01线性代数标量,向量,矩阵,张量矩阵转置矩阵加法矩阵乘法单位矩阵矩阵的逆范数特征值分解奇异值分解PCA主成分分析首先也是参考以下链接中的内容进行的一个学习,希望总结后能有写收获。链接: DeepLearning.线性代数标量,向量,矩阵,张量标量:单独的数,用斜体小写字母表示。向量:表示一列数。矩阵:表示一个二维数组。有时我们需要对矩阵进⾏逐元素操作,如将函数 f 应⽤到 A 的所有元素上,此时我们⽤ f(A)i,j 表⽰。张量:超过二维的数组矩阵转置相当于沿着对角线翻原创 2021-06-11 14:33:56 · 649 阅读 · 1 评论 -
vcftools的使用小结
vcftools的使用小结计算等位基因频率计算Fst转换为plink格式比较两个vcf文件根据id保留或去除vcf文件的样本基因型数据转换为012格式参考链接计算等位基因频率用--freq计算等位基因频率vcftools --vcf test.vcf --freq --out output对来自chr1的每一个位点统计其基因频率vcftools --gzvcf combined200.vcf.gz --freq --chr chr1 --out chr1_analysis计算Fst使用--原创 2021-04-08 10:43:15 · 4831 阅读 · 0 评论 -
R语言计算Roger遗传距离
R语言计算遗传距离遗传距离是什么,怎样衡量遗传距离的计算Roger遗传距离解决过程关于一些弯路遗传距离是什么,怎样衡量遗传距离指个体、群体或种之间用DNA序列或等位基因频率来估计的遗传差异大小。衡量遗传距离的指标包括用于数量性状分析的欧式距离(D),可用于质量性状和数量性状的Gower距离(DG)和Roger距离(RD),用于二元数据的改良Roger距离(GDMR)、Nei&Li距离(GDNL)、Jaccard距离(GDJ)和简单匹配距离(GDSM)等。参考链接遗传距离的计算Roger遗传原创 2021-04-02 17:47:03 · 2872 阅读 · 5 评论 -
关于NJtree的个人总结
关于NJtree的个人总结NJtree产生步骤NJtree产生之tassel到MegaNJtree美化NJtree基因顺序的提取NJtree产生步骤NJtree产生之tassel到Mega首先我们手上是vcf文件,可以通过hapmap文件等格式转化。详见GWAS(1)——文件格式及linux上的转换。使用如下命令,将vcf文件转为phylip(Interleaved)格式。当然,这个也可以在Windows的tassel软件上操作。run_pipeline.pl -Xmx50G -plink -pe原创 2021-04-02 10:23:15 · 2808 阅读 · 0 评论 -
miniconda的安装及其配置
安装miniconda及其配置下载安装命令conda添加镜像命令其他conda常用命令下载安装命令wget -c https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.shsh Miniconda3-latest-Linux-x86_64.sh按照提示往下走就可以,最后source .bashrc就可以了。conda添加镜像命令conda config --add channels https://mirrors.原创 2021-03-18 10:29:55 · 547 阅读 · 0 评论 -
GWAS(3)——曼哈顿图和QQ图,PCA plot
目录曼哈顿图GAPIT作图GEMMA分析rMVP代码QQ图rMVPqqmanPCA plot曼哈顿图GAPIT作图###GAPIT 网站:http://www.zzlab.net/GAPIT/###源码:http://www.zzlab.net/GAPIT/gapit_functions.txt###R代码 ###加载包 library(multtest) library(gplots) library(LDheatmap) library(genetics) library(ape)原创 2021-03-08 11:23:26 · 4394 阅读 · 1 评论 -
GWAS(2)——gwas相关的文件处理命令总结
目录筛选需要的ID计算缺失率、杂合率和最小等位基因频率(maf、het、missing)基因型过滤计算PCAPCA作图R代码筛选需要的ID当我们发现有些样本需要保留或剔除时,可以用vcftools进行处理。参考链接:https://www.omicsclass.com/article/647例子假设我们根据需要保留一些样本,先将需要的样本ID存为txt文件(如yes.txt),再用命令:vcftools --vcf test_vcf.vcf --recode --recode-INFO-all原创 2021-03-05 10:45:57 · 2123 阅读 · 1 评论 -
GWAS(1)——文件格式及linux上的转换
目录数据格式hapmapvcf数据格式转换hmp转plink数据格式hapmaphapmap格式的介绍网站:https://max.book118.com/html/2017/0524/108715467.shtm主要是存储基因型的文件。vcfVCF是用于描述SNP,INDEL,SV的文本文件。是GATK表示遗传变异的一种文件格式。详细介绍见网站:https://www.internationalgenome.org/wiki/Analysis/vcf4.0/第一部分是注释信息,以##开头。原创 2021-03-05 10:24:47 · 7210 阅读 · 4 评论 -
使用BEAGLE发生错误的解决办法ERROR: invalid ALT allele at 1:3439801 [-] /Linux下统计文件某元素出现的行数/Linux下删除包含某元素的行
在使用BEAGLE5.0版本填补基因型时,遇到这样一个问题:接着在网上搜索了一下解决办法,在biostar上看到有人遇到了同样的问题,有人建议使用BEAGLE4.0版本,我尝试后仍然没有解决问题。然后多方搜索发现有这样一个帖子:网址如下:https://ask.csdn.net/questions/4419232这个问题应该和我的类似,我的vcf文件里面多了“-”符号,而这个帖子里多了“*”。于是数了一下文件里有多少行“-”:find test.vcf | xargs cat | grep .原创 2021-01-11 16:49:00 · 1418 阅读 · 2 评论