自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(55)
  • 问答 (1)
  • 收藏
  • 关注

原创 R语言dplyr包select函数删除dataframe数据中包含指定字符串内容的数据列(drop columns in dataframe)

我有一个数据框,想删除列名包含“Pval”的列。

2023-08-16 15:14:08 800

原创 解决bcftools报错:bcftools: error while loading shared libraries: libcrypto.so.1.0.0

报错内容显示的是没有libcrypto.so.1.0.0,所以这里软链接名字也是1.0.0。

2023-08-01 16:30:28 1516

原创 conda显示“INFO: deactivate-gfortran_linux-64.sh made the following environmental changes:”

如下,因为昨天想用conda安装一个软件,安装了很多东西,结果第二天一打开服务器就出现这样的信息,目前看着没有实质性影响,但是非常碍眼,所以想着解决一下。

2023-07-12 10:04:18 2943 1

原创 linux处理数据——去掉重复行&保留指定信息

【代码】linux处理数据——去掉重复行&保留指定信息。

2023-07-05 14:29:51 847

原创 R语言作图——热图聚类及其聚类结果输出

不多说了,做个记录,代码如下。

2023-06-08 17:57:58 1114

原创 Linux操作——提取某列中多个范围值的行

标题有些难理解,详细介绍一下。我这里有一个区域bed文件,类似于每行是“chr1 1000 100000”这样。目标文件是beta值文件,第一列是chr列,第二列则是单点的pos列。第三及以后列就是每个样本的beta值。如果区域只有两三个,就可以直接用来实现。现在区域太多了,所以想先写出一个脚本再执行。

2023-06-08 10:42:39 405 2

原创 基因注释R包——annotatr介绍

下一代测序实验和生物信息学管道产生的基因组区域在注释基因组特征时更有意义。出现在外显子或增强子中的SNP可能比出现在基因间区域的SNP更令人感兴趣。有趣的是,我们发现一种特定的转录因子主要结合在启动子中,而另一种转录因子主要结合在3’非翻译区。含有CpG岛的启动子的超甲基化可能表明一种情况下与另一种情况下不同的调节机制。annotatr提供了基因组注释和一组功能,用于在基因组注释的上下文中读取、相交、总结和可视化基因组区域。

2023-05-25 15:28:36 2498 3

原创 R语言ggplot2输出pdf中文不显示问题

画图时有的标签是中文的,在RStudio的工作台显示,但是输出为pdf时就是一堆省略号或者小方块。

2023-05-10 09:58:03 2491 1

原创 R语言处理数据——dplyr包的使用(1)

首先根据以下两个数据集进行处理:attend.csv主要需求如下:两个数据有共同的列,需要合并他们;根据weekattend获得10个最佳的团队;绘制图表,根据playoff和non-playoff选择top10的球队作图。

2023-04-20 17:26:40 194

原创 python处理数据——筛选某列包含(模糊匹配)某元素的行

这篇是上一篇的进阶版,不仅要拆分数据,还要根据aaa列进行行的筛选。这里要保留包含“Pathogenic”的行,像是“aaaPathogenic”、“Pathogenic”都要保留下来。

2023-04-12 09:25:20 1240

原创 python处理数据——根据某列拆分excel文件

这里想要把一个大excel根据某列拆分为多个小的excel,再投递到队列中,以提高处理效率。

2023-04-11 10:29:40 1271 1

原创 R语言处理数据——janitor包的介绍及使用

janitor可以检查并清理脏数据,适用于R语言用户。主要功能如下:1、完美格式化数据框的列名;2、创建并格式化1-3个变量的频率表,可以看作是一个改进的table()函数;3、提供用于清理和检查数据框的其他工具制表和报告功能类似于SPSS和excel的常用功能。janitor是一个对标tidyverse的包。具体来讲,它与%>%这一pipeline配合的很好,并针对清理readr和readxl包中的数据进行了优化。

2023-04-10 10:59:03 1169

原创 R语言ggplot2可视化:自定义设置X轴上的时间间隔(以日、月、年为单位)

用ggplot2简单绘制了一个散点图,x轴为时间。画出来的图,刻度就分开了,这里是以月为单位的。因此需要修改x轴标签的密度。

2023-03-20 16:18:33 2357 1

原创 R语言字符串处理——一列中多种特殊字符的替换和拆分

需要把图中的多位数字保留,去掉特殊符号和单个数字经观察,除了多位数字外,其余数字左边为”:“,右边为”,“,根据这个规律进行正则替换。

2023-03-20 11:31:03 1655

原创 R语言处理数据——多组元素排列组合(全排列)

有多组character需要进行排列组合,例如,我有多个基因,每个基因有三种基因型(aa, ab, bb),需要对它们进行排列组合,来计算组合后的基因型带来的风险值等等。

2023-03-17 15:06:39 934 1

原创 CSDN每日一练__01__字符串转换

如果不考虑:“*号前一个字符可以变成任意多个”这句话,代码很容易实现。个人水平实在是有限,只能把没有这个条件下的情况实现出来了。本代码适用的情况如下:已知一个字符串a,b,字符串b中的特殊符号:.分别可以变成任意字符,*可以让任意字符变成任意多个。现在问b是否可以通过特殊符号变成a?如果可以输出“yes”,不可以输出“no”

2023-02-16 14:14:54 116

原创 机器学习笔记——Chapter 1 – The Machine Learning landscape

Answer:train-dev集又称为训练开发集,当数据来源不同时,模型训练后在训练开发集上进行评估,来判别模型效果不佳的原因。强化学习是ML的一个分支,在一个给定的环境(如游戏)中,训练代理(机器人)选择在一段时间内对它们的奖励最大化的行动。Answer:基于实例的学习。Answer:验证集是训练集的一部分,可以在去掉验证集的训练集数据中训练具有各种超参数的多个模型,并选择在验证集上表现最佳的模型。Answer:在有监督学习中,提供给算法的包含所需解决方案的训练集称为标签,这些训练数据集是被标记的。

2023-02-10 17:59:15 1025

原创 linux中使用awk根据多个列名提取指定列数据

提取的文件,第一行为列名,与name.list对应,默认输出第一列(a0列)首先需要准备一个只包含列名的文件name.list。和你要从中提取列的文件data.txt。不输出第一列(a0列)

2022-10-21 15:56:22 3247

原创 R语言处理数据——替换数据中某元素

以上就是替换数据中某元素的R代码,亲测好用。

2022-10-21 15:48:23 6550 3

原创 层次聚类分析及代码实现

如果对计算距离矩阵和聚类的算法有特定要求,可以参考下面的参数介绍。3,闵科夫斯基距离:minkowski。4,切比雪夫距离:chebyshev。5,马氏距离:mahalanobis。2,欧氏距离:euclidean。4,最长距离法:complete。1,绝对距离:manhattan。6,蓝氏距离:canberra。7,密度估计法:density。1,类平均法:average。2,重心法:centroid。3,中间距离法:median。5,最短距离法:single。6,离差平方和法:ward。

2022-10-21 15:28:41 1684

原创 Python批量统计数据分布的偏度并画图

上述代码不仅可以计算偏度,还可以计算峰度。

2022-10-13 17:53:01 968

原创 python打包加密工具:Pyinstaller和Nuitka

还有编译成动态链接库的方法,在这里不赘述了,主要是编译成.so文件,安全性也是高的。会生成一个bin文件和其他文件,使用./yourpythonfile.bin就和python yourpythonfile.py的效果是一样的。封装的时候,.py文件首先是被转成了.c文件,然后被编译成了.o文件,最后合并成.bin可执行文件。这样的过程虽然简单,但是也可能被轻易反编译。从bin到C是不可逆的,从C到Python也是不可逆的,代码相对来说很安全。封装整个包,同时一些模块使用动态库的方式,可以使用下面的命令。

2022-09-02 13:17:24 3243

原创 linux批量修改多个文件的同一部分内容

文件脚本中我想批量修改"bashrc_crc"为"bashrc"

2022-07-20 14:08:25 866

原创 解决非root用户安装软件中cannot create regular file `/usr/local/lib/libz.a‘: Permission denied

比如我现在要安装一个软件叫zlib,安装过程如下:在make install这一步中出现了问题:由于无法写入/usr/local/lib,参考了网上的解决办法,可以自己添加一个usr文件夹。首先自定义编译的输出目录为/***/usr/接着,继续就可以了。如果想把这个命令添加到环境变量中,可以在~/.bashrc中添加一行:...

2022-07-07 10:39:49 9235 3

原创 批量提取网页中的超链接

如果使用Chrome的话,需要安装一个Google插件:Link Grabber。顾名思义,使用这个插件就能捕获网页中的所有链接。火狐也有类似功能的插件,但是需要安装指定的旧版本。具体可以百度。右键,点击“审查元素”,再在控制台上输入以下几行代码:随后就会出现你需要的链接...

2022-07-03 21:59:29 2648 1

原创 R语言画图——ggplot2画截断柱状图及R语言从图片中取色

R语言画图——ggplot2画截断柱状图及R语言从图片中取色1、ggplot2画截断柱状图(使用的R包:ggbreak)代码如下:##这里是省略y轴110到140之间的部分scale_y_break(c(110, 140), scale = 0.6, space = 0.1, ticklabels = c(200, 400), expand = expan

2022-05-03 19:51:41 3088

原创 R语言处理数据——快速将多列数据首尾相连成一列

快速将多列数据首尾相连成一列代码如下: data <- c(indv[,n]) for (j in a:b) { data <- c(data,indv[,j]) }

2022-04-20 10:49:10 5322 1

原创 R语言处理数据——仅删除全部缺失(全部为NA)的行

仅删除全部缺失(全部为NA)的行代码如下:# 先写成函数的形式,方便调用removeRowsAllNa <- function(x){x[apply(x, 1, function(y) any(!is.na(y))),]}removeColsAllNa <- function(x){x[, apply(x, 2, function(y) any(!is.na(y)))]}data <- removeRowsAllNa(data)# 非函数形式则更简短,其中 x 为 Da

2022-04-20 10:34:24 4690 2

原创 linux处理数据常用指令

linux处理数据常用指令统计某字符出现的行数## 例如,统计test.vcf文件中“-”字符出现的行数find test.vcf | xargs cat | grep .*-.*|wc –l删除某字符所在的行## 例如,删除test.vcf文件中“-”字符所在的行sed -e "/-/d" out.vcf > test_out.vcf替换文件内固定字符## 例如:把0|0替换为0sed -i 's#0|0#0#g' beagleout.vcf统计文件列数## 统计beag

2021-08-27 10:06:25 336

原创 R语言处理数据——ggplot2去掉网格线和背景色

ggplot2去掉网格线和背景色#ggplot2去掉网格线和背景色+ theme_bw() + theme(panel.grid.major=element_line(colour=NA), panel.background = element_rect(fill = "transparent",colour = NA), plot.background = element_rect(fill = "transparent",colour = NA),

2021-08-25 14:25:33 13439 1

原创 R语言处理数据——查看某列重复元素及重复次数

查看某列重复元素及重复次数#查看某列大于1的元素library(tidyfst)count_dt(g,POS) %>% filter_dt(n>1)

2021-08-25 14:24:41 14390

原创 R语言处理数据——查看数据缺失位置及替换

查看数据缺失位置及替换#查看geno.1中缺失所在列which(colSums(is.na(geno.1))==T)#查看geno.1中缺失所在行which(rowSums(is.na(geno.1))==T)#用0替换缺失值d[is.na(d)] <- 0#筛选a,b两个character中的不同元素并打印出来setdiff(a,b)...

2021-08-25 14:23:04 4960

原创 R语言处理数据——画图时加大标题

画图时加大标题##图形文本可分为三类,分别是标题,可以通过title()函数添加;##图形内部文本,通过text()函数实现;##图形周边文本,可以通过mtext()函数实现。#R语言加大标题,普通作图时mtext("dot and line",side = 4,outer = F,col = "purple")#遇到无法用mtext和legend时,例如用plot_grid进行作图添加标题title <- ggdraw() + draw_label(figure.title,

2021-08-25 14:22:00 4273

原创 R语言处理数据——删除指定列

删除指定列## R语言删除某列library(dplyr)## 按索引删除data <- select(data,-3)## 按列名删除单列data <- select(data,-lieming)## 按列名删除多列data <- select(data,-c(lieming1,lieming2))

2021-08-25 14:20:44 60240 2

原创 R语言处理数据——生成随机数

生成随机数#如下连续生成16组1:3的随机不重复整数(每次3个),存储至repl中:repl <- NULLfor(x in 1:16) {repl <- c(repl, sample(1:3, 3, replace = F))}

2021-08-25 14:13:12 2931

原创 R语言处理数据——重命名列

重命名列##重命名全部的列是name(data) <- c("NO","name")##但是数据集有点长的时候用name,没办法对单个列##查了一下colnames(data)[2] <- 'newname'

2021-08-25 14:11:48 8926

原创 R语言画图——structure图一页多图

structure图一页多图library(ggplot2)library(grid)library(cowplot)## 我这里是9个文件,要画9张图,画到一页上,且是9行1列的这种ta1 = read.table("fout.2.meanQ")ta2 = read.table("fout.3.meanQ")ta3 = read.table("fout.4.meanQ")ta4 = read.table("fout.5.meanQ")ta5 = read.table("fout.6.me

2021-08-25 14:09:21 1823 4

原创 R语言处理数据——筛选两个文件中某列的相同元素

筛选两个文件中某列的相同元素library(dplyr)# 筛选type1的POS列,和type2两个文件中的BP列的相同元素position <- Reduce(intersect,list(type1chr$POS,type2chr$BP))# 查看相同元素的个数(去重复)length(unique(position))...

2021-08-24 17:25:23 9470 11

原创 R语言处理数据——筛选某列中元素为特定值的行

筛选某列中元素为特定值的行举个例子,我想要筛选出文件中chr列为1-10的行时,可以这样处理:library(dplyr)data_chr <- filter(data, CHROM %in% 1:10)当然可以按之前发过的帖子,删除chr列为11的行:https://blog.csdn.net/weixin_46605479/article/details/119894195...

2021-08-24 17:18:36 18510

原创 R语言处理数据——批量读取文件取并集

批量读取文件取并集这里介绍的算是笨办法,适用于文件名字很有规律的情况,另外linux似乎也可以取并集,且比R语言更加方便。代码如下:# 加载一个我常用的数据处理R包library(dplyr)library(data.table) #读大文件很快# 读文件a1 <- fread(paste0("type4_ColB-B73v4.",1,".egwas"),sep = "\t")a2 <- fread(paste0("type4_ColB-B73v4.",2,".egwas"),

2021-08-24 17:10:43 1331

机器学习笔记-Chapter 1 – The Machine Learning landscape

机器学习笔记 Chapter 1 – The Machine Learning landscape 本篇属于概念性笔记,代码在后几章的学习中会总结出来

2023-02-13

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除