- 博客(26)
- 收藏
- 关注
原创 如何看懂变异记录结果文件(VCF)
例如:以##FILTER开头的行,表示注释VCF文件当中第7列中缩写词的说明,比如q10为Quality below 10;##INFO开头的行注释VCF第8列中的缩写字母说明,比如AF代表Allele Frequency也就是等位基因频率;做过DNA重测序,群体遗传进化,BSA,GWAS等项目的人都会遇到VCF文件,这个文件记录了所有样品基因组中所有位置变异(主要包括SNP和InDel)信息。VCF文件的开头是整体注释信息,通常以##作为起始,其后一般接以FILTER,INFO,FORMAT等字样。
2024-02-05 18:17:04
1196
原创 linux任务前台转后台/后台转前台运行
学过linux的童鞋们都知道,在命令行中启动某个任务有两种方式,一种是前台,一种是后台。一般来说,对于短时任务,我们以前台方式运行,在这种方式下,任务运行结束后用户会再次回到命令行;而对于长时任务,一般希望以后台方式运行,这样做的好处是,当用户退出命令行时并不影响任务运行。举例来说, run.sh脚本内容如下。
2023-09-19 00:17:57
712
1
原创 Linux 各文件夹说明
其中,/usr/bin包含用户可执行文件,/usr/sbin包含只有管理员才可以执行的命令。:包含一些基本的命令,如ls、cat、cp等。:包含系统运行时的文件和进程信息,如PID文件等。以上是常见的根目录下文件夹的作用和用途,每个文件夹都有着自己独特的功能和用处。:包含一些被系统管理员使用的特殊命令,如系统管理器、网卡配置器等。:包含虚拟文件系统/proc,可以获得进程和操作系统的信息。:包含可移动媒体设备的挂载点,如CD-ROM、U盘等。:包含虚拟文件系统/sys,它提供了硬件设备的信息。
2023-09-02 11:06:25
90
原创 开放阅读框
一段翻译成蛋白质的序列有一个阅读框架,它有一个特殊的起始密码子(AUG),从此延伸出一系列代表氨基酸的三联体,一直到在三种类型的终止密码子上结束(见第5 章)。开读框架(Open Reading Frame: ORF)的预测常与第一个ATG和终止密码子的确定相关,但由于EST序列相对较低的测序质量,在测序过程中出现的碱基删除或插入错误(称为indel错误)将引起读框移动,甚至出现假终止密码子,所以,仅凭第一个ATG和终止密码子是不足以确定ORF的。一个由能翻译成氨基酸序列的三联体构成的阅读框称为。
2023-05-22 17:33:11
1234
原创 genbank版本的基因组和refseq版本的基因组有何区别
genbank版本的基因组和refseq版本的基因组有何区别如何查找旧版本的基因组信息?
2023-04-28 18:25:54
4140
2
原创 【生信Linux基础】Linux文本处理三剑客(awk、grep、sed)
linux 有很多工具可以做文本处理,例如:sort, cut, split, join, paste, comm, uniq, column, rev, tac, tr, nl, pr, head, tail.....,学习 linux 文本处理的懒惰方式(不是最好的方法)可能是:只学习grep,sed和awk。grep 更适合单纯地查找或匹配文本,sed 更适合编辑匹配到的文本,awk 更适合格式化文本,对文本进行较复杂格式处理。grep 是一种文本搜索工具,它可以在文本文件中搜索指定的字符串。
2023-04-25 16:53:44
593
原创 如何打开vcf.gz文件
解压后的文件会保存在当前目录中,文件名为原始文件名去掉"gz"的后缀。如果要指定解压后的文件名和保存路径,可以使用"-c"选项和重定向符”>"来实现,例如:gzip -dc file.gz > /path/to/output/file。
2023-04-22 18:09:00
1632
原创 【生信linux基础2】文件/目录 创建、删除、权限管理
cp *.fasta /home/manger 或者cp . /* . fasta /home/manger 将当前文件夹下的fasta格式文件全部复制到/home/manger 这一路径。rm /home/manger/*fasta 删除/home/manger 这一路径下所有的fasta格式文件。rm -f "fille name" 删除一个以该文件名为名字的文件,并且不会询问你是否要删除。复制某个目录名的目录及其目录下所有内容到目的路径(并且换名字),并且显示复制的过程。
2023-03-13 15:08:37
200
原创 【生信linux基础1】命令行操作基础(ls cd)
ls 列出目录内容ls 当前目录下的内容ls -a显示所有文件,包括隐藏文件。ls -l显示详细信息 llls -t时间顺序显示文件ls命令后边不跟目录名的话,就只是列出当前的目录内容列出来的文件里,蓝色的是目录,黑色的是普通文件。隐藏文件以.开头ls -a -l显示所有文件及其详细信息,包括隐藏文件。或者ls -alcd切换路径上一级目录:..当前目录:.用户家目录:~上一个工作目录:-回到家目录: 空格
2023-03-09 11:50:19
54
原创 生信R语言基础【6】
for 循环结构,if 判断结构tableifelsevarapplyas.character()as.numeric()as.data.frame()str
2023-03-03 21:11:18
1222
原创 生信R语言基础【5】
strsplit,unlistlengthuniquencharsubstringsubstrpastepaste0gsub
2023-02-27 17:52:46
239
原创 生信R语言基础【4】
cbind, rbind,merge,[],$,matrixrowMeans()rowSums()colMeans()colSums(ma)tsave(),load()subsetfactoras.numeric来源于国子学生信国庆课程
2023-02-21 16:21:25
260
原创 生信R语言基础【3】
subset,第一个数据,第二个选行(逻辑值),第三个是列,名称。最直观test,我自己最常用的方法,获取前10行,前10列。R语言里面的数据,在最终结果之前不要频繁写出去,读进来,使用用Rdata,save保存,load加载。行列的选择,还有一个重要的函数subset。保存使用save, 可以同时保存多个数据。2.函数产生,比如grepl,%in%有多少种方法可以产生逻辑值?把最后一列调整到第1列,很常用。选取第2到4行,3到5列。第2,通过行名和列名获取。第3,还可以通过逻辑获取。
2023-02-16 17:48:41
291
原创 生信R语言基础【2】
sort, order, grep,grepl, %in%,intersectsampledata.framecolnamesrownamesheadtailclassdimstr来源于国子学生信国庆课程day1
2023-02-15 16:06:36
204
原创 生信R语言基础【1】
class(), c(),rep(),seq(),length(),names(),sample()max()min()sum()mean()来源于果子学生信国庆课程day1
2023-02-15 15:50:50
190
4
python格式化输出&常用运算符
2024-07-08
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人