自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(30)
  • 收藏
  • 关注

原创 求GC含量(弱智法)

按前缀分组,计算平均值。# 将结果写入新文件。

2024-05-11 13:55:14 164

原创 phylophylan对全基因组scaffold建树

用时:56个样品,7个小时。

2024-05-10 14:49:41 187

原创 从含若干fasta文件的文件夹中提取所有序列的长度并汇总到一个文件中

以上是提取bins_50_10文件夹中所有fna文件(即contig)的序列长度。按照文件中名字匹配(一行只能存储一个名字)另外,用于匹配需要的序列。

2024-03-26 15:47:11 247

原创 CAZyme相关

顶刊综述丨肠道微生物组中的碳水化合物活性酶(CAZymes)

2024-02-14 14:35:05 139

原创 群落构建模型相关

群落构建模型NCM、βNTI、iCAMP...傻傻分不清楚?一文让您了解!!! - 知乎 (zhihu.com)

2024-02-14 13:12:20 203

原创 Linux中提取一個list的文件(包括後綴)從一個文件夾到另一個文件夾

list.tsv裡是包括後綴的文件全名,不用表頭,直接輸入文件名→回車→下一個文件名(直接從excel複製一列即可)把list.tsv中的文件從bins_file提取到新文件夾bins_extracted。其實很簡單,就是記一下。

2024-02-10 14:51:50 123

原创 关于GTDB物种命名的标记

如果GTDB物种集群与一个物种名称有关联(或以前有关联),但该名称的正确应用不明确,或者根据类型材料的存在或通过多数投票将名称分配给不同的GTDB物种群,则物种名称以字母后缀结尾。包含命名类型的谱系或物种集群,或者如果是物种,满足多数投票标准,则保留未命名的名称,所有其他谱系/集群都有字母后缀,表明它们是占位符名称,需要在适当的时候替换。属以上的分类学名称加上字母后缀表示属于以下类别的类群:i)GTDB参考树中不是单系的类群,但有其他证据表明它们是单系类群;i) 根据当前多系的属 GTDB参考树,

2024-01-31 15:51:26 390

原创 变异的缩写

如染色体段的插入、缺失、倒位、复制。某一基因片段的拷贝数发生。

2024-01-16 16:43:06 340

原创 创建虚拟python环境

python3 -m venv myenv # 这个和所在的当前文件夹有关。source myenv/bin/activate #激活进入虚拟环境。#创建虚拟python环境。

2024-01-03 12:01:42 347

原创 huamnn3使用笔记

看到前两个database_folders的最后都是DEMO,如果这样去跑的话就会出现错误。# 确认安装,查看版本号(我的是v3.8)(下面的红字填写自己下载上述文件的路径)查看服务器中的数据库路径。

2023-11-03 21:27:11 157

原创 【失败日志】fastANI(for dRep)的安装遇到的依赖项问题

我的dRep是pip install安装的,安完就直接跑了,跑了几个小时后发现fastANI未找到(如果环境中没有mash同样会卡住哈,而且mash的报错会比fastANI先出现)。总之,conda search fastani -c bioconda,找到conda有的fastani的版本。我原先的fastANI是conda装的(1.3.4),(这个fastANI似乎没有参数可以从终端调出版本号)之后,发现能够找到fastANI的location,但是fastANI的check仍然是ERROR。

2023-10-28 16:45:23 261 2

原创 【Error-inStrain】SystemError: initialization of _internal failed without raising an exception

完事了会出现下面这个问题,但和我跑inStrain无关,反正inStrain是可以正常跑了。等跑其他程序如果出现问题再解决吧。我是pip install instrain之后,调用inStrain check-deps后出现上述报错,通过。参考以下issue解决问题。

2023-10-27 11:12:15 142 1

原创 批量megahit并把contig文件放到contig文件夹

我的fasta.gz格式的双端序列放在input6文件夹,要对这些序列进行megahit组装。把组装结果保存到contig文件夹。下面这个代码是转移文件和重命名的过程。

2023-10-19 14:51:34 87 1

原创 【Error】samtools sort: fail to open “merged.sorted.bam.tmp.1020.bam“: Too many open files

服务器中一个进程允许打开的文件数量是有限的,也即运行过程中生成的.tmp文件数是有限的,而samtools sort默认使用内存是768M(见-m参数)。我用的服务器是1024个文件数,但由于我没有管理员权限,没有办法改。因此,当一个bam文件太大的时候,sort过程生成的文件数就会超出限制。-m 4G时,一个.tmp文件大约是1.3-1.4G,-m 3G时,一个.tmp文件大约是1.1G,-m 5G时,一个.tmp文件大约是1.8G。所以另一个思路就是增加允许的tmp文件的大小,修改-m参数。

2023-10-18 16:03:15 545 1

原创 用来查看 BAM 和 FASTA文件header的差异

【代码】用来查看 BAM 和 FASTA文件header的差异。

2023-10-07 16:34:29 80 1

原创 关于比对工具

起初李恒也是打算利用Minimap2取代BWA-MEM进行短序列比对的(Minimap2比BWA-MEM快三倍),但实际上Minimap2的短序列比对质量某些方面是不如BWA-MEM的。此外,李恒发现BWA-MEM在Hi-C比对上优于Minimap2,因为BWA-MEM对短序列匹配更为敏感。Minimap2在长序列比对方面是大大优于BWA-MEM的,不仅速度快50多倍,而且更精确,在long gaps和 ultra-long reads 方面表现更好,毕竟BWA-MEM 最开始不是为长序列比对设计的。

2023-10-07 16:17:50 159 1

原创 学习一下ARG-OAP的python代码

19,951个氨基酸序列,都是些核糖体蛋白。

2023-09-14 22:40:57 211 1

原创 批量修改当前文件夹的文件后缀(.xls→.tsv)

【代码】批量修改当前文件夹的文件后缀(.xls→.tsv)

2023-09-12 16:46:57 61

原创 从tRNAscan-SE得到一段序列中tRNA对应的氨基酸和相应的的个数

功能:整理tRNAscan-SE输出的文件(-m),得到氨基酸和相应的tRNA的个数。

2023-09-11 02:22:23 133

原创 linux提交slurm时常出现的问题(\r\n)

该问题通常是由于从一些其他地方复制文本。转化成unix格式就可以了。

2023-09-08 05:07:15 330 1

原创 安装madRoot

davidjamesbryant/MADroot.git,但有点问题,就手动下了。Code→download zip,保存到Phlib文件夹里。原本应该用git clone --recursive。1)在以上界面 Code→download zip。把下载完的文件拖进服务器。

2023-08-21 13:13:33 31 1

原创 linux服务器查看节点状态的一些代码

scontrol show nodes | grep -E 'NodeName|RealMemory'NodeName=computenode01 Arch=x86_64 CoresPerSocket=1 RealMemory=1000000 AllocMem=0 FreeMem=422868 Sockets=250 Boards=1NodeName=computenode02 Arch=x86_64 CoresPerSocket=1 RealMemory=500000 AllocMem

2023-08-03 16:33:25 359

原创 处理contig合并后有序列名相同的问题

【代码】处理contig合并后有序列名相同的问题。

2023-07-25 11:26:27 121

原创 根据文件名前缀及基因名称批量提取基因序列

seq_info.txt是一个两列无表头的文件,第一列放文件名前缀,第二列放序列名。这是之前根据某条件比对筛选后,合并各文件比对结果的文件(之所以合并,是为了其他分析的快捷)。根据seq_info.txt文件提取文件夹中的序列,输出到extracted_seqences.fa。我一整个大愚蠢,这种东西非常非常基础的东西就应该用别人已经成熟的工具解决(最好是用seqtk啦)result/contigs是contig文件的路径,有很多.fa文件。但我居然不先查资料,愚蠢地造轮子。

2023-06-12 17:19:20 468 1

原创 一些和宏基因组相关的杂物箱

epi2me-labs/wf-宏基因组学:长读长测序数据的宏基因组分类 (github.com)

2023-05-26 15:56:11 157 1

原创 宏基因组单样品vamb分箱,gtdb物种注释与建树

宏基因组单样品vamb分箱,gtdb物种注释与建树

2023-05-23 11:51:55 1315 7

原创 关于plasflow的Segmentation fault问题

拆分缩小输入文件即可。

2023-05-16 20:52:37 120

原创 带abc的显著性分析柱状图的R语言代码自动化流程

自动判断用参数还是非参方法进行显著性abc标记。

2023-05-09 23:06:37 1111 2

原创 将NR数据库diamond比对结果做物种注释

提取出来的taxid和taxonomy对应信息输出为一个文档prokaryotes_taxid_Ano.txt,之后可以手动(比如用Excel的vlookup或R语言的merge)与后面的生成的表格一起进行整理(5.中我还会再浅浅提及)。用md5sum和cat两个命令确认下下载的东西正常——如果两个结果一样,则文件完整,如下图(这个展示用的是另外的文件,不是我用的文件)。这里的两个.md5文件其实是用来做完整性检验的,并不会在数据处理的流程中用到。【流程主要参考这个,对于小白如我,该文很详细】

2023-04-27 15:21:37 3188 6

原创 gff格式转gggenes的输入格式

gff格式文件提取序列名,起始坐标,结束坐标和正负链方向(+1或-1)

2023-04-16 13:02:11 207 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除