江有枫xx-CSDN博客

原创 eggNOG数据库注释文件

eggnog.db是一个sqlite数据库。导出的表长这样，大小大概有11.3G。可以用这个代码看看表格的前几行。导出prots表格的文件。event表含有这些列。

2025-07-10 00:02:30 337

原创 PolyPanner：在复杂微生物群落中检测多态性位点

另一组与“下降种群”（declining populations）相关，这些种群的丰度在抗生素治疗期间减少（占13.9%）。一组与“爆发种群”（blooming populations）相关，这些种群的丰度在抗生素治疗期间增加（占23.4%）。：在将测序读段比对到参考基因组时，可能会出现错误的比对结果，从而产生虚假变异。：不同物种之间存在同源基因，这些基因在比对时可能会被错误地识别为变异。：同一物种内存在重复基因，这些基因在比对时可能会被错误地识别为变异。选择性清除的变异位点，表明在参与者体内发生了。

2025-04-26 22:40:56 572

原创 metawrap bin_refinement输入checkm数据库地址

这是运行metawrap bin_refinement -o bin_refinement -t 30 -A binning/metabat2_bins/ -B binning/maxbin2_bins/ -C binning/concoct_bins/ -c 50 -x 10 时遇到的报错。这个checkm_data_2015_01_16.tar.gz是275MB。浅找了一下服务器里没找到数据库放哪了，先开另一个窗口下载。然后再把这个路径输入进去，可以往下跑了。

2024-11-29 22:56:09 585 2

原创宏基因组单样品分箱-metabinner

【代码】宏基因组单样品分箱-metabinner。

2024-07-18 17:24:39 428

原创 instrain微多樣性

p 20,一个样品将近1.5h。#p 50 大约一个小时一个样。

2024-05-29 16:53:39 541

原创求GC含量（弱智法）

按前缀分组，计算平均值。# 将结果写入新文件。

2024-05-11 13:55:14 370

原创 phylophylan对全基因组scaffold建树

用时：56个样品，7个小时。

2024-05-10 14:49:41 879 2

原创从含若干fasta文件的文件夹中提取所有序列的长度并汇总到一个文件中

以上是提取bins_50_10文件夹中所有fna文件（即contig）的序列长度。按照文件中名字匹配（一行只能存储一个名字）另外，用于匹配需要的序列。

2024-03-26 15:47:11 478

原创 CAZyme相关

顶刊综述丨肠道微生物组中的碳水化合物活性酶(CAZymes)

2024-02-14 14:35:05 389

原创群落构建模型相关

群落构建模型NCM、βNTI、iCAMP...傻傻分不清楚？一文让您了解！！！ - 知乎 (zhihu.com)

2024-02-14 13:12:20 962

原创 Linux中提取一個list的文件（包括後綴）從一個文件夾到另一個文件夾

list.tsv裡是包括後綴的文件全名，不用表頭，直接輸入文件名→回車→下一個文件名（直接從excel複製一列即可）把list.tsv中的文件從bins_file提取到新文件夾bins_extracted。其實很簡單，就是記一下。

2024-02-10 14:51:50 281

原创关于GTDB物种命名的标记

如果GTDB物种集群与一个物种名称有关联（或以前有关联），但该名称的正确应用不明确，或者根据类型材料的存在或通过多数投票将名称分配给不同的GTDB物种群，则物种名称以字母后缀结尾。包含命名类型的谱系或物种集群，或者如果是物种，满足多数投票标准，则保留未命名的名称，所有其他谱系/集群都有字母后缀，表明它们是占位符名称，需要在适当的时候替换。属以上的分类学名称加上字母后缀表示属于以下类别的类群：i）GTDB参考树中不是单系的类群，但有其他证据表明它们是单系类群；i）根据当前多系的属 GTDB参考树，

2024-01-31 15:51:26 791

原创变异的缩写

如染色体段的插入、缺失、倒位、复制。某一基因片段的拷贝数发生。

2024-01-16 16:43:06 505

原创创建虚拟python环境

python3 -m venv myenv # 这个和所在的当前文件夹有关。source myenv/bin/activate #激活进入虚拟环境。#创建虚拟python环境。

2024-01-03 12:01:42 454

原创 huamnn3使用笔记

看到前两个database_folders的最后都是DEMO，如果这样去跑的话就会出现错误。# 确认安装，查看版本号（我的是v3.8）（下面的红字填写自己下载上述文件的路径）查看服务器中的数据库路径。

2023-11-03 21:27:11 785

原创【失败日志】fastANI(for dRep)的安装遇到的依赖项问题

我的dRep是pip install安装的，安完就直接跑了，跑了几个小时后发现fastANI未找到（如果环境中没有mash同样会卡住哈，而且mash的报错会比fastANI先出现）。总之，conda search fastani -c bioconda，找到conda有的fastani的版本。我原先的fastANI是conda装的（1.3.4），（这个fastANI似乎没有参数可以从终端调出版本号）之后，发现能够找到fastANI的location，但是fastANI的check仍然是ERROR。

2023-10-28 16:45:23 872 3

原创【Error-inStrain】SystemError: initialization of _internal failed without raising an exception

完事了会出现下面这个问题，但和我跑inStrain无关，反正inStrain是可以正常跑了。等跑其他程序如果出现问题再解决吧。我是pip install instrain之后，调用inStrain check-deps后出现上述报错，通过。参考以下issue解决问题。

2023-10-27 11:12:15 361 1

原创批量megahit并把contig文件放到contig文件夹

我的fasta.gz格式的双端序列放在input6文件夹，要对这些序列进行megahit组装。把组装结果保存到contig文件夹。下面这个代码是转移文件和重命名的过程。

2023-10-19 14:51:34 473 1

原创【Error】samtools sort: fail to open “merged.sorted.bam.tmp.1020.bam“: Too many open files

服务器中一个进程允许打开的文件数量是有限的，也即运行过程中生成的.tmp文件数是有限的，而samtools sort默认使用内存是768M（见-m参数）。我用的服务器是1024个文件数，但由于我没有管理员权限，没有办法改。因此，当一个bam文件太大的时候，sort过程生成的文件数就会超出限制。-m 4G时，一个.tmp文件大约是1.3-1.4G，-m 3G时，一个.tmp文件大约是1.1G，-m 5G时，一个.tmp文件大约是1.8G。所以另一个思路就是增加允许的tmp文件的大小，修改-m参数。

2023-10-18 16:03:15 1695 1

原创用来查看 BAM 和 FASTA文件header的差异

【代码】用来查看 BAM 和 FASTA文件header的差异。

2023-10-07 16:34:29 206 1

原创关于比对工具

起初李恒也是打算利用Minimap2取代BWA-MEM进行短序列比对的（Minimap2比BWA-MEM快三倍），但实际上Minimap2的短序列比对质量某些方面是不如BWA-MEM的。此外，李恒发现BWA-MEM在Hi-C比对上优于Minimap2，因为BWA-MEM对短序列匹配更为敏感。Minimap2在长序列比对方面是大大优于BWA-MEM的，不仅速度快50多倍，而且更精确，在long gaps和 ultra-long reads 方面表现更好，毕竟BWA-MEM 最开始不是为长序列比对设计的。

2023-10-07 16:17:50 692 1

youfeng_xjy的博客

原创 eggNOG数据库注释文件

原创 PolyPanner：在复杂微生物群落中检测多态性位点

原创 metawrap bin_refinement输入checkm数据库地址

原创宏基因组单样品分箱-metabinner

原创 instrain微多樣性

原创求GC含量（弱智法）

原创 phylophylan对全基因组scaffold建树

原创从含若干fasta文件的文件夹中提取所有序列的长度并汇总到一个文件中

原创 CAZyme相关

原创群落构建模型相关

原创 Linux中提取一個list的文件（包括後綴）從一個文件夾到另一個文件夾

原创关于GTDB物种命名的标记

原创变异的缩写

原创创建虚拟python环境

原创 huamnn3使用笔记

原创【失败日志】fastANI(for dRep)的安装遇到的依赖项问题

原创【Error-inStrain】SystemError: initialization of _internal failed without raising an exception

原创批量megahit并把contig文件放到contig文件夹

原创【Error】samtools sort: fail to open “merged.sorted.bam.tmp.1020.bam“: Too many open files

原创用来查看 BAM 和 FASTA文件header的差异

原创关于比对工具

原创学习一下ARG-OAP的python代码

原创批量修改当前文件夹的文件后缀（.xls→.tsv）

原创从tRNAscan-SE得到一段序列中tRNA对应的氨基酸和相应的的个数

原创 linux提交slurm时常出现的问题（\r\n）

原创安装madRoot

原创 linux服务器查看节点状态的一些代码

原创处理contig合并后有序列名相同的问题

原创根据文件名前缀及基因名称批量提取基因序列

原创一些和宏基因组相关的杂物箱

原创宏基因组vamb分箱，gtdb物种注释与建树

原创关于plasflow的Segmentation fault问题

原创带abc的显著性分析柱状图的R语言代码自动化流程

原创将NR数据库diamond比对结果做物种注释

原创 gff格式转gggenes的输入格式

空空如也

空空如也