seqkit安装与使用（生物信息学工具-003）--seqkit常用操作（补01）

让学习成为一种生活方式

于 2024-08-03 14:58:57 发布

阅读量40

点赞数 1

分类专栏：生物信息学序列比对生信胶水文章标签： seqkit

本文链接：https://blog.csdn.net/weixin_44874487/article/details/140833988

版权

生物信息学同时被 3 个专栏收录

40 篇文章 0 订阅

订阅专栏

序列比对

23 篇文章 0 订阅

订阅专栏

生信胶水

4 篇文章 0 订阅

订阅专栏

参考seqkit安装与使用 v2.5.1（生物信息学工具-003）

01 按照fasta的ID去重，相同ID的序列被去除

seqkit rmdup -n test.fasta -o test.rmdup.fasta

02 按照fasta序列去重，相同碱基组成的序列被去除

适用于蛋白序列和核酸序列

seqkit rmdup -s test.fasta -o test.rmdup.fasta

03 统计序列状态

seqkit stat test.fasta > test.fasta.txt

seqkit seq test.fa  #查看fa文件等同于cat less

04 输出序列ID

seqkit seq test.fa -n -i > test.fa.id  #展示序列ID，仅仅空格前面内容

grep -i '>' test.fa   #展示序列ID行全部内容

05 根据id提取序列

seqkit grep -f test_id.txt test.fa -o new_test.fa   #根据id提取序列

06 转换核酸序列为蛋白序列，cds转换为pep

这个也方便了建树所需要，同时丰富了多序列比对的层次。

MAFFT安装及使用-mafft v7.520（bioinfomatics tools-004）

seqkit translate test.fa > protein.fa #转化为蛋白序列，cds转化pep

seqkit translate test.fa --trim > protein.fa #去除*

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

让学习成为一种生活方式

关注关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
seqkit安装与使用（生物信息学工具-003）--seqkit常用操作（补01）

参考。
复制链接

扫一扫

专栏目录

seqkit根据基因id_基因家族分析保姆级教程（分子进化）-生信小白自学之路

weixin_36019375的博客

01-17

1968

开始前先熟悉一下我自己简单介绍一下，我是20级研究生，普通本科和中科院海洋所联培的学生，什么是联培呢，简单来说就是理论课程在学校上，根据学校安排，一般是一年，我们半年就上完了，后面就去海洋所工作了。正式的说就是工作，不是上学，就是打工，个人感觉，不过这并没有什么影响，丝毫不会耽误一个人进步。联培算是三赢的方式，作为学生来说要好好珍惜这个平台。下面介绍我对基因家族的认知过程我是小白，在这之前我什么都...

C# Seqkit匹配工具

01-26

用C#编写的测试工具：Seqkit处理测序文件,Seqkit处理测序文件Seqkit处理测序文件Seqkit处理测序文件Seqkit处理测序文件Seqkit处理测序文件Seqkit处理测序文件Seqkit处理测序文件Seqkit处理测序文件Seqkit处理测序...

参与评论您还未登录，请先登录后发表或查看评论

seqkit安装与使用 v2.5.1（生物信息学工具-003）

weixin_44874487的博客

02-23

1645

SeqKit - 跨平台且极速的FASTA/Q文件操作工具包，生信胶水之一。

readfq安装与使用（生物信息学工具-023）

weixin_44874487的博客

06-22

898

一些简单的基准测试结果：将包含 2500 万个 100bp 读数的 FASTQ 转换为 FASTA，FASTX-Toolkit（仅解析 4 行 FASTQ）耗时 325.0 CPU 秒，EMBOSS 的 seqret 耗时 247.8 秒。对于脚本语言的用户，建议直接复制粘贴函数，而不是将 readfq 作为库使用。桂元苗. 面向蛋白互作预测的序列数据特征识别研究[D]. 中国科学技术大学, 2019. DOI:10.27517/d.cnki.gzkju.2019.000074.

gffread安装与使用-gffread-0.12.7（bioinfomatics tools-014）

weixin_44874487的博客

03-21

2754

GFF3（General Feature Format version 3）和GTF（Gene Transfer Format）版本2，通常被称为GTF2，是基因组学中用于描述基因和其它特征的文件格式。这两种格式都用于存储有关基因组注释的信息，但它们在结构和用途上有所不同。

生物信息学python常用脚本_生物信息学一些基本的常用软件有哪些？

weixin_35662051的博客

12-24

778

7月28日更新：原链接失效了，已经更新。上次回答的时候基因课的视频教程还是个人兴趣，业余时间录的，免费放到网上。今年辞职全职做这个事情了，所以收费。只有收费才能保证内容精良和持续输出。每门课程也只有几十块钱。收费的另一个原因是，很多同学没有 Linux 服务器，没法练习，我们为大家购买了云服务器供练习。————————————————————————————1. 基础语言1.1 Linux操作系...

seqkit：序列梳理神器-统计、格式转换、长度筛选、质量值转换、翻译、反向互补、抽样、去重、滑窗、拆分等30项全能...

热门推荐

刘永鑫的博客——宏基因组公众号

03-15

4万+

写在前面通过我几天的学习，我发现，seqkit十分好用，将序列的各种操作都囊括进去，加入多线程，我个人认为这将是非常好的胶水，在处理无论是基因组还是其他组学。定是一个必学神器。注意一下教程...

基于python的snakemake框架搭建生物信息学分析流程笔记总结

sinat_41624848的博客

07-16

1666

Paper: A review of bioinformatics pipeline framework 文献总结了不同流程的又去点，可以看下。如果实验室既不是纯粹的生物学试验（不需要workbench这种UI界面），也不需要高性能基于类的流程设计，不太好选，主要原则是投入和产出比如果实验室进行的是重复性的研究，那么就需要对数据和软件进行版本控制，建议是 configuration-based pipelines 如果实验室做的是探索性的概念证明类工作（exploratory proo.

你想要的宏基因组-微生物组知识全在这(2021.12)

刘永鑫的博客——宏基因组公众号

12-01

5305

欢迎点击上方蓝色”宏基因组”关注我们！宏基因组/微生物组是当今世界科研最热门的研究领域之一，为加强宏基因组学技术和成果交流传播，推动全球华人微生物组领域发展，中科院青年科研人员创立“宏基因...

你想要的宏基因组-微生物组知识全在这(2022.5)

刘永鑫的博客——宏基因组公众号

05-01

5542

欢迎点击上方蓝色”宏基因组”关注我们！宏基因组/微生物组是当今世界科研最热门的研究领域之一，为加强宏基因组学技术和成果交流传播，推动全球华人微生物组领域发展，中科院青年科研人员创立“宏基因组”公众号，联合海内外同行共同打造本领域纯干货技术及思想交流平台。公众号每日推送，工作日分享宏基因组领域最新成果、科研思路、实验和分析技术，理论过硬实战强；周末科普和生活专栏，轻松读文看...

seqkit:跨平台，超快速的工具包，用于在Golang中操纵FASTAQ文件

03-07

SeqKit-用于FASTA / Q文件操作的跨平台超快速工具包文档： : （，，和）源代码： : 最新版本：：介绍 FASTA和FASTQ是用于存储核苷酸和蛋白质序列的基本且普遍存在的格式。 FASTA / Q文件的常见操作包括转换，...

seqkit-skill:关于seqtk的技巧

05-04

seqkit是一款强大的生物信息学工具，主要设计用于处理DNA、RNA序列数据。它由Golang编写，具有速度快、内存效率高、跨平台等优点。本篇文章将深入探讨seqkit的各项功能和使用技巧，帮助你更好地理解和应用这个工具。...

pySeqkit:用于处理FASTAQ格式的序列的工具包

05-13

序列文件的统计信息（fastA / Q）对于FASTA / Q文件，可以一起统计不同格式的文件 python pySeqkit.py stat 1.fq *.fa > in.stat 使用'-c'加快处理过程 python pySeqkit.py stat -c 10 1.fq *.fa > in.stat 一个...

mods-nf:使用Tombo和nanoDoc进行Nextflow管道进行RNA修饰鉴定

03-25

国防部使用Tombo和nanoDoc进行Nextflow管道进行RNA修饰鉴定Nextflow管道中的步骤使用seqkit将fastq文件转换为fasta文件使用seqkit将fasta文件转换为包含所有读取ID的文本文件使用软件ont-fast5-api （fast5_subset...

多元宇宙算法MVO-Kmean-Transformer-LSTM负荷预测【含Matlab源码 6773期】.zip

08-02

CSDN海神之光上传的全部代码均可运行，亲测可用，直接替换数据即可，适合小白； 1、代码压缩包内容主函数：Main.m；调用函数：其他m文件；无需运行运行结果效果图； 2、代码运行版本 Matlab 2019b；若运行有误，根据提示修改；若不会，可私信博主； 3、运行操作步骤步骤一：将所有文件放到Matlab的当前文件夹中；步骤二：双击打开除Main.m的其他m文件；步骤三：点击运行，等程序运行完得到结果； 4、仿真咨询如需其他服务，可私信博主或扫描博主博客文章底部QQ名片； 4.1 CSDN博客或资源的完整代码提供 4.2 期刊或参考文献复现 4.3 Matlab程序定制 4.4 科研合作智能优化算法优化Kmeans-Transformer-lstm分类预测系列程序定制或科研合作方向： 4.4.1 遗传算法GA/蚁群算法ACO优化Kmeans-Transformer-lstm预测 4.4.2 粒子群算法PSO/蛙跳算法SFLA优化Kmeans-Transformer-lstm预测 4.4.3 灰狼算法GWO/狼群算法WPA优化Kmeans-Transformer-lstm预测 4.4.4 鲸鱼算法WOA/麻雀算法SSA优化Kmeans-Transformer-lstm预测 4.4.5 萤火虫算法FA/差分算法DE优化Kmeans-Transformer-lstm预测 4.4.6 其他优化算法优化Kmeans-Transformer-Lstm预测

大型企业数字化转型发展趋势汇报方案.docx

08-02

大型企业数字化转型发展趋势汇报方案.docx

【中科院1区】Matlab实现非洲秃鹫优化算法AVOA-RF故障诊断算法研究.rar

最新发布

08-02

1.版本：matlab2014/2019a/2024a 2.附赠案例数据可直接运行matlab程序。 3.代码特点：参数化编程、参数可方便更改、代码编程思路清晰、注释明细。 4.适用对象：计算机，电子信息工程、数学等专业的大学生课程设计、期末大作业和毕业设计。 5.作者介绍：某大厂资深算法工程师，从事Matlab算法仿真工作10年；擅长智能优化算法、神经网络预测、信号处理、元胞自动机等多种领域的算法仿真实验，更多仿真源码、数据集定制私信+。替换数据可以直接使用，注释清楚，适合新手

java-springboot+vue古典舞在线交流平台的设计与实现源码(项目源码-说明文档)

08-02

java-springboot+vue古典舞在线交流平台项目关键技术开发工具：IDEA 、Eclipse 编程语言: Java 数据库: MySQL5.7+ 后端技术：Springboot 前端技术：Vue、HTML5、css、JavaScript 关键技术：springboot、vue、MYSQL、MAVEN 数据库工具：Navicat、SQLyog

conda安装seqkit

07-28

在安装seqkit之前，你需要先安装conda。conda是一个开源的软件包管理系统和环境管理系统，可以帮助你安装和管理各种软件包。你可以按照以下步骤来安装conda和seqkit： 1. 首先，从Anaconda官网（https://www.anaconda.com/products/individual）下载适合你操作系统的Anaconda安装包。 2. 安装Anaconda。根据你的操作系统，运行下载的安装包，并按照安装向导的指示进行安装。 3. 安装完成后，打开终端或命令提示符窗口。 4. 创建一个新的conda环境（可选）。你可以使用以下命令创建一个新的conda环境： ``` conda create -n myenv ``` 其中，myenv是你想要给环境起的名字。你可以根据需要自定义环境的名称。 5. 激活新创建的conda环境。使用以下命令激活环境： ``` conda activate myenv ``` 其中，myenv是你之前创建的环境的名称。 6. 安装seqkit。使用以下命令安装seqkit： ``` conda install -c bioconda seqkit ``` 7. 安装完成后，你就可以使用seqkit命令了。你可以通过运行以下命令来验证seqkit是否成功安装： ``` seqkit --help ``` 现在，你已经成功安装了conda和seqkit，并可以在终端或命令提示符窗口中使用seqkit命令了。请注意，如果你创建了新的conda环境，请在每次使用seqkit之前激活该环境。 #### 引用[.reference_title] - *1* *2* [序列处理工具|Seqkit](https://blog.csdn.net/weifanbio/article/details/120879101)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item] - *3* [seqkit的使用说明1](https://blog.csdn.net/yearstime/article/details/123974728)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]

seqkit安装与使用 （生物信息学工具-003）--seqkit常用操作（补01）

01 按照fasta的ID去重，相同ID的序列被去除

02 按照fasta序列去重，相同碱基组成的序列被去除

03 统计序列状态

04 输出序列ID

05 根据id提取序列

06 转换核酸序列为蛋白序列，cds转换为pep

seqkit安装与使用（生物信息学工具-003）--seqkit常用操作（补01）