【linux基础】指定分隔符分割文件 cut 、awk(指定多个分隔符分割文件提取列，如提取注释文件gff3内的基因ID)

最新推荐文章于 2024-08-25 18:22:27 发布

梦仔生信进阶

最新推荐文章于 2024-08-25 18:22:27 发布

阅读量2k

点赞数 1

分类专栏：初探-----linux命令文章标签： linux

本文链接：https://blog.csdn.net/weixin_55649639/article/details/129195383

版权

初探-----linux命令专栏收录该内容

8 篇文章 0 订阅

订阅专栏

1. cut

-d 指定分隔符

cut -d , -f 1 1.txt > d1.txt

2. awk ## 同时指定多个分割符

-F 指定分隔符

awk -F ',' '{print $1}' d1.txt

如果指定多个分隔符，使用中括号 [] https://www.cnblogs.com/liujiaxin2018/p/16508279.html

awk -F "[\t :=;]" '{print $1,$4,$5,$11,$13}' 11.txt

示例：如果你想从GFF3里提取出基因怎么做？

如：你想提取QTL区间的基因，那你得先准备一个参考基因组上基因ID 、基因Name、起始、终止的文件。

1.原始GFF3

2. 思路：先提取第三列是基因---再提取有Name 的基因--再分隔

grep -v '#' Sus_scrofa.Sscrofa11.1.99.gff3 |awk '$3=="gene"'|grep 'Name'|awk -F "[\t :=;]" '{print $1,$4,$5,$11,$13}'|less -S

匹配也可以借助 awk '/Name/' file.txt

最终结果如下：

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

梦仔生信进阶

关注关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Linux中awk工具的使用

谢公子的博客

10-09

4万+

目录 awk awk的用法 awk中字符的含义 print 打印字符匹配格式化输出举例 awk awk是一个强大的文本分析工具，相对于grep的查找，sed的编辑，awk在其对数据分析并生成报告时，显得尤为强大。简单来说awk就是把文件逐行的读入，默认以空格为分隔符将每行切片，切开的部分再进行各种分析处理。 awk是行处理器,相比较屏幕处理的优点，在处理庞大文件时不会出现内...

Linux awk将文件某列按照逗号分隔的例子

09-15

在Linux系统中，awk是一个强大的文本分析工具，它允许用户基于指定的模式匹配来处理文本文件。在本例中，我们将探讨如何使用awk将文件中的某列数据按逗号进行分隔，这对于处理数据列表或者在SQL查询中构建IN语句非常...

1 条评论您还未登录，请先登录后发表或查看评论

Linux学习笔记（五）之数据提取

deligent_torche的博客

09-02

885

数据切割 1. cut -d 分隔符 ：设置分隔符 -f 第几组数据或范围：切割第几组或一个范围内的数据 -c 第几个字符或范围：切割第几个或一个范围内的字节 2. split -l 文件行数文件地址新文件名：将文件内部分行数切割成新文件 -c 文件内字符数文件地址新文件名：将文件内部分字...

Linux awk命令详解

2401_86023443的博客

08-25

533

awk -F’[:#/]’ ‘{print $1,$2,$3,$4,$5,$6,$7,$8,$9,$10,$11,$12}’ helloworld.sh //制表符分隔输出多字段。awk -F’[:#]’ ‘{print $1,$2,$3,$4,$5,$6,$7}’ OFS=‘\t’ helloworld.sh //制表符分隔输出多字段。awk -F: ‘$1~/mail/ && $3>8 {print }’ /etc/passwd //逻辑与，$1匹配mail，并且$3>8。

Linux学习笔记-awk命令

weixin_42220636的博客

07-08

552

awk '{print $2}'

linux逐行逐列(分号分隔)读取数据shell

z19861216的博客

06-29

608

linux逐行逐列(分号分隔)读取数据shell

linux对一个变量进行切割提取

icanflying的博客

12-15

7981

对变量进行提取操作时想到如何进行获取变量进行后续传参，直接echo '变量'获取内容如： dest=/etc/sysconfig/network-scripts/ifcfg-eth0 1、获取echo $network=/etc/sysconfig/network-scripts network=`echo $dest | cut -d "/" -f -4` -d指定分隔符 -f指定区域 “-4”第四个分隔符往前区域 “4-”第四个分隔符往后区域 “4”第四个分隔符区域 net...

linux awk 多分隔符

zhenghe12365的博客

02-01

1301

上面虽然介绍了awk中使用多个记录分隔符的写法，但是这些记录分隔符都是单个字符，如果记录分隔符是个字符串怎么办呢？其实呢，通过在awk中指定两个记录分隔符（空格和:），即可一次性的提取出width和height后面的值，在awk中支持多个记录分隔符的写法如下。之前说过，awk支持正则表达式形式的记录分隔符，那就写个正则表达式就好，比如要指定分隔符为one和two。awk的-F参数可以指定新的记录分隔符，有些时候可能需求指定多个分隔符，比如下面的内容。

Linux中查看指定文件夹内各个子文件夹内的文件数量

09-15

本文将介绍如何在Linux中查看指定文件夹内各个子文件夹内的文件数量。首先，我们可以创建一个名为`count.sh`的脚本来实现这个功能。这个脚本会接收一个参数，即我们要统计文件数量的目录。脚本内容如下： ```bash...

pluckr:在命令行中从 csv 文件中提取列。像 cut 或 awk，但不要因分隔符转义而窒息

06-22

像 cut 或 awk，但不会因分隔符转义而窒息。安装 pip install pluckr 。完毕。用法从 stdin 中获取第 2 列和第 3 列（ -f是单索引）： pluckr -f 2,3 < sample1.csv 或直接从文件： pluckr -f 2,1 ...

linuxawk将多个文件结果列合并到一个文件整理.pdf

12-06

在 Linux 环境下，使用 awk 工具可以将多个文件的结果列合并到一个文件中。这篇文章将介绍如何使用 awk 实现该功能，并提供了一个示例 awk 脚本来合并多个文件的结果列。在 NS 模拟结果中，经常需要对多组参数的...

4-ns-udp.rar_AWK ns2_Linux UDP 文件_ns_ns cbr

09-21

标题中的"4-ns-udp.rar_AWK ns2_Linux UDP 文件_ns_ns cbr"指的是一个使用NS-2（Network Simulator 2）模拟的Linux环境下UDP（User Datagram Protocol）网络通信场景。在这个模拟中，四点之间进行了连续比特率...

linux 字符串截取(cut)

码灵的博客

03-09

2282

n ：取消分割多字节字符。如果字符的最后一个字节落在由-b标志的List参数指示的范围之内，该字符将被写出；-b ：以字节为单位进行分割。这些字节位置将忽略多字节字符边界，除非也指定了 -n 标志。以#作为分隔符，输出第一个#前的区域1的东西。-f ：与-d一起使用，指定显示哪个区域。截取第三个字符后所有的（包括第三个字符）选项：-d指定分隔符，-f指定提取第几列。-d ：自定义分隔符，默认为制表符。截取前三个字符（包括第三个字符）-c ：以字符为单位进行分割。截取字符串11-14位置的字符。

根据染色体的起始位置从gff3文件中提取基因名称

weixin_51421287的博客

03-05

1488

提取基因名称

linux cut -d 分配,51CTO博客-专业IT技术博客创作平台-技术成就梦想

weixin_28858247的博客

05-15

628

cut 提取文本并输出-d 指定分隔符-c 以字符为单位-f 以d分割后的第几部分示例：1 -d 和-f 使用取出以：为分隔符，第2部分的内容[root@mail tmp]# echo ni:hao|cut -d ":" -f2hao取出以：为分隔符，第1和第3部分[root@mail tmp]# echo ni:hao:wo:shi |cut -d : -f 1,3ni:wo...

通过基因ID从GFF文件中获取基因位置

Cassiel60的博客

10-11

1819

如果对整个数据的查看，就会发现位置不是唯一性的，里面很多同一个位置对应好几个MIM number或者好几个Entrez Gene ID，可能是这个位置太长了，里面对应的基因太多，所以如果我们简单的进行位置转化，在注释的时候，根据位置匹配，就会出现多个基因，最好的是根据OMIM数据库给的提示操作，把对应的位置范围缩小，才能更精准）由于OMIM上的位置是参考基因组GRch38，所以在进行hg19版本的annovar注释时，需要转化为hg19的，根据OMIM数据库上的提示，我们可以从gff文件中获取对应的位置。

使用Biopython从gff文件提取gene的位置以及gene的id，再从fna文件提取gene序列

chen3673的博客

03-12

1358

使用Biopython从gff文件提取gene的位置以及gene的id，再从fna文件提取gene序列

Linux_068_awk分隔符

qq_73778722的博客

02-20

515

输入分隔符，awk默认是空格，空白字符，英文是field separator，变量名是FS。除了使用 -F 选项，还可以使用变量的形式，指定分隔符，使用-v选项搭配，修改FS变量。awk逐行处理文本的时候，以输入 分隔符为准，把文本切成多个片段，默认符号是空格。awk执行完命令，默认用空格隔开每一列（加上，），这个空格就是awk的默认输出符。输出分隔符，output field separator，简称OFS。当我们处理特殊文件，没有空格的时候，可以自由指定分隔符特点。使用指定分隔符进行输出。

linux之cut用法

dengdiaoji0891的博客

12-09

2785

cut是一个选取命令，就是将一段数据经过分析，取出我们想要的。一般来说，选取信息通常是针对“行”来进行分析的，并不是整篇信息分析的。（1）其语法格式为：cut [-bn] [file] 或 cut [-c] [file] 或 cut [-df] [file] 使用说明cut 命令从文件的每一行剪切字节、字符和字段并将这些字节、字符和字段写至标准输出。如果不指定 File 参数...

python gtf文件转bed