处理数据文件

最新推荐文章于 2023-11-08 10:06:16 发布

PQ-PQ

最新推荐文章于 2023-11-08 10:06:16 发布

阅读量185

点赞数

分类专栏：随笔

本文链接：https://blog.csdn.net/xielilaogong/article/details/99633817

版权

随笔专栏收录该内容

11 篇文章 0 订阅

订阅专栏

排序数据

处理大量数据时的一个常用命令是sort命令， sort命令是对数据进行排序的。

默认情况下，sort命令会按照会话的指定的默认语言的排序规对文件文件中的数据行排序

-k 和-t参数在对按字段分隔的数据进行排序时非常有用，列入

搜索数据
你会经常需要在大文件中找一行数据，而这行数据又埋藏在文件的中间。这时并不需要手动
翻看整个文件，用grep命令来帮助查找就行了。grep命令的命令行格式如下。
grep [options] pattern [file]
grep命令会在输入或指定的文件中查找包含匹配指定模式的字符的行。grep的输出就是包
含了匹配模式的行。
下面两个简单的例子演示了使用grep命令来对4.3.1节中用到的文件file1进行搜索。
$ grep three file1
three
$ grep t file1
two
three
$
第一个例子在文件file1中搜索能匹配模式three的文本。grep命令输出了匹配了该模式的
行。第二个例子在文件file1中搜索能匹配模式t的文本。这个例子里，file1中有两行匹配了
指定的模式，两行都输出了。

反向搜索（输出不匹配该模式的行），可以加-v 参数

显示匹配模式的行所在行号 -n

只要知道多少行含有匹配的模式 -c

指定多个匹配模式 -e

以下是在grep搜索中使用正则表达式的简单例子。
$ grep [tf] file1
two
three
four
five
$
正则表达式中的方括号表明grep应该搜索包含t或者f字符的匹配。如果不用正则表达式，
grep就会搜索匹配字符串tf的文本。

egrep命令是grep的一个衍生，支持POSIX扩展正则表达式。POSIX扩展正则表达式含有更
多的可以用来指定匹配模式的字符（参见第20章）。fgrep则是另外一个版本，支持将匹配模式
指定为用换行符分隔的一列固定长度的字符串。这样就可以把这列字符串放到一个文件中，然后
在fgrep命令中用其在一个大型文件中搜索字符串了

压缩数据
如果你接触过Microsoft Windows，就必然用过zip文件。它如此流行，以至于微软从Windows
XP开始，就已经将其集成进了自家的操作系统中。zip工具可以将大型文件（文本文件和可执行
文件）压缩成占用更少空间的小文件。
Linux包含了多种文件压缩工具。虽然听上去

compress文件压缩工具已经很少在Linux系统上看到了。如果下载了带.Z扩展名的文件，通
常可以用第9章中介绍的软件包安装方法来安装compress包（在很多Linux发行版上叫作
ncompress），然后再用uncompress命令来解压文件。gzip是Linux上最流行的压缩工具。
gzip软件包是GNU项目的产物，意在编写一个能够替代原先Unix中compress工具的免费版
本。这个软件包含有下面的工具。
 gzip：用来压缩文件。
 gzcat：用来查看压缩过的文本文件的内容。
 gunzip：用来解压文件。
这些工具基本上跟bzip2工具的用法一样。

gzip命令会压缩你在命令行指定的文件。也可以在命令行指定多个文件名甚至用通配符来
一次性批量压缩文件

归档数据
虽然zip命令能够很好地将数据压缩和归档进单个文件，但它不是Unix和Linux中的标准归档
工具。目前，Unix和Linux上最广泛使用的归档工具是tar命令。
tar命令最开始是用来将文件写到磁带设备上归档的，然而它也能把输出写到文件里，这种
用法在Linux上已经普遍用来归档数据了。
下面是tar命令的格式：
tar function [options] object1 object2 ...