linux shell 文件去除重复行

最新推荐文章于 2025-03-17 11:07:06 发布

whatday

最新推荐文章于 2025-03-17 11:07:06 发布

阅读量1w

点赞数 7

本文链接：https://blog.csdn.net/whatday/article/details/109044432

版权

原始文本文件

$ cat test              
jason
jason
jason
fffff
jason

方法一：sort -u

去除重复后

sort -u test
fffff
jason

注意顺序被打乱

方法二：sort test|uniq

去除重复后

$sort test |uniq 
fffff
jason

注意顺序被打乱，原理和方法一雷同

方法三：awk '!a[$0]++'

去除重复后

$ awk '!a[$0]++' test
jason
fffff

顺序保持不变，文件去重示例

awk '!a[$0]++' test.txt >test.txt.tmp && mv -f test.txt.tmp test.txt

此处awk使用一个临时文件过度结果

具体原理如下：

awk的程序指令由模式和操作组成，即Pattern { Action }的形式，如果省略Action，则默认执行 print $0 的操作。

　　实现去除重复功能的就是这里的Pattern：

!a[$0]++

　　在awk中，对于未初始化的数组变量，在进行数值运算的时候，会赋予初值0，因此a[$0]=0，++运算符的特性是先取值，后加1，因此Pattern等价于

!0

　　而0为假，!为取反，因此整个Pattern最后的结果为1，相当于if(1)，Pattern匹配成功，输出当前记录，对于dup文件，前3条记录的处理方式都是如此。

　　当读取第2行数据“jason”的时候，a[$0]=1，取反后的结果为0，即Pattern为0，Pattern匹配失败，因此不输出这条记录，后续的数据以此类推，最终成功实现去除文件中的重复行。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

whatday

关注关注

7
点赞
踩
16

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

Linux中删除重复行的三种方法

Viper的程序员修炼手册

11-17

4661

文本处理时，经常要删除重复行，下面是三种方法第一，用sort+uniq，注意，单纯uniq是不行的。 sort -n test.txt | uniq 第二，用sort+awk命令，注意，单纯awk同样不行，原因同上。 sort -n $file | awk '{if($0!=line)print; line=$0}' 第三，用sort+sed命令，同样需要sort命令先排序。 sort -n $file | sed '$!N; /^.∗.∗\n\1$/!P; D' Shell脚本 # !/bin/s

shell中删除文件中重复行的方法

09-15

主要介绍了shell中删除文件中重复行的方法,需要的朋友可以参考下

参与评论您还未登录，请先登录后发表或查看评论

bandaoyu的note

02-04

4207

加载配置/定义/文件将函数或者变量替换定义在一个文件中，如函数可以定义在.fun文件中，然后在.sh脚本中，用“."加载，然后直接调用函数，如果:db.fun。定义函数可带参数，函数中的 $1,$2,$3…… 表示接受的第一个，第二个，第三个……参数。如:create_station_db 20 11 $1就是20 $2就是 11. ...

Linux uniq 命令详解：用于去除文件或标准输入中的重复行

最新发布

yangchuang111213的博客

03-17

1022

uniq命令是一个非常实用的工具，可以帮助我们高效地去除文本中的重复行。根据需求，它还可以显示每行出现的次数、只显示重复行或唯一行，甚至可以对特定字段进行处理。通过结合使用sort命令，uniq可以处理更复杂的数据去重任务。

SHELL 删除重复行

weixin_33933118的博客

08-25

534

[leo@leo ~]$ cat removerepetive 1111 2222 3333 1111 3333 2222 4444 1111 2222 3333 4444 2222 一。 UNIQ 用法补充一下uniq的用法 1. 无选项参数：将源文件中的连续多相同行简化为一行，然后输出全文 2. -d ：...

shell删除重复行

qq_24889005的博客

03-27

4530

一、排序后去重（原行顺序打乱） sort -u test.txt 或 sort test.txt|uniq 二、保持原行间相对顺序去重 awk ‘!a[$0]++’ test.txt

Linux下使用Shell过滤重复文本（转）

angou6476的博客

01-16

456

ffffffffffffffffff ffffffffffffffffff eeeeeeeeeeeeeeeeeeee fffffffffffffffffff eeeeeeeeeeeeeeeeeeee eeeeeeeeeeeeeeeeeeee gggggggggggggggggggg 可用以下方法去除重复行： 1、使用uniq/sort删除重复行注意：单纯uni...

linuxshell删除重复文件只保留一份.docx

09-26

Linux Shell 删除重复文件保留一份 Linux Shellscript 是一种强大的命令行工具，用于自动化和批量处理文件操作。今天，我们将讨论如何使用 Linux Shell 删除重复文件，仅保留一份。标题解释 Linux Shell 删除重复...

Linux_Shell.rar_Linux shell_linux shell_linux_shell_shell_unix

07-14

Linux Shell 是Linux操作系统中不可或缺的一部分，它是一种命令行解释器，允许用户与系统进行交互，执行各种任务。本文将深入探讨Linux Shell的各个方面，包括基本概念、常用命令、脚本编程以及源码分析。首先，...

一个监控LINUX目录和文件变化的Shell脚本分享

09-15

否则，使用`awk`、`sort`、`uniq`和`sed`等命令处理`DIFF`，提取出发生改变的文件名，并按大小排序，去除重复项，只保留已修改的文件。这些信息将写入`$TMP_C`，并追加到日志文件中。同时，脚本还会记录变更发生的...

Shell实现文本去重并操持原有顺序

01-10

简单来说，这个技巧对应的是如下一种场景假设有文本如下代码如下: cccc aaaa bbbb dddd bbbb cccc aaaa 现在需要对它进行去重处理，这个很简单，sort -u就可以搞定，但是如果我希望保持文本原有的顺序，比如这里有两个aaaa，我只是希望去掉第二个aaaa，而第一个aaaa在bbbb的前面，去重后仍旧要在它前面，所以我期望的输出结果是代码如下: cccc aaaa bbbb dddd 当然，这个问题本身并不难，用C++或python写起来都很容易，但所谓杀机焉用牛刀，能用shell命令解决时，它永远都是我们的首选。答案在最后给出，下面说说我是如何想到这样

Shell去掉文件重复行

weixin_40173707的博客

08-25

567

shell去除重复行：注：uniq只对相邻行做比较，一般结合sort先排序下（以使重复行相邻） sort -n aa.txt | uniq > bb.txt

linux shell去重复行,Linux删除重复行

weixin_29817863的博客

05-13

954

Linux 文本处理时，经常要删除重复行，下面是三种方法第一，用sort+uniq，注意，单纯uniq是不行的，uniq对于重复行不上下连续时不起作用因此，先对文件的行内容排序 sort，使其上下内容连续后，再使用 uniqsort -n test.txt | uniq第二，用sort+awk命令，注意，单纯awk同样不行，原因同上。sort -n $file | awk '{if($0!=lin...

Shell小技巧：删除文件中重复的行

longhappyingly的专栏

11-30

1043

uniq命令可以解决这个问题

linux shell 合并多个文件并删除重复行

whatday的专栏

02-09

4969

目录源文件合并文件删除重复行并显示文件并集&交集&补集 cat a.txt b.txt | sort | uniq > h.txt 源文件 1.首先输入“cd tmp”到文件目录（本例中为tmp）。 2.输入“cat a.txt”输出a.txt文件内容。 3.输入“cat b.txt”输出b.txt文件内容。合并文件 4.输入“cat a.txt b.txt > c.txt”合并b.txt文件内容到a.txt的下方并输出到

利用Shell脚本进行文件内容去重

weixin_30716141的博客

08-15

600

最近在处理文件的时候，遇到文件内容存在大量重复项的情况，很显然需要文件内容去重。因为使用的是Python，本来想要找找Python文件内容去重的方法，但是看到的基本利用Set或者List等方法（还没来得及逐一验证）。后来，找到一个利用Shell脚本写的文件内容去重，用了一下觉得很赞，在这里深入的研究一下，也算是对Shell了解和熟悉一下。 shell脚本如下所示： ...

shell脚本--awk数组实现去除重复行

Andy_Hanna的专栏

11-18

3359

去除重复行的方法有很多，这里介绍三种。测试文本： [root@172-0-10-222 myscripts]# cat testfile andy 123456 hanna 123456 hello world welcome fuck andy 123456 hello world andy andy 这其中，有andy 123456和hello world是重复的。（1）使用so...