流式处理两个文件，求其差集（comm）

最新推荐文章于 2023-08-19 16:57:59 发布

xiaoheshang1105

最新推荐文章于 2023-08-19 16:57:59 发布

阅读量329

点赞数 1

分类专栏：技术类文章标签： l

本文链接：https://blog.csdn.net/xiaoheshang1105/article/details/83382214

版权

技术类专栏收录该内容

1 篇文章 0 订阅

订阅专栏

背景：有两个数据文件（1.txt和2.txt），1.txt中存储一批垃圾域名，2.txt文件中存有企业上报的域名，现在需要从企业上报域名库中剥离掉垃圾域名。

刚开始使用grep处理，如下：

grep -vf ./1.txt ./2.txt > ./result.txt

但是命令执行一会，服务器32G内存全部吃光，一会提示killed

后来想着grep这个命令的内部原理应该是将两个文件的内容先全部加载到内存，然后处理，所以此种方式不可用，

在网上搜索之后发现comm比较好用（实现原理应该是流处理，即加载一部分处理一部分，然后释放，再继续处理下一部分）

实现步骤：

第一步：将两个文件排序、去重：

sort 1.txt | uniq 1uniq.txt

sort 2.txt | uniq 2uniq.txt

comm -13 1uniq.txt 2uniq.txt > result.txt

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

xiaoheshang1105

关注关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

python两个dataframe求差集_Pandas中两个dataframe的交集和差集的示例代码

weixin_39805644的博客

12-16

2931

创建测试数据：import pandas as pdimport numpy as np#Create a DataFramedf1 = {'Subject':['semester1','semester2','semester3','semester4','semester1','semester2','semester3'],'Score':[62,47,55,74,31,77,85]}df2...

以流式方式读写文本文件

10-04

以流式方式读写文本文件,C#代码案例，贡献出来，共同学习

参与评论您还未登录，请先登录后发表或查看评论

比较两个文件的差集

梦~'

01-29

663

比较两个文件的差集，并导出文件到difference.txt中： 1.已存在要比较的两个文件，分别为a.txt和b.txt，要找出两文件的差集(属于a.txt但不属于b.txt): 接口3 2.最终输出结果并导入difference.txt文件：利用set包，也可以自行通过map实现，实现如下： // 比较两个文件API接口的差集，并导出文件到difference.txt中： func FilterDuplicateData() { // 打开文件 aFile, err := ...

求两个文件的差集

看清这个世界

03-31

788

需求有两份格式一致的文件A和B，现在要求出A中有的，B中没有的条目，也就是A-B 解决方案充分发挥linux命令的优势，主要用到的是sort以及uniq命令 sort A B B | uniq -u sort 函数会对数据进行排序，后边可以接多个文件作为参数 uniq -u，注意这个-u参数，这个表明只会打印出文件中只出现一次的条目，因为sort A B B中出现了两个B文件，那...

求文件交集差集

SeaSky_Steven的博客

01-18

224

假设有A, B两个文件 A B 交集 cat A B | sort | uniq -d B - A cat A A B | sort | uniq -u

uniq 求两个文件的交集，并集，差集

贞正

01-28

2881

参照：http://blog.csdn.net/yinxusen/article/details/7450213 集合A = {a, b, c} 集合B = {d, e, c, b} $ man uniq With no options, matching lines are merged to the first occurrence. -d, --repe

Python求两个文本文件以行为单位的交集、并集与差集的方法

09-21

### Python求两个文本文件以行为单位的交集、并集与差集的方法在Python编程中，处理文本文件是一项常见的任务。特别是在数据处理、文本分析等领域，经常需要对两个或多个文本文件进行比较，找出它们之间的交集、...

js取两个数组的交集|差集|并集|补集|去重示例代码|angluo-javascript-98592.pdf

10-27

通过以上代码，我们可以方便地处理两个数组的交集、差集、并集和补集，同时也可以对数组进行去重操作。这些方法可以应用于各种场景，如数据分析、用户管理、数据过滤等。在实际使用时，只需根据需求调用相应的函数...

Delphi 两个多边形求交集、并集、差集的源码

07-16

Delphi 两个多边形求交集、并集、差集的源码，使用的是D5，非常古老的版本了，但能解决问题，程序使用标记法，速度非常快，解决了C语言中关于高精度重叠边的问题，示例程序是从CAD中读取多边形数据，方便演示各种...

给出两个以行为单位文本文件的差集的命令行工具

12-29

给出两个以行为单位文本文件的差集的命令行工具。功能为输出当前目录下在文本文件prog中且不在文本文件list中的行。可以用重定向将结果输出到文件中，比如： lackof >result 注意文件无后缀名比如文件prog中有4行...

Linux处理求两个文件交集、差集

fsx2550553488的博客

06-28

1873

两个文件交集、差集两个文件，如： [root@localhost grep]# cat 1.txt a b c a d aa bb aa [root@localhost grep]# cat 2/txt a b c bb fsx分析，文件1.txt和文件2.txt：1.txt - 2.txt(a) d aa (aa)2.txt - 1.txtfsx1.txt 交 2.txta b c bbcomm...

comm命令：文件的交集与差集

wu1217的博客

09-01

496

comm用于文件的比较，常用与文件的交、差集合操作。 comm必须使用拍过序的文件作为输入。例：文件A.txt: 1 3 5 7 9 文件B.txt: 2 4 7 9 sort A.txt -o A.txt; sort B.txt -o B.txt -o不输出到stdout,而是到文件中。 comm A.txt B.txt 1 2 3

awk应用之两文件求交集、并集、差集

最新发布

程序员青菜学厨记

08-19

848

做系统运维时，经常需要对两个文件求并集、交集或差集，用临时表、脚本语言、Excel都可以处理，但不够方便，使用awk只需要简短一条语句就可以搞定，不过语法比较生涩难懂，下面讲一下这几条语句的执行过程。两个数据文件如下：a.txtb.txt。

查找文本文件的差集

Raqsoft

07-29

332

上面提到的算法是找出“patternfile”和“anothertextfile”的“差集”，用grep可以做到，但太慢了。可以试试集算器，不仅可以实现更丰富的算法，性能也会好很多。如果“anothertextfile”比较小，那就可以把它读入内存。集算器支持丰富的内存计算函数，比如关联计算、多文件查询、归并查找，可以轻松实现复杂的算法逻辑。...

什么是流式文件

09-02

6864

1.什么是流式文件？其实这个问题我也不是很清楚，希望看到的同学能够补充。我个人理解如下：文件的内容在读写时，输入输出的数据流的开始和结束仅受程序控制而不受物理符号（如回车换行符）控制。也就是说，在输出时不以回车换行符作为记录的间隔。我们把这种文件称为流式文件。

linux命令对两个文件求差集、交集、并集

dkgee

12-25

6282

一、差集有两个文件user_2020.txt、user_2019.txt 其中user_2020.txt中内容如下： uuu aaa bbb 111 user_2019.txt中内容如下： eeeee aaa bbb ccc aaa 示例一：求user_2020.txt - user_2019.txt的差集命令 sort user_2020.txt user_2019.txt user_2019.txt| uniq -u 结果如下： 111 uuu 示例二：求user_201.

流式文件操作

qq_34316768的博客

08-22

525

流式文件操作IO资源的自动释放流式文件内容追加流式文件读取读取文件最后一行（随机读取）清空文件 IO资源的自动释放在try块中使用try( 申明及初始化IO资源 ) 数据流会在 try 执行完毕后自动被关闭；前提是，这些可关闭的资源必须实现 java.lang.AutoCloseable 接口。例子可见后面内容；流式文件内容追加 // 写一行并换行 private vo...

c语言是流式,C语言中的文件又被称为流式文件。

weixin_31448735的博客

05-19

594

使用流式处理上传大文件_流式处理无处不在–使用什么？

danpu0978的博客

05-21

1156

使用流式处理上传大文件实时处理来自社交媒体流和传感器设备的数据变得越来越普遍，并且有很多开源解决方案可供选择。这是我在Strata + Hadoop World 上所做的演示，在这里我比较了三个流行的Apache项目，它们允许您执行流处理：Apache Storm，Apache Spark和Apache Samza。此博客文章是此演示文稿的摘要。总的来说，流处理从根本上来说是简...

两个dataframe求差集

07-27

回答: 要求两个DataFrame的差集，可以使用Pandas的merge()函数。首先，使用merge()函数将两个DataFrame按照指定的列进行合并，然后使用drop_duplicates()函数去除重复的行，最后使用isin()函数找到不在另一个...