文件比较算法

最新推荐文章于 2024-08-18 23:28:19 发布

yxc135

最新推荐文章于 2024-08-18 23:28:19 发布

阅读量5.8k

点赞数

分类专栏：算法文章标签：文件比较

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yxc135/article/details/10125719

版权

算法专栏收录该内容

18 篇文章 0 订阅

订阅专栏

晚上有个哥们问有没什么文件比较的算法可以用，大致想了一下，顺便记一记。

处理分两层：

第一层——文本行层，这一层比较单位为行，将每一行看作一个元素，那么两个文件就是两个元素序列，采用LCS算法，算出相同的元素数，相同元素数越多，相似度越大。考虑不同的比较中总文件行数有差异，不能直接用相同元素数这个值作为相似度，应该将两个待比较文件总元素数考虑在内，可以采用相似度=相同元素数/（文件1元素数+文件2元素数）。

第二层——行内层，上一层中需要用到比较两个文本行是否相同，最简单的做法是两个文本行的字符串完全相同才算作相同。比如，第一个文件中有一行abcde，而第二个文件中有一行abcdef，这也算作不同。如果想要近似相同也算作相同，类似上面的情况也算做相同的话，可以再采用一次LCS算法，这次的两个元素序列中的元素就是字符了，也是可以类似算出一个相似度，只要相似度大于约定值就算两个文本行相同。

复杂度分析：
如果第二层采用简单判断的方式，那么整个算法的时间复杂度是O（n^2 * m），如果第二层采用相似度判断的方式，那么整个算法的复杂度是o（n^2 * m^2），其中n为文件内文本行数，m为行内字符数。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
4
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

yxc135 CSDN认证博客专家 CSDN认证企业博客

码龄13年

33: 原创

17万+: 周排名

227万+: 总排名

56万+: 访问

: 等级

4987: 积分

107: 粉丝

99: 获赞

76: 评论

226: 收藏

私信

关注

热门文章

分类专栏

JVM 14篇
并行计算 15篇
操作系统 20篇
Java 8篇
算法 18篇
Linux 7篇
C++ 7篇
网络 3篇
Python 10篇
杂记 9篇
随笔 2篇

最新评论

Decorator in Pyhton
github_35526155: 在加红字部分有点误人子弟了，，fib = memorize(fib) 执行后实际上全局域里面的fib重新关联到了装饰函数里面的helper了，所以递归调用的时候也会进入helper函数进行缓存的读取
关闭中断过程中是否会发生中断丢失
SSDDWSS: 应该是造成中断丢失吧。试想一个进程处于用户态，发生了中断，中断处理返回后一定还是从内核态进入用户态。那如果在处理中断的这些内核程序它也有中断，是内核中断。因为是关中断，所以无法响应它。试想如果现在处理完去响应这个内核中断的话，此时你的PLV显示的是用户态，怎么可能响应内核中断。你这里说的中断应该是指进程运行在用户态下的中断或者是内核态下这种单一的中断吧，如果两种状态切换，怎么运行啊？
中断向量表和中断描述符表IDT
hahajiajun: 牛逼，十分感谢大哥！
C语言实现读取FAT12文件系统
gavin546: 草，操作系统作业十年没变过了
GC日志分析
菜鸡一个，多多指教: ~来至2021年7月8号的评论。谢谢大佬，受教了

大家在看

最新文章

目录

评论 4

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。