游程编码(Run-Length Encoding, RLE)的python实现

最新推荐文章于 2025-04-08 10:03:51 发布

childish_tree

最新推荐文章于 2025-04-08 10:03:51 发布

阅读量1.5k

点赞数 6

文章标签： python 算法数据压缩游程编码

本文链接：https://blog.csdn.net/weixin_57242378/article/details/138015018

版权

游程编码(Run-Length Encoding, RLE)的python实现

基本原理及步骤

游程编码(Run-Length Encoding, RLE)，是一种简单的无损数据压缩方法，通过计数连续出现的字符来压缩数据。

主要思想是遍历输入源数据，计算连续相同字符的数量，并在字符发生变化时输出当前的计数和字符。每次字符发生变化时，都会输出一个元组，格式为(字符, 计数)，最后返回的是最后一个字符的计数和字符。

RLE特别适合于包含大量重复数据的数据集，例如简单的图形图像或文本文件，其中可能有长串的空格或相同的字符。

Run-Length Encoding (RLE) 是一种简单的无损数据压缩算法，它通过计数连续出现的相同数据元素来压缩数据。RLE特别适合于包含大量重复数据的数据集，例如简单的图形图像或文本文件，其中可能有长串的空格或相同的字符。
上述代码实现RLE编码的原理如下：

初始化计数器：
- 设置一个计数器count，用于记录当前字符重复的次数。初始值为1，因为至少有一个字符。
遍历数据：
- 从数据的第二个字符开始遍历，比较当前字符与前一个字符。
计数连续相同的字符：
- 如果当前字符与前一个字符相同，增加计数器count。
- 如果当前字符与前一个字符不同，输出前一个字符的计数和字符本身，然后将计数器重置为1。
输出编码结果：
- 每当遇到一个不同的字符时，输出一个元组，格式为(字符, 计数)。
- 最后，输出最后一个字符的计数和字符。
返回编码结果：
- 将所有输出的元组组合起来，形成编码后的字符串。

RLE编码的关键在于它能够减少表示重复数据所需的空间。例如，字符串"AAAABBBCCDAA"可以被编码为"(4,A)(3,B)(2,C)(1,D)(2,A)"，这样可以显著减少数据的大小，特别是当有长串的重复字符时。

Python实现

编码

# 方法一：
def run_length_encode1(data, _format="tuple"):
    rel_list = []
    count = 1
    for i in range(0, len(data)):
        if i + 1 < len(data) and data[i] == data[i + 1]:
            count += 1
        else:
            rel_list.append(data[i])
            rel_list.append(count)
            count =