游程编码(Run-Length Encoding, RLE)的python实现

游程编码(Run-Length Encoding, RLE)的python实现

基本原理及步骤

游程编码(Run-Length Encoding, RLE),是一种简单的无损数据压缩方法,通过计数连续出现的字符来压缩数据。

主要思想是遍历输入源数据,计算连续相同字符的数量,并在字符发生变化时输出当前的计数和字符。每次字符发生变化时,都会输出一个元组,格式为(字符, 计数),最后返回的是最后一个字符的计数和字符。

RLE特别适合于包含大量重复数据的数据集,例如简单的图形图像或文本文件,其中可能有长串的空格或相同的字符。

Run-Length Encoding (RLE) 是一种简单的无损数据压缩算法,它通过计数连续出现的相同数据元素来压缩数据。RLE特别适合于包含大量重复数据的数据集,例如简单的图形图像或文本文件,其中可能有长串的空格或相同的字符。
上述代码实现RLE编码的原理如下:

  1. 初始化计数器
    • 设置一个计数器count,用于记录当前字符重复的次数。初始值为1,因为至少有一个字符。
  2. 遍历数据
    • 从数据的第二个字符开始遍历,比较当前字符与前一个字符。
  3. 计数连续相同的字符
    • 如果当前字符与前一个字符相同,增加计数器count
    • 如果当前字符与前一个字符不同,输出前一个字符的计数和字符本身,然后将计数器重置为1。
  4. 输出编码结果
    • 每当遇到一个不同的字符时,输出一个元组,格式为(字符, 计数)
    • 最后,输出最后一个字符的计数和字符。
  5. 返回编码结果
    • 将所有输出的元组组合起来,形成编码后的字符串。

RLE编码的关键在于它能够减少表示重复数据所需的空间。例如,字符串"AAAABBBCCDAA"可以被编码为"(4,A)(3,B)(2,C)(1,D)(2,A)",这样可以显著减少数据的大小,特别是当有长串的重复字符时。

Python实现

编码

# 方法一:
def run_length_encode1(data, _format="tuple"):
    rel_list = []
    count = 1
    for i in range(0, len(data)):
        if i + 1 < len(data) and data[i] == data[i + 1]:
            count += 1
        else:
            rel_list.append(data[i])
            rel_list.append(count)
            count = 1
    if _format == "list":
        return rel_list

    if _format == "tuple":
        buf = ""
        for index, value in enumerate(rel_list):
            if index % 2 == 0:
                buf += "(" + str(value) + ","
            else:
                buf += str(value) + "),"

        return buf.rstrip(",")


# 方法二:
def run_length_encode2(data):
    """
    实现游程编码。
    :param data: 待编码的字符串
    :return: 压缩后的字符串
    """
    if not data:
        return ""

    encoded_string = ""
    count = 1
    prev_char = data[0]

    for i in range(1, len(data)):
        if data[i] == prev_char:
            count += 1
        else:
            encoded_string += f"({prev_char},{count}),"
            count = 1
            prev_char = data[i]

    encoded_string += f"({prev_char},{count})"
    return encoded_string


# 方法三:
def run_length_encode(data):
    count = 1  # 初始化计数器为1,因为至少有一个字符
    encoded_data = ""  # 初始化编码结果字符串

    # 遍历数据,从第二个字符开始
    for i in range(1, len(data)):
        if data[i] == data[i - 1]:  # 如果当前字符与前一个字符相同
            count += 1  # 增加计数器
        else:
            # 如果当前字符与前一个字符不同,添加前一个字符的计数和字符本身到编码结果
            encoded_data += "(" + data[i - 1] + "," + str(count) + "),"
            count = 1  # 重置计数器为1,因为遇到了新的字符

    # 处理最后一个字符,因为循环在最后一个字符前结束
    encoded_data += "(" + str(count) + "," + data[-1] + ")"

    return encoded_data  # 返回编码结果字符串

解码

def run_length_decode(encoded_data):
    """
    解码Run-Length Encoding (RLE)的数据。

    :param encoded_data: RLE编码的字符串
    :return: 解码后的原始数据
    """
    decoded_data = ""  # 初始化解码后的数据字符串
    i = 0  # 初始化索引变量

    # 遍历编码字符串
    while i < len(encoded_data):
        # 跳过左括号
        if encoded_data[i] == "(":
            i += 1
        else:
            # 解析字符
            char = ""
            while encoded_data[i] != ",":
                char += encoded_data[i]
                i += 1
            i += 1  # 跳过逗号

            # 解析计数
            count = 0
            while encoded_data[i] != ")":
                count = count * 10 + int(encoded_data[i])
                i += 1
            i += 2  # 跳过右括号

            # 将字符重复计数次添加到解码数据中
            decoded_data += char * count

    return decoded_data  # 返回解码后的数据

这个解码函数的工作原理如下:

  1. 初始化一个空字符串decoded_data来存储解码后的数据。
  2. 使用一个索引变量i来遍历编码字符串encoded_data
  3. 当遇到左括号时,跳过它,因为左括号只是编码的一部分,不包含实际数据。
  4. 解析字符部分,直到遇到逗号。这个字符是被编码的字符。
  5. 解析计数部分,直到遇到右括号。这个数字表示字符应该重复的次数。
  6. 将字符重复计数次添加到decoded_data中。
  7. 重复上述步骤,直到遍历完整个编码字符串。
  8. 返回解码后的数据decoded_data
    这个函数假设输入的编码字符串是有效的,并且编码格式是正确的。在实际应用中,可能需要添加额外的错误检查和处理逻辑来确保函数的鲁棒性。

测试数据

if __name__ == "__main__":
    # 测试游程编码
    test_string = "AAABBBCCDAA"
    print("test_string: ", test_string)
    encoded_test_string = run_length_encode(test_string)
    print("encoded_test_string: ", encoded_test_string)
    decoded_test_string = run_length_decode(encoded_test_string)
    print("decoded_test_string: ", decoded_test_string)

输出如下:

test_string:  AAABBBCCDAA
encoded_test_string:  (A,3),(B,3),(C,2),(D,1),(A,2)
decoded_test_string:  AAABBBCCDAA
  • 4
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
下面是一个简单的Python实现RLE编码压缩32位BMP图片的方法: ```python import struct def rle_encode(data): encoded = b"" index = 0 while index < len(data): count = 1 while index + count < len(data) and count < 255 and data[index + count] == data[index]: count += 1 if count > 1: encoded += struct.pack("B", 0) encoded += struct.pack("B", count) encoded += struct.pack("I", data[index]) index += count else: count = 0 while index + count < len(data) and count < 255 and data[index + count] != data[index]: count += 1 encoded += struct.pack("B", count) encoded += data[index:index+count] index += count encoded += struct.pack("B", 0) encoded += struct.pack("B", 0) return encoded def rle_compress_bmp(input_file, output_file): with open(input_file, "rb") as f: header = f.read(54) width, height = struct.unpack("<II", header[18:26]) bpp = struct.unpack("<H", header[28:30])[0] if bpp != 32: raise ValueError("Only 32-bit BMP images are supported.") image_data = f.read() compressed_data = rle_encode(image_data) with open(output_file, "wb") as f: f.write(header) f.write(compressed_data) ``` 这个函数 `rle_compress_bmp` 接收一个32位BMP图片的文件路径作为输入,以及一个RLE压缩后的BMP文件的文件路径作为输出。它读取输入文件的文件头,然后将图像数据传递给 `rle_encode` 函数进行压缩。最后,它将压缩后的图像数据与文件头写入输出文件中。 `rle_encode` 函数实现RLE压缩算法。它遍历图像数据,对于连续的相同像素值,将它们编码为一个标记字节、一个计数字节和一个颜色值。对于不连续的像素值,将它们编码为一个计数字节和一系列颜色值。最后,它在末尾添加两个零字节作为结束标志。 请注意,这只是一个简单的实现,可能不适用于所有32位BMP图像。在实际使用中,您可能需要对这个函数进行修改以适应您的具体需求。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

childish_tree

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值