数据结构与算法——赫夫曼编码

1、基本介绍

(1)赫夫曼编码也翻译为 哈夫曼编码(Huffman Coding),又称霍夫曼编码,是一种编码方式。属于一种程序算法。赫夫曼编码是赫夫曼树在电信通讯中经典的应用之一。
(2)赫夫曼编码被广泛地应用于数据文件压缩。其压缩率通常在20%~90%之间。
(3)赫夫曼编码是可变字长编码(VLC)的一种。Huffman于1952年提出一种编码方式,称为最佳编码。

2、原理剖析

(1)通信领域中信息的处理方式1——定长编码

(2)通信领域中信息处理方式2——变长编码
在这里插入图片描述
(3)通信领域中信息的处理方式3——赫夫曼编码
步骤:
1)从小到大进行排序,每一个数据都是一个节点,每个节点都可以看作一个最简单的二叉树
2)取出根节点权值最小的二叉树
3)组成一个新的二叉树,该新的二叉树的根节点权值是前面两颗二叉树根节点的权值和
4)再将这颗新的二叉树,以根节点的权值大小再次排序,不断重复1-2-3-4的步骤,直到数列中,所有的数据都被处理,就得到一颗赫夫曼树。
在这里插入图片描述
5)根据赫夫曼树,给各个字符规定编码(前缀编码),向左的路径为0向右的路径为1,编码如下:
o: 1000 u: 10010 d: 100110 y:100111 i: 101 a: 101 k: 1110 e: 1111 j: 0000 v:0001 l: 001 : 01
6) 按照上面的赫夫曼编码,我们的"i like like like java do you like a java" 字符串对应的编码为(注意我们这里使用的无损压缩):
10111101111010011011110111100101011110111101000011000011100110011110000110 10101001 0111100010010010011011110111 01i100100001100001110 通过赫夫曼编码处理 长度为133
7)原来长度为359,压缩了(359-133) / 359 = 62.9%
8)此编码满足前缀编码,即字符的编码都不能是其他字符编码的前缀。不会造成匹配的多义性。赫夫曼编码是无损处理方案。

3. 赫夫曼编码压缩文件注意事项

1、如果文件本身是压缩处理过的,那么使用赫夫曼编码再压缩效率不会有明显的变化,比如视频、PPT等文件【举例:压缩一个ppt文件】
2、赫夫曼编码是按照字节来处理的,因此可以处理所有的文件(二进制文件、文本文件)
3、如果一个文件中的内容,重复的数据不多,压缩的效果也不会很明显。

4. 最佳实践

1、数据压缩(创建赫夫曼树)
2、数据压缩(生成赫夫曼编码和赫夫曼编码后的数据)
3、数据解压(使用赫夫曼编码解码)
4、文件压缩
5、文件解压

import java.io.*;
import java.util.*;

public class HuffmanCode {
    public static void main(String[] args) {
//        String content = "i like like like java do you like a java";
//        byte[] contentByte = content.getBytes();
//        System.out.println(contentByte.length);

//        byte[] huffmanCodeBytes = huffmanZip(contentByte);
//        System.out.println("压缩后的结果是:" + Arrays.toString(huffmanCodeBytes));

//        byte[] decode = decode(huffmanCodes, huffmanCodeBytes);
//        System.out.println("原来的字符串 = " + new String(decode));

        // 测试压缩文件
//        String srcFile = "E://hh.bmp";
//        String dstFile = "E://hh.zip";
//        zipFile(srcFile,dstFile);
//        System.out.println("压缩好了");

        // 测试解压文件
        String zipFile = "E://hh.zip";
        String dstFile2 = "E://hh2.bmp";
        unZipFile(zipFile, dstFile2);
        System.out.println("解压完了");
    }


    /**
     * 编写一个方法,完成对压缩文件的解压
     * @param zipFile
     * @param dstFile
     */
    public static void unZipFile(String zipFile, String dstFile) {
        // 定义一个文件输入流
        InputStream is = null;
        // 定义一个对象输入流
        ObjectInputStream ois = null;
        // 定义文件输出流
        OutputStream os = null;
        try {
            // 创建文件输入流
            is = new FileInputStream(zipFile);
            // 创建一个和 is 关联的对象输入流
            ois = new ObjectInputStream(is);
            // 读取byte数组 huffmanBytes
            byte[] huffmanBytes = (byte[]) ois.readObject();
            // 读取赫夫曼编码表
            Map<Byte, String> huffmanCodes = (Map<Byte, String>) ois.readObject();

            // 解码
            byte[] bytes = decode(huffmanCodes, huffmanBytes);
            // 将 bytes 数组写入到目标文件
            os = new FileOutputStream(dstFile);
            // 写数据到 dstFile 文件
            os.write(bytes);
        } catch (Exception e) {
            System.out.println(e.getMessage());
        } finally {
            try {
                os.close();
                ois.close();
                is.close();
            } catch (IOException e) {
                System.out.println(e.getMessage());
            }
        }
    }

    /**
     *
     * @param srcFile  你传入的希望压缩的文件的全路径
     * @param dstFile  我们压缩后将压缩文件放到哪个目录
     */
    public static void zipFile(String srcFile, String dstFile) {
        // 创建文件输出流
        FileOutputStream os = null;
        ObjectOutputStream oos = null;
        // 创建输入流
        FileInputStream is = null;
        try {
            // 创建文件的输入流
            is = new FileInputStream(srcFile);
            // 创建一个和源文件大小一样的byte[]
            byte[] b = new byte[is.available()];
            // 读取文件
            is.read(b);
            // 直接对源文件压缩
            byte[] huffmanBytes = huffmanZip(b);
            // 创建文件输出流,存放压缩文件
            os = new FileOutputStream(dstFile);
            // 创建一个和文件输出流关联的ObjectOutputStream
            oos = new ObjectOutputStream(os);
            // 把赫夫曼编码后的字节数组写入压缩文件
            oos.writeObject(huffmanBytes);
            // 这里我们以对象流的方式写入 赫夫曼编码,是为了我们以后恢复文件时使用
            // 注意一定要把赫夫曼编码 写入压缩文件
            oos.writeObject(huffmanCodes);
        } catch (Exception e) {
            System.out.println(e.getMessage());
        } finally {
            try {
                is.close();
                oos.close();
                os.close();
            } catch (Exception e) {
                System.out.println(e.getMessage());
            }
        }
    }


    // 编写一个方法,完成对压缩数据的解码
    private static byte[] decode(Map<Byte, String> huffmanCodes, byte[] huffmanBytes) {
        // 1、先得到huffmanBytes 对应的二进制的字符串。 形式如 110101000111..
        StringBuilder  stringBuilder = new StringBuilder();
        // 将byte数组转成二进制的字符串
        for (int i = 0; i < huffmanBytes.length; i++) {
            byte b = huffmanBytes[i];
            // 判断是不是最后一个字节
            boolean flag = (i == huffmanBytes.length - 1);
            stringBuilder.append(byteToBitString(!flag, b));
        }
        // 把字符串安装指定的赫夫曼编码进行解码
        // 把赫夫曼编码表进行调换,因为反向查询 a->100 100->a
        HashMap<String, Byte> map = new HashMap<>();
        for (Map.Entry<Byte, String> entry : huffmanCodes.entrySet()) {
            map.put(entry.getValue(), entry.getKey());
        }
        // 创建要给集合,存放byte
        List<Byte> list = new ArrayList<>();
        // i可以理解成就是索引,扫描stringBuilder
        for (int i = 0; i < stringBuilder.length();) {
            int count = 1;// 小的计数器
            boolean flag = true;
            Byte b = null;

            while (flag) {
                String key = stringBuilder.substring(i, i + count);// i 不动,让count移动,直到匹配到一个字符
                b = map.get(key);
                if(b == null) {// 如果没有匹配到
                    count++;
                } else {
                    // 匹配到
                    flag = false;
                }
            }
            list.add(b);
            i += count;// i 直接移动到count
        }
        // 当for循环结束后,我们list中就存放了所有的字符
        // 把list 中的数据放入到byte[] 并返回
        byte[] b = new byte[list.size()];
        for (int i = 0; i < b.length; i++) {
            b[i] = list.get(i);
        }
        return b;
    }



    // 完成数据的解压

    /**
     * 将一个byte转成一个二进制的字符串
     * @param flag 标志是否需要补高位
     * @param b 传入的byte
     * @return 是该b 对应的二进制的字符串(注意是按照补码返回)
     */
    private static String byteToBitString(boolean flag, byte b) {
        int temp = b;// 将 b 转成 int
        // 如果是正数我们还需要补高位
        if(flag) {
            temp |= 256;
        }
        String str = Integer.toBinaryString(temp);// 返回的是temp对应的二进制的补码
        if(flag) {
            return str.substring(str.length() - 8);
        }
        return str;
    }

    public static byte[] huffmanZip(byte[] bytes) {
        List<Node> nodes = getNodes(bytes);
        // 根据nodes 创建HuffmanTree
        Node huffmanTreeRoot = creatHuffmanTree(nodes);
        // 获取对应的赫夫曼编码
        Map<Byte, String> huffmanCodes = getCodes(huffmanTreeRoot);
        // 根据生成的赫夫曼编码,压缩得到压缩后的赫夫曼编码字节数组
        byte[] huffmanByteCodes = zip(bytes, huffmanCodes);
        return huffmanByteCodes;
    }




    // 编写一个方法,将字符串对应的byte[]数组,通过生成的赫夫曼编码表,返回一个赫夫曼编码 压缩后的byte[]
    public static byte[] zip(byte[] bytes, Map<Byte, String> huffmanCodes) {
        // 1、利用huffmanCodes 将bytes 转成 赫夫曼编码对应的字符串
        StringBuilder stringBuilder = new StringBuilder();
        // 遍历bytes 数组
        for (byte b : bytes) {
            stringBuilder.append(huffmanCodes.get(b));
        }
//        System.out.println("测试 stringBuilder =" + stringBuilder.toString());

        // 统计返回 byte[] huffmanCodeBytes 长度
        // int len = (stringBuilder.length() + 7) / 8;
        int len = 0;
        if(stringBuilder.length() % 8 == 0) {
            len = stringBuilder.length() / 8;
        } else {
            len = stringBuilder.length() / 8 + 1;
        }
        // 创建 存储压缩后的bytes数组
        byte[] huffmanCodeBytes = new byte[len];
        int index = 0;// 记录是第几个byte
        for (int i = 0; i < stringBuilder.length(); i += 8) {// 因为是每8位对应一个byte  所以步长 +8
            String strByte;
            if(i+8 > stringBuilder.length()) {
                strByte = stringBuilder.substring(i);
            } else {
                strByte = stringBuilder.substring(i, i + 8);
            }
            // 将strByte 转成一个byte, 放入到huffmanCodeBytes
            huffmanCodeBytes[index] = (byte) Integer.parseInt(strByte, 2);
            index++;
        }
        return huffmanCodeBytes;
    }


    private static void preOrder(Node root) {
        if(root != null) {
            root.preOrder();
        } else {
            System.out.println("赫夫曼树为空!");
        }
    }
    static Map<Byte, String> huffmanCodes =new HashMap<>();
    static StringBuilder stringBuilder =new StringBuilder();

    private static Map<Byte, String> getCodes(Node root) {
        if(root == null) {
            return null;
        }
        // 处理root的左子树
        getCodes(root.left, "0", stringBuilder);
        // 处理root的右子树
        getCodes(root.right, "1", stringBuilder);
        return huffmanCodes;
    }


    /**
     * 功能:将传入的node节点的所有
     * @param node
     * @param code
     * @param stringBuilder
     */
    private static void getCodes(Node node, String code, StringBuilder stringBuilder) {
        StringBuilder stringBuilder2 = new StringBuilder(stringBuilder);
        stringBuilder2.append(code);
        if(node != null) {
            if(node.data == null) {// 非叶子结点
                // 递归处理
                // 左递归
                getCodes(node.left, "0", stringBuilder2);
                // 右递归
                getCodes(node.right, "1", stringBuilder2);
            } else {
                huffmanCodes.put(node.data, stringBuilder2.toString());
            }
        }
    }

    private static List<Node> getNodes(byte[] bytes) {
        // 1、创建一个ArrayList
        ArrayList<Node> nodes = new ArrayList<>();
        // 2、遍历bytes,统计每一个byte出现的次数 -> map[key,value]
        HashMap<Byte, Integer> counts = new HashMap<>();
        for (byte b : bytes) {
            Integer count = counts.get(b);
            if(count == null) {
                counts.put(b,1);
            } else {
                counts.put(b, count++);
            }
        }
        // 把每一个键值对转成一个Node,并加入到nodes集合
        for (Map.Entry<Byte, Integer> entry : counts.entrySet()) {
            nodes.add(new Node(entry.getKey(), entry.getValue()));
        }
        return nodes;
    }

    // 通过List 创建对应的赫夫曼树
    private static Node creatHuffmanTree(List<Node> nodes) {
        while (nodes.size() > 1) {
            Collections.sort(nodes);
            Node leftNode = nodes.get(0);
            Node rightNode = nodes.get(1);
            Node parent = new Node(null, leftNode.weight + rightNode.weight);
            parent.left = leftNode;
            parent.right = rightNode;
            nodes.remove(leftNode);
            nodes.remove(rightNode);
            nodes.add(parent);
        }
        return nodes.get(0);
    }
}

class Node implements Comparable<Node>{
    Byte data;// 存放数据(字符本身)。比如'a' => 97   ' ' => 32
    int weight;// 权值,表示字符出现的次数
    Node left;
    Node right;

    public Node(Byte data, int weight) {
        this.data = data;
        this.weight = weight;
    }

    @Override
    public int compareTo(Node o) {
        // 从小到大排序
        return this.weight - o.weight;
    }

    @Override
    public String toString() {
        return "Node{" +
                "data=" + data +
                ", weight=" + weight +
                '}';
    }

    // 前序遍历
    public void preOrder() {
        System.out.println(this);
        if(this.left != null) {
            this.left.preOrder();
        }
        if(this.right != null) {
            this.right.preOrder();
        }
    }
}
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值