数据解压-----续赫夫曼编码

最新推荐文章于 2024-07-06 22:34:06 发布

Kwqin

最新推荐文章于 2024-07-06 22:34:06 发布

阅读量605

点赞数

文章标签：数据结构霍夫曼树

本文链接：https://blog.csdn.net/weixin_49849351/article/details/121995846

版权

字节转二进制字符串

// 完成数据的解压
    // 思路
    // 1 将huffmanCodeBytes [40, 46, -56, 46, -56, 46, -55, 5, -123, 6, -88, -46, -126, -20, -124, -126, 24 ]
    // 重新转成赫夫曼编码对应的字符串 100100100...
    // 2 将赫夫曼对应的二进制字符串 100100100... 对照 哈夫曼编码转成 i like java......

    /**
     * 将byte 转成一个二进制的字符串
     * @param flag 标志当前是否需要补高位  如果是true 需要补高位
     * @param b 传入的byte
     * @return 返回  b 对应二进制的字符串(补码返回)
     */
    private static String byteToBitString(boolean flag,byte b){
        int temp = b; // 向上强转 b变成int
        // 如果是整数 需要补高位
        if(flag) { // 如果当前长度 没有8位 不用高位补码
            temp |= 256; // 按位与 256 =1 0000 0000   1 = 0000 0001 => 1 0000 0001
        }
        String str = Integer.toBinaryString(temp); // 返回temp 对应二进制的补码
        if (flag) {
            return str.substring(str.length() - 8); // 取最后8位
        }else {
            return str;
        }
    }

数据解压------赫夫曼解码

/**
     * 编写有个方法  完成对压缩数据的编码
     * @param huffmanCode 哈夫曼编码表
     * @param huffmanBytes 哈夫曼编码的得到的字节数组
     * @return  原来的字符串对应的数组
     */
    private static byte[] decode(Map<Byte,String> huffmanCode, byte[] huffmanBytes){
        // 1 先得到 huffmanBytes 的二进制的字符串 形式为"10101010..."
        StringBuilder stringBuilder = new StringBuilder();
        // 将byte数组转成二进制的字符串
        boolean flag = false;
        for(int i = 0; i < huffmanBytes.length; i++){
            // 判断是不是最后一个字节
            if (huffmanBytes.length-1 == i){
                flag = true;
            }
            stringBuilder.append(byteToBitString(!flag,huffmanBytes[i]));//拿到二进制字符串
        }
        //	System.out.println("哈弗曼树对应的二进制字符串是 "+stringBuilder.toString());
        // 把字符串安装到指定的哈夫曼编码进行解码
        // 把哈夫曼树编码进行调换 因为反向查询 a -> 100 100->a
        Map<String, Byte> map = new HashMap<>();
        for (Map.Entry<Byte,String> entry : huffmanCode.entrySet()){
            map.put(entry.getValue(), entry.getKey());
        }
        //System.out.println(map);
        //创键一个集合 存放byte
        List<Byte> list = new ArrayList<>();
        // i理解成是一个索引 扫描stringBuilder
        for (int i = 0; i < stringBuilder.length();){
            int count = 1; // 小的计数器
            flag = true;
            Byte b = null;
            while (flag) {
                // 取出一个'1'或'0' 组建key 去map{000=108, 01=32, 001=105, 01000=100, 01011=118...中查找
                String key = stringBuilder.substring(i, i + count);// i 不动 让count移动// 直到匹配到一个字符

                b = map.get(key);
                if (b == null) {
                    count++;
                } else {
                    //匹配到了
                    flag = false;

                }
            }
            list.add(b); i += count;
        }
        // for循环结束后 list就存放了所有字符
        // 把list中的数据放入byte数组中
        byte[] b = new byte[list.size()];
        for (int i = 0; i < b.length; i++){
            b[i] = list.get(i);
        }
        return b;
    }

测试

package huffmancode;

import java.nio.charset.StandardCharsets;
import java.util.*;

public class HuffmanCode {
    public static void main(String[] args) {
        String content = "i like like like java do you like a java";
        byte[] contentBytes = content.getBytes(StandardCharsets.UTF_8);
        System.out.println(contentBytes.length);//40
        byte[] huffmanCodesBytes = huffmanZip(contentBytes);
        System.out.println("压缩后的结果是:"+Arrays.toString(huffmanCodesBytes)+"长度="+huffmanCodesBytes.length);
        byte[] sourceBytes = decode(huffmanCode, huffmanCodesBytes);
        System.out.println("原来的字符串="+new String(sourceBytes));
    }
     /*   //分布过程
        //测试一把
        List<Node> nodes = getNodes(contentBytes);
        System.out.println("nodes"+nodes);

        //测试一把，创建的二叉树
        System.out.println("哈夫曼树");
        Node huffmanTreeRoot = createHuffmanTree(nodes);
        System.out.println("前序遍历");
        huffmanTreeRoot.preOrder();
        //测试一把 是否生成了哈夫曼编码
        Map<Byte, String> huffmanCodes = getCodes(huffmanTreeRoot);
        System.out.println("生成的哈夫曼编码表"+huffmanCodes);

        //测试
        byte[] huffmanCodeBytes = zip(contentBytes, huffmanCodes);
        System.out.println("huffmanCodeBytes="+Arrays.toString(huffmanCodeBytes));//17个
        //发送huffmanCodeBytes 数组

      */


    // 完成数据的解压
    // 思路
    // 1 将huffmanCodeBytes [40, 46, -56, 46, -56, 46, -55, 5, -123, 6, -88, -46, -126, -20, -124, -126, 24 ]
    // 重新转成赫夫曼编码对应的字符串 100100100...
    // 2 将赫夫曼对应的二进制字符串 100100100... 对照 哈夫曼编码转成 i like java......

    /**
     * 将byte 转成一个二进制的字符串
     * @param flag 标志当前是否需要补高位  如果是true 需要补高位
     * @param b 传入的byte
     * @return 返回  b 对应二进制的字符串(补码返回)
     */
    private static String byteToBitString(boolean flag,byte b){
        int temp = b; // 向上强转 b变成int
        // 如果是整数 需要补高位
        if(flag) { // 如果当前长度 没有8位 不用高位补码
            temp |= 256; // 按位与 256 =1 0000 0000   1 = 0000 0001 => 1 0000 0001
        }
        String str = Integer.toBinaryString(temp); // 返回temp 对应二进制的补码
        if (flag) {
            return str.substring(str.length() - 8); // 取最后8位
        }else {
            return str;
        }
    }

    /**
     * 编写有个方法  完成对压缩数据的编码
     * @param huffmanCode 哈夫曼编码表
     * @param huffmanBytes 哈夫曼编码的得到的字节数组
     * @return  原来的字符串对应的数组
     */
    private static byte[] decode(Map<Byte,String> huffmanCode, byte[] huffmanBytes){
        // 1 先得到 huffmanBytes 的二进制的字符串 形式为"10101010..."
        StringBuilder stringBuilder = new StringBuilder();
        // 将byte数组转成二进制的字符串
        boolean flag = false;
        for(int i = 0; i < huffmanBytes.length; i++){
            // 判断是不是最后一个字节
            if (huffmanBytes.length-1 == i){
                flag = true;
            }
            stringBuilder.append(byteToBitString(!flag,huffmanBytes[i]));//拿到二进制字符串
        }
        //	System.out.println("哈弗曼树对应的二进制字符串是 "+stringBuilder.toString());
        // 把字符串安装到指定的哈夫曼编码进行解码
        // 把哈夫曼树编码进行调换 因为反向查询 a -> 100 100->a
        Map<String, Byte> map = new HashMap<>();
        for (Map.Entry<Byte,String> entry : huffmanCode.entrySet()){
            map.put(entry.getValue(), entry.getKey());
        }
        //System.out.println(map);
        //创键一个集合 存放byte
        List<Byte> list = new ArrayList<>();
        // i理解成是一个索引 扫描stringBuilder
        for (int i = 0; i < stringBuilder.length();){
            int count = 1; // 小的计数器
            flag = true;
            Byte b = null;
            while (flag) {
                // 取出一个'1'或'0' 组建key 去map{000=108, 01=32, 001=105, 01000=100, 01011=118...中查找
                String key = stringBuilder.substring(i, i + count);// i 不动 让count移动// 直到匹配到一个字符

                b = map.get(key);
                if (b == null) {
                    count++;
                } else {
                    //匹配到了
                    flag = false;

                }
            }
            list.add(b); i += count;
        }
        // for循环结束后 list就存放了所有字符
        // 把list中的数据放入byte数组中
        byte[] b = new byte[list.size()];
        for (int i = 0; i < b.length; i++){
            b[i] = list.get(i);
        }
        return b;
    }




        // 使用一个方法 将前面的方法封装起来 ,便于调用

        /**
         * @param bytes 原始的字符串对应的字节数组
         * @return 返回的是经过哈夫曼编码处理后(压缩后)的数组
         */
        private static byte[] huffmanZip(byte[] bytes) {
            List<Node> nodes = getNodes(bytes);
            // 根据node创建哈夫曼树
            Node huffmanTreeRoot = createHuffmanTree(nodes);
            // 根据哈夫曼树生成对应的哈夫曼编码
            Map<Byte, String> huffmanCodes = getCodes(huffmanTreeRoot);
            // 根据生成的哈夫曼编码 压缩得到压缩后的哈夫曼编码字节数组
            byte[] huffmanCodeBytes = zip(bytes, huffmanCodes);
            return huffmanCodeBytes;

}


    /**
     *   构建字节Node数组
     * @param bytes 字节数组
     * @return  返回node数组
     */
    public static List<Node> getNodes(byte[] bytes){
        //1创建一个ArrayList
        ArrayList<Node> nodes = new ArrayList<>();
        //遍历bytes，统计每一个byte出现的次数-->map[key,value]
        Map<Byte, Integer> counts = new HashMap<>();
        for (byte b : bytes) {
            Integer count = counts.get(b);
            if (count==null){ //Map还没有这个字符数据，第一次
                counts.put(b,1);
            }else {
                counts.put(b,count+1);
            }

        }
        // 每个键值对转成node对象  并加入nodes
        // 遍历map
        for (Map.Entry<Byte,Integer> entry:counts.entrySet()){
            nodes.add(new Node(entry.getKey(),entry.getValue()));
        }
    return nodes;
    }
    //可以通过List 创建对应的赫夫曼树
    private static Node createHuffmanTree(List<Node> nodes){
        while (nodes.size()>1){
            //排序，从小到大
            Collections.sort(nodes);
            //取出最小的二叉树
            Node leftNode = nodes.get(0);
            //取出第二颗最小的二叉树
            Node rightNode = nodes.get(1);
            //创建一颗新的二叉树
            Node parent = new Node(null, leftNode.weight + rightNode.weight);
            parent.left=leftNode;
            parent.right=rightNode;
            //将已经处理的二叉树从nodes删除
            nodes.remove(leftNode);
            nodes.remove(rightNode);
            //将新的二叉树，加到nodes中
            nodes.add(parent);
        }
        //nodes 最后的节点，也就是哈夫曼树的根节点
        return nodes.get(0);
    }


    /**
     *       编写一个方法将字符串对应的byte[]数组 通过生成的哈夫曼编码表 返回一个哈夫曼编码 压缩后的byte数组
     * @param bytes 原始的字符串对应的byte[]数组
     * @param huffmanCode 生成得Huffman编码
     * @return 返回哈夫曼树编码处理后的byte[]
     * 当前例子将会返回(类似 因为生成得Huffman树的结构不同 但是长度会相同)1010100010111111110010001011111111001000101111111100100101001101110001110000011011101000111100101000
     * 101111111100110001001010011011100
     * =>对应的byte[] 数组 放入 8个数字 对应一个byte 放入数组 例如
     * 10101000(补码) => byte (10101000 => 10101000 -1 => 10100111(反码) => 11011000(源码) =>-88)
     */
    private static byte[] zip(byte[] bytes, Map<Byte,String> huffmanCode){
        // 1 先用Huffman编码表 将bytes 转成 Huffman编码对应的字符串
        StringBuilder stringBuilder = new StringBuilder();
        // 遍历byte数组
        for(byte b : bytes){
            stringBuilder.append(huffmanCode.get(b));
        }
        //System.out.println(stringBuilder.toString());
        //将101010001011111...转成bute[]
        //统计返回byte[]huffmanCodeBytes 长度
        int len;
        if (stringBuilder.length()%8==0){
            len=stringBuilder.length()/8;
        }else {
            len=stringBuilder.length()/8+1;
        }
        // 创建 一个存储压缩后的byte数组
        byte[] huffmanCodeBytes = new byte[len];
        int index = 0; // 第几个byte
        for (int i = 0; i < stringBuilder.length(); i+=8){// 步长为8
            String strByte;
            if(i + 8 > stringBuilder.length()) {// 不够8位
                strByte = stringBuilder.substring(i);  // i-结束
            }else {
                strByte = stringBuilder.substring(i, i + 8);
            }
            huffmanCodeBytes[index++] = (byte) Integer.parseInt(strByte,2); // 二进制
        }
        return huffmanCodeBytes;
    }







    // 生成哈夫曼对应的哈夫曼编码
    // 1 将哈夫曼树放在Map<Byte,String> 形式大概为 a->100 d->11000 u->11001 e->1110 v->11011 i->101 y->11010 j->0010 k->1111 l->000 o->0011
    // 2 在生成哈夫曼编码表时 需要拼接路径  定义一个stringBuilder 存储某个叶子节点的路径
    static Map<Byte,String> huffmanCode = new HashMap<>();
    static StringBuilder stringBuilder = new StringBuilder();

    //为了调用方便。我们重载geyCodes
    private static Map<Byte,String > getCodes(Node root){
        if (root==null){
            return null;
        }
        //处理左子树
        getCodes(root.left,"0",stringBuilder);
        //处理右子树
        getCodes(root.right,"1",stringBuilder);
        return  huffmanCode;
    }

    /**
     *       将传入的node节点的所有叶子节点的哈夫曼编码得到 , 并放入到HuffmanCodes集合中
     * @param node 传入节点 默认根节点
     * @param code 路径 左子节点为 0 右子节点为 1
     * @param stringBuilder 拼接路径
     */
    private static void getCodes(Node node, String code, StringBuilder stringBuilder){
        StringBuilder stringBuilder2 = new StringBuilder(stringBuilder);
        //将code 加入到stringBuilder2
        stringBuilder2.append(code);
        if (node != null){
            //判断是叶子节点还是非叶子节点
            if (node.data == null){ // 非叶子节点
                //递归处理
                //像左递归
                getCodes(node.left,"0",stringBuilder2);
                //像右递归
                getCodes(node.right,"1",stringBuilder2);
            }else {//说明是叶子节点
                //就表示找到某个叶子节点的最后
                huffmanCode.put(node.data, stringBuilder2.toString());
            }
        }

    }





    //前序遍历的方法
    private static void preOrder(Node root){
        if (root==null){
            System.out.println("哈夫曼树为空");
        }else {
            root.preOrder();
        }
    }
}


// 创建node ,带数据和权值
class Node implements Comparable<Node>{
    Byte data; // 存放数据(字符)本身 比如'a' => 97 ' '=> 32
    int weight; // 权值 表示数据(字符) 出现的次数
    Node left;
    Node right;

    public Node(Byte data, int weight) {
        this.data = data;
        this.weight = weight;
    }


    @Override
    public int compareTo(Node o) {
        // weight 升序排列，从小到大排序
        return this.weight - o.weight;
    }

    @Override
    public String toString() {
        return "Node [data = "+data+ " weight= "+weight+"]";
    }
    // 前序遍历
    public  void preOrder(){
        System.out.println(this);
        if(this.left != null){
            this.left.preOrder();
        }
        if(this.right != null){
            this.right.preOrder();
        }
    }
}

输出

使用哈夫曼编码压缩文件

新增方法

  /**
     * 编写一个方法 对文件进行压缩
     * @param srcFile 传入文件的路径
     * @param dsFile  压缩后的文件的存储位置
     */
    public static void zipFile(String srcFile, String dsFile) {
        // 创建输入输出流
        // 创建文件的输入流
        FileInputStream is = null;
        OutputStream os = null;
        ObjectOutputStream oos = null;
        try {
            is = new FileInputStream(srcFile);
            // 创建和源文件大小一样的数组byte[]
            byte[] b = new byte[is.available()];
            is.read(b);
            // 获取到文件对应的哈夫曼编码
            // 对源文件进行压缩
            byte[] huffmanBytes = huffmanZip(b);
            // 创建文件的输出流,存放压缩文件
            os = new FileOutputStream(dsFile);
            // 创建一个和文件输出关联的ObjectOutputStream
            oos = new ObjectOutputStream(os);
            // 这里以对象流的方式写入哈夫曼编码后的字节数组，
            // 注意一定要把赫夫曼树 写入压缩文件 是为了我们以后恢复源文件的时候使用
            oos.write(huffmanBytes);
            oos.writeObject(huffmanCode);

        }catch (Exception e){
            e.printStackTrace();
        }finally {
            try {
                is.close();
                os.close();
                oos.close();
            } catch (IOException e) {
                e.printStackTrace();
            }
        }
    }

主方法添加代码

   //测试压缩文件
        String srcFile="d://R-C.png";
        String destFile="d://a.zip";
        zipFile(srcFile,destFile);
        System.out.println("压缩文件ok");

全部代码

package huffmancode;

import java.io.*;
import java.nio.charset.StandardCharsets;
import java.util.*;

public class HuffmanCode {
    public static void main(String[] args) {
        //测试压缩文件
        String srcFile="d://R-C.png";
        String destFile="d://a.zip";
        zipFile(srcFile,destFile);
        System.out.println("压缩文件ok");
    /*     String content = "i like like like java do you like a java";
        byte[] contentBytes = content.getBytes(StandardCharsets.UTF_8);
        System.out.println(contentBytes.length);//40
      for (byte contentByte : contentBytes) {
            System.out.println(contentByte);
        }
        byte[] huffmanCodesBytes = huffmanZip(contentBytes);
        System.out.println("压缩后的结果是:"+Arrays.toString(huffmanCodesBytes)+"长度="+huffmanCodesBytes.length);
        byte[] sourceBytes = decode(huffmanCode, huffmanCodesBytes);
        System.out.println("原来的字符串="+new String(sourceBytes));
      */
    }
     /*   //分布过程
        //测试一把
        List<Node> nodes = getNodes(contentBytes);
        System.out.println("nodes"+nodes);

        //测试一把，创建的二叉树
        System.out.println("哈夫曼树");
        Node huffmanTreeRoot = createHuffmanTree(nodes);
        System.out.println("前序遍历");
        huffmanTreeRoot.preOrder();
        //测试一把 是否生成了哈夫曼编码
        Map<Byte, String> huffmanCodes = getCodes(huffmanTreeRoot);
        System.out.println("生成的哈夫曼编码表"+huffmanCodes);

        //测试
        byte[] huffmanCodeBytes = zip(contentBytes, huffmanCodes);
        System.out.println("huffmanCodeBytes="+Arrays.toString(huffmanCodeBytes));//17个
        //发送huffmanCodeBytes 数组

      */

    /**
     * 编写一个方法 对文件进行压缩
     * @param srcFile 传入文件的路径
     * @param dsFile  压缩后的文件的存储位置
     */
    public static void zipFile(String srcFile, String dsFile) {
        // 创建输入输出流
        // 创建文件的输入流
        FileInputStream is = null;
        OutputStream os = null;
        ObjectOutputStream oos = null;
        try {
            is = new FileInputStream(srcFile);
            // 创建和源文件大小一样的数组byte[]
            byte[] b = new byte[is.available()];
            is.read(b);
            // 获取到文件对应的哈夫曼编码
            // 对源文件进行压缩
            byte[] huffmanBytes = huffmanZip(b);
            // 创建文件的输出流,存放压缩文件
            os = new FileOutputStream(dsFile);
            // 创建一个和文件输出关联的ObjectOutputStream
            oos = new ObjectOutputStream(os);
            // 这里以对象流的方式写入哈夫曼编码后的字节数组，
            // 注意一定要把赫夫曼树 写入压缩文件 是为了我们以后恢复源文件的时候使用
            oos.write(huffmanBytes);
            oos.writeObject(huffmanCode);

        }catch (Exception e){
            e.printStackTrace();
        }finally {
            try {
                is.close();
                os.close();
                oos.close();
            } catch (IOException e) {
                e.printStackTrace();
            }
        }
    }



    // 完成数据的解压
    // 思路
    // 1 将huffmanCodeBytes [40, 46, -56, 46, -56, 46, -55, 5, -123, 6, -88, -46, -126, -20, -124, -126, 24 ]
    // 重新转成赫夫曼编码对应的字符串 100100100...
    // 2 将赫夫曼对应的二进制字符串 100100100... 对照 哈夫曼编码转成 i like java......

    /**
     * 将byte 转成一个二进制的字符串
     * @param flag 标志当前是否需要补高位  如果是true 需要补高位
     * @param b 传入的byte
     * @return 返回  b 对应二进制的字符串(补码返回)
     */
    private static String byteToBitString(boolean flag,byte b){
        int temp = b; // 向上强转 b变成int
        // 如果是整数 需要补高位
        if(flag) { // 如果当前长度 没有8位 不用高位补码
            temp |= 256; // 按位与 256 =1 0000 0000   1 = 0000 0001 => 1 0000 0001
        }
        String str = Integer.toBinaryString(temp); // 返回temp 对应二进制的补码
        if (flag) {
            return str.substring(str.length() - 8); // 取最后8位
        }else {
            return str;
        }
    }

    /**
     * 编写有个方法  完成对压缩数据的编码
     * @param huffmanCode 哈夫曼编码表
     * @param huffmanBytes 哈夫曼编码的得到的字节数组
     * @return  原来的字符串对应的数组
     */
    private static byte[] decode(Map<Byte,String> huffmanCode, byte[] huffmanBytes){
        // 1 先得到 huffmanBytes 的二进制的字符串 形式为"10101010..."
        StringBuilder stringBuilder = new StringBuilder();
        // 将byte数组转成二进制的字符串
        boolean flag = false;
        for(int i = 0; i < huffmanBytes.length; i++){
            // 判断是不是最后一个字节
            if (huffmanBytes.length-1 == i){
                flag = true;
            }
            stringBuilder.append(byteToBitString(!flag,huffmanBytes[i]));//拿到二进制字符串
        }
        //	System.out.println("哈弗曼树对应的二进制字符串是 "+stringBuilder.toString());
        // 把字符串安装到指定的哈夫曼编码进行解码
        // 把哈夫曼树编码进行调换 因为反向查询 a -> 100 100->a
        Map<String, Byte> map = new HashMap<>();
        for (Map.Entry<Byte,String> entry : huffmanCode.entrySet()){
            map.put(entry.getValue(), entry.getKey());
        }
        //System.out.println(map);
        //创键一个集合 存放byte
        List<Byte> list = new ArrayList<>();
        // i理解成是一个索引 扫描stringBuilder
        for (int i = 0; i < stringBuilder.length();){
            int count = 1; // 小的计数器
            flag = true;
            Byte b = null;
            while (flag) {
                // 取出一个'1'或'0' 组建key 去map{000=108, 01=32, 001=105, 01000=100, 01011=118...中查找
                String key = stringBuilder.substring(i, i + count);// i 不动 让count移动// 直到匹配到一个字符

                b = map.get(key);
                if (b == null) {
                    count++;
                } else {
                    //匹配到了
                    flag = false;

                }
            }
            list.add(b); i += count;
        }
        // for循环结束后 list就存放了所有字符
        // 把list中的数据放入byte数组中
        byte[] b = new byte[list.size()];
        for (int i = 0; i < b.length; i++){
            b[i] = list.get(i);
        }
        return b;
    }




        // 使用一个方法 将前面的方法封装起来 ,便于调用

        /**
         * @param bytes 原始的字符串对应的字节数组
         * @return 返回的是经过哈夫曼编码处理后(压缩后)的数组
         */
        private static byte[] huffmanZip(byte[] bytes) {
            List<Node> nodes = getNodes(bytes);
            // 根据node创建哈夫曼树
            Node huffmanTreeRoot = createHuffmanTree(nodes);
            // 根据哈夫曼树生成对应的哈夫曼编码
            Map<Byte, String> huffmanCodes = getCodes(huffmanTreeRoot);
            // 根据生成的哈夫曼编码 压缩得到压缩后的哈夫曼编码字节数组
            byte[] huffmanCodeBytes = zip(bytes, huffmanCodes);
            return huffmanCodeBytes;

}


    /**
     *   构建字节Node数组
     * @param bytes 字节数组
     * @return  返回node数组
     */
    public static List<Node> getNodes(byte[] bytes){
        //1创建一个ArrayList
        ArrayList<Node> nodes = new ArrayList<>();
        //遍历bytes，统计每一个byte出现的次数-->map[key,value]
        Map<Byte, Integer> counts = new HashMap<>();
        for (byte b : bytes) {
            Integer count = counts.get(b);
            if (count==null){ //Map还没有这个字符数据，第一次
                counts.put(b,1);
            }else {
                counts.put(b,count+1);
            }

        }
        // 每个键值对转成node对象  并加入nodes
        // 遍历map
        for (Map.Entry<Byte,Integer> entry:counts.entrySet()){
            nodes.add(new Node(entry.getKey(),entry.getValue()));
        }
    return nodes;
    }
    //可以通过List 创建对应的赫夫曼树
    private static Node createHuffmanTree(List<Node> nodes){
        while (nodes.size()>1){
            //排序，从小到大
            Collections.sort(nodes);
            //取出最小的二叉树
            Node leftNode = nodes.get(0);
            //取出第二颗最小的二叉树
            Node rightNode = nodes.get(1);
            //创建一颗新的二叉树
            Node parent = new Node(null, leftNode.weight + rightNode.weight);
            parent.left=leftNode;
            parent.right=rightNode;
            //将已经处理的二叉树从nodes删除
            nodes.remove(leftNode);
            nodes.remove(rightNode);
            //将新的二叉树，加到nodes中
            nodes.add(parent);
        }
        //nodes 最后的节点，也就是哈夫曼树的根节点
        return nodes.get(0);
    }


    /**
     *       编写一个方法将字符串对应的byte[]数组 通过生成的哈夫曼编码表 返回一个哈夫曼编码 压缩后的byte数组
     * @param bytes 原始的字符串对应的byte[]数组
     * @param huffmanCode 生成得Huffman编码
     * @return 返回哈夫曼树编码处理后的byte[]
     * 当前例子将会返回(类似 因为生成得Huffman树的结构不同 但是长度会相同)1010100010111111110010001011111111001000101111111100100101001101110001110000011011101000111100101000
     * 101111111100110001001010011011100
     * =>对应的byte[] 数组 放入 8个数字 对应一个byte 放入数组 例如
     * 10101000(补码) => byte (10101000 => 10101000 -1 => 10100111(反码) => 11011000(源码) =>-88)
     */
    private static byte[] zip(byte[] bytes, Map<Byte,String> huffmanCode){
        // 1 先用Huffman编码表 将bytes 转成 Huffman编码对应的字符串
        StringBuilder stringBuilder = new StringBuilder();
        // 遍历byte数组
        for(byte b : bytes){
            stringBuilder.append(huffmanCode.get(b));
        }
        //System.out.println(stringBuilder.toString());
        //将101010001011111...转成bute[]
        //统计返回byte[]huffmanCodeBytes 长度
        int len;
        if (stringBuilder.length()%8==0){
            len=stringBuilder.length()/8;
        }else {
            len=stringBuilder.length()/8+1;
        }
        // 创建 一个存储压缩后的byte数组
        byte[] huffmanCodeBytes = new byte[len];
        int index = 0; // 第几个byte
        for (int i = 0; i < stringBuilder.length(); i+=8){// 步长为8
            String strByte;
            if(i + 8 > stringBuilder.length()) {// 不够8位
                strByte = stringBuilder.substring(i);  // i-结束
            }else {
                strByte = stringBuilder.substring(i, i + 8);
            }
            huffmanCodeBytes[index++] = (byte) Integer.parseInt(strByte,2); // 二进制
        }
        return huffmanCodeBytes;
    }







    // 生成哈夫曼对应的哈夫曼编码
    // 1 将哈夫曼树放在Map<Byte,String> 形式大概为 a->100 d->11000 u->11001 e->1110 v->11011 i->101 y->11010 j->0010 k->1111 l->000 o->0011
    // 2 在生成哈夫曼编码表时 需要拼接路径  定义一个stringBuilder 存储某个叶子节点的路径
    static Map<Byte,String> huffmanCode = new HashMap<>();
    static StringBuilder stringBuilder = new StringBuilder();

    //为了调用方便。我们重载geyCodes
    private static Map<Byte,String > getCodes(Node root){
        if (root==null){
            return null;
        }
        //处理左子树
        getCodes(root.left,"0",stringBuilder);
        //处理右子树
        getCodes(root.right,"1",stringBuilder);
        return  huffmanCode;
    }

    /**
     *       将传入的node节点的所有叶子节点的哈夫曼编码得到 , 并放入到HuffmanCodes集合中
     * @param node 传入节点 默认根节点
     * @param code 路径 左子节点为 0 右子节点为 1
     * @param stringBuilder 拼接路径
     */
    private static void getCodes(Node node, String code, StringBuilder stringBuilder){
        StringBuilder stringBuilder2 = new StringBuilder(stringBuilder);
        //将code 加入到stringBuilder2
        stringBuilder2.append(code);
        if (node != null){
            //判断是叶子节点还是非叶子节点
            if (node.data == null){ // 非叶子节点
                //递归处理
                //像左递归
                getCodes(node.left,"0",stringBuilder2);
                //像右递归
                getCodes(node.right,"1",stringBuilder2);
            }else {//说明是叶子节点
                //就表示找到某个叶子节点的最后
                huffmanCode.put(node.data, stringBuilder2.toString());
            }
        }

    }





    //前序遍历的方法
    private static void preOrder(Node root){
        if (root==null){
            System.out.println("哈夫曼树为空");
        }else {
            root.preOrder();
        }
    }
}


// 创建node ,带数据和权值
class Node implements Comparable<Node>{
    Byte data; // 存放数据(字符)本身 比如'a' => 97 ' '=> 32
    int weight; // 权值 表示数据(字符) 出现的次数
    Node left;
    Node right;

    public Node(Byte data, int weight) {
        this.data = data;
        this.weight = weight;
    }


    @Override
    public int compareTo(Node o) {
        // weight 升序排列，从小到大排序
        return this.weight - o.weight;
    }

    @Override
    public String toString() {
        return "Node [data = "+data+ " weight= "+weight+"]";
    }
    // 前序遍历
    public  void preOrder(){
        System.out.println(this);
        if(this.left != null){
            this.left.preOrder();
        }
        if(this.right != null){
            this.right.preOrder();
        }
    }
}

输出：

使用哈夫曼编码解压文件

 //编写一个方法，完成对压缩文件的解压
    /**
     *
     * @param zipFile 准备解压的文件
     * @param dstFile 将文件解压到哪个路径
     */
    public static void unZipFile(String zipFile, String dstFile) {
//定义文件输入流
        InputStream is = null;
//定义一个对象输入流
        ObjectInputStream ois = null;
//定义文件的输出流
        OutputStream os = null;
        try {
//创建文件输入流
            is = new FileInputStream(zipFile);
//创建一个和 is 关联的对象输入流
            ois = new ObjectInputStream(is);
//读取 byte 数组 huffmanBytes
            byte[] huffmanBytes = (byte[])ois.readObject();
//读取赫夫曼编码表
            Map<Byte,String> huffmanCodes = (Map<Byte,String>)ois.readObject();
            System.out.println(huffmanCodes);
//解码
            byte[] bytes = decode(huffmanCodes, huffmanBytes);
            System.out.println(bytes);
//将 bytes 数组写入到目标文件
            os = new FileOutputStream(dstFile);
//写数据到 dstFile 文件
            os.write(bytes);
        } catch (Exception e) {
            System.out.println(e.getMessage());
        } finally {
            try {
                os.close();
                ois.close();
                is.close();
            } catch (Exception e2) {
// TODO: handle exception
                System.out.println(e2.getMessage());
            }
        }
    }

主方法添加代码

 //测试解压文件
        String zipFile="d://a.zip";
        String destFile1="d://A.png";
        unZipFile(zipFile,destFile1);
        System.out.println("解压成功");

完整代码

package huffmancode;

import java.io.*;
import java.nio.charset.StandardCharsets;
import java.util.*;

public class HuffmanCode {
    public static void main(String[] args) {
      /*  //测试压缩文件
        String srcFile="d://R-C.png";
        String destFile="d://a.zip";
        zipFile(srcFile,destFile);
        System.out.println("压缩文件ok");*/
        //测试解压文件
        String zipFile="d://a.zip";
        String destFile1="d://A.png";
        unZipFile(zipFile,destFile1);
        System.out.println("解压成功");



    /*     String content = "i like like like java do you like a java";
        byte[] contentBytes = content.getBytes(StandardCharsets.UTF_8);
        System.out.println(contentBytes.length);//40
      for (byte contentByte : contentBytes) {
            System.out.println(contentByte);
        }
        byte[] huffmanCodesBytes = huffmanZip(contentBytes);
        System.out.println("压缩后的结果是:"+Arrays.toString(huffmanCodesBytes)+"长度="+huffmanCodesBytes.length);
        byte[] sourceBytes = decode(huffmanCode, huffmanCodesBytes);
        System.out.println("原来的字符串="+new String(sourceBytes));
      */
    }
     /*   //分布过程
        //测试一把
        List<Node> nodes = getNodes(contentBytes);
        System.out.println("nodes"+nodes);

        //测试一把，创建的二叉树
        System.out.println("哈夫曼树");
        Node huffmanTreeRoot = createHuffmanTree(nodes);
        System.out.println("前序遍历");
        huffmanTreeRoot.preOrder();
        //测试一把 是否生成了哈夫曼编码
        Map<Byte, String> huffmanCodes = getCodes(huffmanTreeRoot);
        System.out.println("生成的哈夫曼编码表"+huffmanCodes);

        //测试
        byte[] huffmanCodeBytes = zip(contentBytes, huffmanCodes);
        System.out.println("huffmanCodeBytes="+Arrays.toString(huffmanCodeBytes));//17个
        //发送huffmanCodeBytes 数组

      */

    /**
     * 编写一个方法 对文件进行压缩
     * @param srcFile 传入文件的路径
     * @param dsFile  压缩后的文件的存储位置
     */
    public static void zipFile(String srcFile, String dsFile) {
        // 创建输入输出流
        // 创建文件的输入流
        FileInputStream is = null;
        OutputStream os = null;
        ObjectOutputStream oos = null;
        try {
            is = new FileInputStream(srcFile);
            // 创建和源文件大小一样的数组byte[]
            byte[] b = new byte[is.available()];
            is.read(b);
            // 获取到文件对应的哈夫曼编码
            // 对源文件进行压缩
            byte[] huffmanBytes = huffmanZip(b);
            // 创建文件的输出流,存放压缩文件
            os = new FileOutputStream(dsFile);
            // 创建一个和文件输出关联的ObjectOutputStream
            oos = new ObjectOutputStream(os);
            // 这里以对象流的方式写入哈夫曼编码后的字节数组，
            // 注意一定要把赫夫曼树 写入压缩文件 是为了我们以后恢复源文件的时候使用
            oos.write(huffmanBytes);
            oos.writeObject(huffmanCode);

        }catch (Exception e){
            e.printStackTrace();
        }finally {
            try {
                is.close();
                os.close();
                oos.close();
            } catch (IOException e) {
                e.printStackTrace();
            }
        }
    }

    //编写一个方法，完成对压缩文件的解压
    /**
     *
     * @param zipFile 准备解压的文件
     * @param dstFile 将文件解压到哪个路径
     */
    public static void unZipFile(String zipFile, String dstFile) {
//定义文件输入流
        InputStream is = null;
//定义一个对象输入流
        ObjectInputStream ois = null;
//定义文件的输出流
        OutputStream os = null;
        try {
//创建文件输入流
            is = new FileInputStream(zipFile);
//创建一个和 is 关联的对象输入流
            ois = new ObjectInputStream(is);
//读取 byte 数组 huffmanBytes
            byte[] huffmanBytes = (byte[])ois.readObject();
//读取赫夫曼编码表
            Map<Byte,String> huffmanCodes = (Map<Byte,String>)ois.readObject();
            System.out.println(huffmanCodes);
//解码
            byte[] bytes = decode(huffmanCodes, huffmanBytes);
            System.out.println(bytes);
//将 bytes 数组写入到目标文件
            os = new FileOutputStream(dstFile);
//写数据到 dstFile 文件
            os.write(bytes);
        } catch (Exception e) {
            System.out.println(e.getMessage());
        } finally {
            try {
                os.close();
                ois.close();
                is.close();
            } catch (Exception e2) {
// TODO: handle exception
                System.out.println(e2.getMessage());
            }
        }
    }


    // 完成数据的解压
    // 思路
    // 1 将huffmanCodeBytes [40, 46, -56, 46, -56, 46, -55, 5, -123, 6, -88, -46, -126, -20, -124, -126, 24 ]
    // 重新转成赫夫曼编码对应的字符串 100100100...
    // 2 将赫夫曼对应的二进制字符串 100100100... 对照 哈夫曼编码转成 i like java......

    /**
     * 将byte 转成一个二进制的字符串
     * @param flag 标志当前是否需要补高位  如果是true 需要补高位
     * @param b 传入的byte
     * @return 返回  b 对应二进制的字符串(补码返回)
     */
    private static String byteToBitString(boolean flag,byte b){
        int temp = b; // 向上强转 b变成int
        // 如果是整数 需要补高位
        if(flag) { // 如果当前长度 没有8位 不用高位补码
            temp |= 256; // 按位与 256 =1 0000 0000   1 = 0000 0001 => 1 0000 0001
        }
        String str = Integer.toBinaryString(temp); // 返回temp 对应二进制的补码
        if (flag) {
            return str.substring(str.length() - 8); // 取最后8位
        }else {
            return str;
        }
    }

    /**
     * 编写有个方法  完成对压缩数据的编码
     * @param huffmanCode 哈夫曼编码表
     * @param huffmanBytes 哈夫曼编码的得到的字节数组
     * @return  原来的字符串对应的数组
     */
    private static byte[] decode(Map<Byte,String> huffmanCode, byte[] huffmanBytes){
        // 1 先得到 huffmanBytes 的二进制的字符串 形式为"10101010..."
        StringBuilder stringBuilder = new StringBuilder();
        // 将byte数组转成二进制的字符串
        boolean flag = false;
        for(int i = 0; i < huffmanBytes.length; i++){
            // 判断是不是最后一个字节
            if (huffmanBytes.length-1 == i){
                flag = true;
            }
            stringBuilder.append(byteToBitString(!flag,huffmanBytes[i]));//拿到二进制字符串
        }
        //	System.out.println("哈弗曼树对应的二进制字符串是 "+stringBuilder.toString());
        // 把字符串安装到指定的哈夫曼编码进行解码
        // 把哈夫曼树编码进行调换 因为反向查询 a -> 100 100->a
        Map<String, Byte> map = new HashMap<>();
        for (Map.Entry<Byte,String> entry : huffmanCode.entrySet()){
            map.put(entry.getValue(), entry.getKey());
        }
        //System.out.println(map);
        //创键一个集合 存放byte
        List<Byte> list = new ArrayList<>();
        // i理解成是一个索引 扫描stringBuilder
        for (int i = 0; i < stringBuilder.length();){
            int count = 1; // 小的计数器
            flag = true;
            Byte b = null;
            while (flag) {
                // 取出一个'1'或'0' 组建key 去map{000=108, 01=32, 001=105, 01000=100, 01011=118...中查找
                String key = stringBuilder.substring(i, i + count);// i 不动 让count移动// 直到匹配到一个字符

                b = map.get(key);
                if (b == null) {
                    count++;
                } else {
                    //匹配到了
                    flag = false;

                }
            }
            list.add(b); i += count;
        }
        // for循环结束后 list就存放了所有字符
        // 把list中的数据放入byte数组中
        byte[] b = new byte[list.size()];
        for (int i = 0; i < b.length; i++){
            b[i] = list.get(i);
        }
        return b;
    }




        // 使用一个方法 将前面的方法封装起来 ,便于调用

        /**
         * @param bytes 原始的字符串对应的字节数组
         * @return 返回的是经过哈夫曼编码处理后(压缩后)的数组
         */
        private static byte[] huffmanZip(byte[] bytes) {
            List<Node> nodes = getNodes(bytes);
            // 根据node创建哈夫曼树
            Node huffmanTreeRoot = createHuffmanTree(nodes);
            // 根据哈夫曼树生成对应的哈夫曼编码
            Map<Byte, String> huffmanCodes = getCodes(huffmanTreeRoot);
            // 根据生成的哈夫曼编码 压缩得到压缩后的哈夫曼编码字节数组
            byte[] huffmanCodeBytes = zip(bytes, huffmanCodes);
            return huffmanCodeBytes;

}


    /**
     *   构建字节Node数组
     * @param bytes 字节数组
     * @return  返回node数组
     */
    public static List<Node> getNodes(byte[] bytes){
        //1创建一个ArrayList
        ArrayList<Node> nodes = new ArrayList<>();
        //遍历bytes，统计每一个byte出现的次数-->map[key,value]
        Map<Byte, Integer> counts = new HashMap<>();
        for (byte b : bytes) {
            Integer count = counts.get(b);
            if (count==null){ //Map还没有这个字符数据，第一次
                counts.put(b,1);
            }else {
                counts.put(b,count+1);
            }

        }
        // 每个键值对转成node对象  并加入nodes
        // 遍历map
        for (Map.Entry<Byte,Integer> entry:counts.entrySet()){
            nodes.add(new Node(entry.getKey(),entry.getValue()));
        }
    return nodes;
    }
    //可以通过List 创建对应的赫夫曼树
    private static Node createHuffmanTree(List<Node> nodes){
        while (nodes.size()>1){
            //排序，从小到大
            Collections.sort(nodes);
            //取出最小的二叉树
            Node leftNode = nodes.get(0);
            //取出第二颗最小的二叉树
            Node rightNode = nodes.get(1);
            //创建一颗新的二叉树
            Node parent = new Node(null, leftNode.weight + rightNode.weight);
            parent.left=leftNode;
            parent.right=rightNode;
            //将已经处理的二叉树从nodes删除
            nodes.remove(leftNode);
            nodes.remove(rightNode);
            //将新的二叉树，加到nodes中
            nodes.add(parent);
        }
        //nodes 最后的节点，也就是哈夫曼树的根节点
        return nodes.get(0);
    }


    /**
     *       编写一个方法将字符串对应的byte[]数组 通过生成的哈夫曼编码表 返回一个哈夫曼编码 压缩后的byte数组
     * @param bytes 原始的字符串对应的byte[]数组
     * @param huffmanCode 生成得Huffman编码
     * @return 返回哈夫曼树编码处理后的byte[]
     * 当前例子将会返回(类似 因为生成得Huffman树的结构不同 但是长度会相同)1010100010111111110010001011111111001000101111111100100101001101110001110000011011101000111100101000
     * 101111111100110001001010011011100
     * =>对应的byte[] 数组 放入 8个数字 对应一个byte 放入数组 例如
     * 10101000(补码) => byte (10101000 => 10101000 -1 => 10100111(反码) => 11011000(源码) =>-88)
     */
    private static byte[] zip(byte[] bytes, Map<Byte,String> huffmanCode){
        // 1 先用Huffman编码表 将bytes 转成 Huffman编码对应的字符串
        StringBuilder stringBuilder = new StringBuilder();
        // 遍历byte数组
        for(byte b : bytes){
            stringBuilder.append(huffmanCode.get(b));
        }
        //System.out.println(stringBuilder.toString());
        //将101010001011111...转成bute[]
        //统计返回byte[]huffmanCodeBytes 长度
        int len;
        if (stringBuilder.length()%8==0){
            len=stringBuilder.length()/8;
        }else {
            len=stringBuilder.length()/8+1;
        }
        // 创建 一个存储压缩后的byte数组
        byte[] huffmanCodeBytes = new byte[len];
        int index = 0; // 第几个byte
        for (int i = 0; i < stringBuilder.length(); i+=8){// 步长为8
            String strByte;
            if(i + 8 > stringBuilder.length()) {// 不够8位
                strByte = stringBuilder.substring(i);  // i-结束
            }else {
                strByte = stringBuilder.substring(i, i + 8);
            }
            huffmanCodeBytes[index++] = (byte) Integer.parseInt(strByte,2); // 二进制
        }
        return huffmanCodeBytes;
    }







    // 生成哈夫曼对应的哈夫曼编码
    // 1 将哈夫曼树放在Map<Byte,String> 形式大概为 a->100 d->11000 u->11001 e->1110 v->11011 i->101 y->11010 j->0010 k->1111 l->000 o->0011
    // 2 在生成哈夫曼编码表时 需要拼接路径  定义一个stringBuilder 存储某个叶子节点的路径
    static Map<Byte,String> huffmanCode = new HashMap<>();
    static StringBuilder stringBuilder = new StringBuilder();

    //为了调用方便。我们重载geyCodes
    private static Map<Byte,String > getCodes(Node root){
        if (root==null){
            return null;
        }
        //处理左子树
        getCodes(root.left,"0",stringBuilder);
        //处理右子树
        getCodes(root.right,"1",stringBuilder);
        return  huffmanCode;
    }

    /**
     *       将传入的node节点的所有叶子节点的哈夫曼编码得到 , 并放入到HuffmanCodes集合中
     * @param node 传入节点 默认根节点
     * @param code 路径 左子节点为 0 右子节点为 1
     * @param stringBuilder 拼接路径
     */
    private static void getCodes(Node node, String code, StringBuilder stringBuilder){
        StringBuilder stringBuilder2 = new StringBuilder(stringBuilder);
        //将code 加入到stringBuilder2
        stringBuilder2.append(code);
        if (node != null){
            //判断是叶子节点还是非叶子节点
            if (node.data == null){ // 非叶子节点
                //递归处理
                //像左递归
                getCodes(node.left,"0",stringBuilder2);
                //像右递归
                getCodes(node.right,"1",stringBuilder2);
            }else {//说明是叶子节点
                //就表示找到某个叶子节点的最后
                huffmanCode.put(node.data, stringBuilder2.toString());
            }
        }

    }





    //前序遍历的方法
    private static void preOrder(Node root){
        if (root==null){
            System.out.println("哈夫曼树为空");
        }else {
            root.preOrder();
        }
    }
}


// 创建node ,带数据和权值
class Node implements Comparable<Node>{
    Byte data; // 存放数据(字符)本身 比如'a' => 97 ' '=> 32
    int weight; // 权值 表示数据(字符) 出现的次数
    Node left;
    Node right;

    public Node(Byte data, int weight) {
        this.data = data;
        this.weight = weight;
    }


    @Override
    public int compareTo(Node o) {
        // weight 升序排列，从小到大排序
        return this.weight - o.weight;
    }

    @Override
    public String toString() {
        return "Node [data = "+data+ " weight= "+weight+"]";
    }
    // 前序遍历
    public  void preOrder(){
        System.out.println(this);
        if(this.left != null){
            this.left.preOrder();
        }
        if(this.right != null){
            this.right.preOrder();
        }
    }
}

注意事项

Kwqin

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
数据解压-----续赫夫曼编码

字节转二进制字符串// 完成数据的解压 // 思路 // 1 将huffmanCodeBytes [40, 46, -56, 46, -56, 46, -55, 5, -123, 6, -88, -46, -126, -20, -124, -126, 24 ] // 重新转成赫夫曼编码对应的字符串 100100100... // 2 将赫夫曼对应的二进制字符串 100100100... 对照哈夫曼编码转成 i like java...... /**
复制链接

扫一扫