【问题描述】(选做,与实验题类似,不计分)
编写一程序采用Huffman编码对一个正文文件进行压缩。具体压缩方法如下:
-
对正文文件中字符(换行字符’'除外,不统计)按出现次数(即频率)进行统计
-
依据字符频率生成相应的Huffman树(未出现的字符不生成)
-
依据Huffman树生成相应字符的Huffman编码
-
依据字符Huffman编码压缩文件(即按照Huffman编码依次输出源文件字符)。
说明:
-
只对文件中出现的字符生成Huffman,注意:一定不要处理\n,即不要为其生成Huffman码。
-
采用ASCII码值为0的字符作为压缩文件的结束符(即可将其出现次数设为1来参与编码).
-
在生成Huffman树时,初始在对字符频率权重进行(由小至大)排序时,频率相同的字符ASCII编码值小的在前,在依次取出有序权重序列中权重最小的两个节点时将分别作为新生成树的左右子节点;新生成的权重节点插入到有序权重序列中时,出现相同权重时,插入到其后(采用稳定排序)。
-
遍历Huffman树生成字符Huffman码时,左边为0右边为1。
-
源文件是文本文件,字符采用ASCII编码,每个字符占8位;而采用Huffman编码后,高频字符编码长度较短(小于8位),因此最后输出时需要使用C语言中的位运算将字符Huffman码依次输出到每个字节中。
【输入形式】
对当前目录下文件input.txt进行压缩。
【输出形式】
将压缩后结果输出到文件output.txt中,同时将压缩结果用十六进制形式(printf("%x",…))输出到屏幕上,以便检查和查看结果。
【样例输入1】
若当前目录下input.txt中内容如下:
aaabbc
【样例输出1】
15f0
同时程序将压缩结果输出到文件output.txt中。
【样例说明】
输入文件中字符的频率为:a为3,b为2,c为1,此外,\0字符将作为压缩文件的结束标志,其出现次数设为1。因此,采用Huffman码生成方法,它们的Huffman编码分别为:
a : 0
b : 10
c : 111
\0 : 110
因此,最终文件压缩结果(按位)为:
0001010111110000
将上述结果按字节按十六进制输出到屏幕上则为15f0(即0001010 111110000的十六进制表示)。
说明:采用Huffman码输出字符序列长度为:1+1+1+2+2+3+3=13(位),由于C语言中输出的最小单位为字节(8位),因此,最后补了三个位0,压缩后实际输出为2个字节。由于文本文件是按ASCII来解释的,因此,以文本方式打开压缩文件将显示乱码(最好用二进制文件查看器来看)。
【样例输入2】
若当前目录下input.txt中内容如下:
do not spend all that you have.do not sleep as long as you want.
【样例输出2】
ea3169146ce9eee6cff4b2a93fe1a5d462d21d9a87c0eb2f3eb2a9cfe6cae
同时程序将压缩结果输出到文件output.txt中。
#include <stdio.h>
#include <stdlib.h>
#include <math.h>
#include <ctype.h>
#include <string.h>
typedef struct T
{
int c;
int n;
struct T *l;
struct T *r;
} t;
typedef struct S
{
struct T *tr;
struct S *before;
struct S *next;
} s;
t *Ptr(char c, int q);
s *inS(s *top, t *e);
s *Cut(s *stack);
void Ord(s *start);
int Read(t *b, int c, int d);
int a[129], z = 0;
char book[129