【贪心算法】哈夫曼编码Python实现

文章目录

    • @[toc]
      • 哈夫曼编码
      • 不同编码方式对比
      • 前缀码
      • 构造哈夫曼编码
      • 哈夫曼算法的正确性
        • 贪心选择性质
          • 证明
        • 最优子结构性质
          • 证明
        • 总结
      • `Python`实现
      • 时间复杂性

哈夫曼编码

  • 哈夫曼编码是广泛用于数据文件压缩的十分有效的编码方法,其压缩率通常为 20 % 20\% 20% 90 % 90\% 90%
  • 哈夫曼编码算法使用字符在文件中出现的频率表来建立一个用 0 0 0 1 1 1串表示各字符的最优表示方式

不同编码方式对比

  • 假设有一个数据文件包含 100000 100000 100000个字符,要用压缩的方式存储它,该文件中共有 6 6 6个不同字符出现,各字符出现的频率如下表所示
a a a b b b c c c d d d e e e f f f
频率(千次) 45 45 45 13 13 13 12 12 12 16 16 16 9 9 9 5 5 5
  • 有多种方法表示文件中的信息,考察用 0 0 0 1 1 1码串表示字符的方法,即每个字符用唯一的一个 0 0 0 1 1 1串表示
  • 若使用定长码,则表示 6 6 6个不同的字符需要 3 3 3位: a = 000 a = 000 a=000 b = 001 b = 001 b=001 ⋯ \cdots f = 101 f = 101 f=101,用这种方法对整个文件进行编码需要 300000 300000 300000
  • 使用变长码要比使用定长码好得多,给出现频率高的字符较短的编码,出现频率较低的字符以较长的编码,可以大大缩短总码长,下表给出了一种变长码编码方案,其中 a a a用一位串 0 0 0表示,而字符 f f f 4 4 4位串 1100 1100 1100表示
a a a b b b c c c d d d e e e f f f
变长码 0 0 0 101 101 101 100 100 100 111 111 111 1101 1101 1101 1100 1100 1100
  • 用这种编码方案,整个文件的总码长为 ( 45 × 1 + 13 × 3 + 12 × 3 + 16 × 3 + 9 × 4 + 5 × 4 ) × 1000 = 224000 (45 \times 1 + 13 \times 3 + 12 \times 3 + 16 \times 3 + 9 \times 4 + 5 \times 4) \times 1000 = 224000 (45×1+13×3+12×3+16×3+9×4+5×4)×1000=224000位,比用定长码方案好,总码长减小约 25 % 25\% 25%,事实上,这是该文件的最优编码方案

前缀码

  • 对每一个字符规定一个 0 0 0 1 1 1串作为其代码,并要求任一字符的代码都不是其他字符代码的前缀,这种编码称为前缀码
  • 编码的前缀性质可以使译码方法非常简单,由于任一字符的代码都不是其他字符代码的前缀,从编码文件中不断取出代表某一字符的前缀码,转换为原始字符串,即可逐个译出文件中的所有字符
    • 例如上表中的变长码就是一种前缀码,对于给定的 0 0 0 1 1 1 001011101 001011101 001011101可以唯一地分解为 0 0 0 0 0 0 101 101 101 1101 1101 1101,因而其译码为 a a b e aabe aabe
  • 译码过程需要方便地取出编码的前缀,因此需要表示前缀码的合适的数据结构,为此可以用二叉树作为前缀编码的数据结构
  • 在表示前缀码的二叉树中,树叶代表给定的字符,并将每个字符的前缀码看作从树根到代表该字符的树叶的一条路径
  • 定长编码的二叉树表示

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

  • 最优前缀编码的二叉树表示

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

  • 最优前缀码的二叉树总是一棵完全二叉树,即树中任意结点都有 2 2 2个儿子,在一般情况下,若 C C C是字符集,表示其最优前缀码的二叉树中恰有 ∣ C ∣ |C| C个叶子,每个叶子对应字符集中的一个字符,该二叉树恰有 ∣ C ∣ − 1 |C| - 1 C1个内部结点
  • 给定编码字符集 C C C及其频率分布 f f f,即 C C C中任一字符 c c c以频率 f ( c ) f(c) f(c)在数据文件中出现, C C C的一个前缀码编码方案对应一棵二叉树 T T T,字符 c c c在树中的深度记为 d T ( c ) d_{T}(c) dT(c) d T ( c ) d_{T}{(c)} dT(c)也是字符 c c c的前缀码长,该编码方案的平均码长定义为 B ( T ) = ∑ c ∈ C f ( c ) d T ( c ) B(T) = \displaystyle\sum\limits_{c \in C}{f(c) d_{T}(c)} B(T)=cCf(c)dT(c),使平均码长达到最小的前缀码编码方案称为 C C C的最优前缀码

构造哈夫曼编码

  • 哈夫曼提出了构造最优前缀码的贪心算法,由此产生的编码方案称为哈夫曼算法

  • 哈夫曼算法以自底向上的方式构造表示最优前缀码的二叉树 T T T

  • 算法以 ∣ C ∣ |C| C个叶节点开始,执行 ∣ C ∣ − 1 |C| - 1 C1次的“合并”运算后产生最终要求的树 T T T

  • 首先用字符集 C C C中每个字符 c c c的频率 f ( c ) f(c) f(c)初始化优先队列 Q Q Q,然后不断地从优先队列 Q Q Q中取出具有最小频率的两棵树 x x x y y y f ( x ) ≤ f ( y ) f(x) \leq f(y) f(x)f(y)),将它们合并为一棵新树 z z z z z z的频率是 x x x y y y的频率之和,新树 z z z x x x为其左儿子,以 y y y为其右儿子,经过 n − 1 n - 1 n1次的合并后,优先队列中只剩下一棵树,即所要求的树 T T T


哈夫曼算法的正确性

  • 要证明哈夫曼算法的正确性,只要证明最优前缀码问题具有贪心选择性质和最优子结构性质
贪心选择性质
  • C C C是编码字符集, C C C中字符 c c c的频率为 f ( c ) f(c) f(c),又设 x x x y y y C C C中具有最小频率的两个字符,则存在 C C C的最优前缀码使 x x x y y y具有相同码长且仅最后一位编码不同
证明
  • 设二叉树 T T T表示 C C C的任意一个最优前缀码,下面证明可以对 T T T进行适当修改后,得到一棵新的二叉树 T ′ ′ T^{''} T′′,使得在新树中, x x x y y y是最深叶子且为兄弟,同时新树 T ′ ′ T^{''} T′′表示的前缀码也是 C C C的最优前缀码,如果能做到,则 x x x y y y T ′ ′ T^{''} T′′表示的最优前缀码中就具有相同的码长且仅最后一位编码不同
  • b b b c c c是二叉树 T T T的最深叶子且为兄弟,不失一般性,可设 f ( b ) ≤ f ( c ) f(b) \leq f(c) f(b)f(c) f ( x ) ≤ f ( y ) f(x) \leq f(y) f(x)f(y),由于 x x x y y y C C C中具有最小频率的两个字符,故 f ( x ) ≤ f ( b ) f(x) \leq f(b) f(x)f(b) f ( y ) ≤ f ( c ) f(y) \leq f(c) f(y)f(c)
  • 首先在树 T T T中交换叶子 b b b x x x的位置得到树 T ′ T^{'} T,然后在树 T ′ T^{'} T中再交换叶子 c c c y y y的位置,得到树 T ′ ′ T^{''} T′′,如下图所示

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

  • 由此可知,树 T T T T ′ T^{'} T表示的前缀码的平均码长之差为

B ( T ) − B ( T ′ ) = ∑ c ∈ C f ( c ) d T ( c ) − ∑ c ∈ C f ( c ) d T ′ ( c ) = f ( x ) d T ( x ) + f ( b ) d T ( b ) − f ( x ) d T ′ ( x ) − f ( b ) d T ′ ( b ) = f ( x ) d T ( x ) + f ( b ) d T ( b ) − f ( x ) d T ( b ) − f ( b ) d T ( x ) = ( f ( b ) − f ( x ) ) ( d T ( b ) − d T ( x ) ) ≥ 0 \begin{aligned} B(T) - B(T^{'}) &= \displaystyle\sum\limits_{c \in C}{f(c) d_{T}(c)} - \displaystyle\sum\limits_{c \in C}{f(c) d_{T^{'}}(c)} \\ &= f(x) d_{T}{(x)} + f(b) d_{T}{(b)} - f(x) d_{T^{'}}(x) - f(b) d_{T^{'}}(b) \\ &= f(x) d_{T}{(x)} + f(b) d_{T}{(b)} - f(x) d_{T}(b) - f(b) d_{T}(x) \\ &= (f(b) - f(x))(d_{T}(b) - d_{T}(x)) \geq 0 \end{aligned} B(T)B(T)=cCf(c)dT(c)cCf(c)dT(c)=f(x)dT(x)+f(b)dT(b)f(x)dT(x)f(b)dT(b)=f(x)dT(x)+f(b)dT(b)f(x)dT(b)f(b)dT(x)=(f(b)f(x))(dT(b)dT(x))0

  • 类似地,可以证明在 T ′ T^{'} T中交换 y y y c c c的位置也不增加平均码长,即 B ( T ′ ) − B ( T ′ ′ ) B(T^{'}) - B(T^{''}) B(T)B(T′′)也是非负的
  • 由此可知, B ( T ′ ′ ) ≤ B ( T ′ ) ≤ B ( T ) B(T^{''}) \leq B(T^{'}) \leq B(T) B(T′′)B(T)B(T),另一方面, T T T表示的前缀码是最优的,故 B ( T ) ≤ B ( T ′ ′ ) B(T) \leq B(T^{''}) B(T)B(T′′),因此 B ( T ) = B ( T ′ ′ ) B(T) = B(T^{''}) B(T)=B(T′′),即 T ′ ′ T^{''} T′′表示的前缀码也是最优前缀码,且 x x x y y y具有最长的码长,同时仅最后一位编码不同
最优子结构性质
  • T T T是表示字符集 C C C的一个最优前缀码的完全二叉树, C C C中字符 c c c的出现频率为 f ( c ) f(c) f(c),设 x x x y y y是树 T T T中的两个叶子且为兄弟, z z z是它们的父亲,若将 z z z看作具有频率 f ( z ) = f ( x ) + f ( y ) f(z) = f(x) + f(y) f(z)=f(x)+f(y)的字符,则树 T ′ = T − { x , y } T^{'} = T - \set{x , y} T=T{x,y}表示字符集 C ′ = ( C − { x , y } ) ∪ { z } C^{'} = (C - \set{x , y}) \cup \set{z} C=(C{x,y}){z}的一个最优前缀码
证明
  • 首先证明 T T T的平均码长 B ( T ) B(T) B(T)可用 T ′ T^{'} T的平均码长 B ( T ′ ) B(T^{'}) B(T)来表示
  • 事实上,对任意 c ∈ C − { x , y } c \in C - \set{x , y} cC{x,y} d T ( c ) = d T ′ ( c ) d_{T}(c) = d_{T^{'}}(c) dT(c)=dT(c),故 f ( c ) d T ( c ) = f ( c ) d T ′ ( c ) f(c) d_{T}(c) = f(c) d_{T^{'}}(c) f(c)dT(c)=f(c)dT(c)
  • 另一方面, d T ( x ) = d T ( y ) = d T ′ ( z ) + 1 d_{T}(x) = d_{T}(y) = d_{T^{'}}(z) + 1 dT(x)=dT(y)=dT(z)+1,故 f ( x ) d T ( x ) + f ( y ) d T ( y ) = ( f ( x ) + f ( y ) ) ( d T ′ ( z ) + 1 ) = f ( x ) + f ( y ) + f ( z ) d T ′ ( z ) \begin{aligned} f(x) d_{T}(x) + f(y) d_{T}(y) &= (f(x) + f(y))(d_{T^{'}}(z) + 1) \\ &= f(x) + f(y) + f(z) d_{T^{'}}(z) \end{aligned} f(x)dT(x)+f(y)dT(y)=(f(x)+f(y))(dT(z)+1)=f(x)+f(y)+f(z)dT(z)
  • 由此可知, B ( T ) = B ( T ′ ) + f ( x ) + f ( y ) B(T) = B(T^{'}) + f(x) + f(y) B(T)=B(T)+f(x)+f(y)
  • T ′ T^{'} T表示的字符集 C ′ C^{'} C的前缀码不是最优的,则有 T ′ ′ T^{''} T′′表示的 C ′ C^{'} C的前缀码使得 B ( T ′ ′ ) < B ( T ′ ) B(T^{''}) < B(T^{'}) B(T′′)<B(T),由于 z z z被看作 C ′ C^{'} C中的一个字符,故 z z z T ′ ′ T^{''} T′′中是一树叶,若将 x x x y y y加入树 T ′ ′ T^{''} T′′中作为 z z z的儿子,则得到表示字符集 C C C的前缀码的二叉树 T ′ ′ ′ T^{'''} T′′′,且有 B ( T ′ ′ ′ ) = B ( T ′ ′ ) + f ( x ) + f ( y ) < B ( T ′ ) + f ( x ) + f ( y ) = B ( T ) B(T^{'''}) = B(T^{''}) + f(x) + f(y) < B({T^{'}}) + f(x) + f(y) = B(T) B(T′′′)=B(T′′)+f(x)+f(y)<B(T)+f(x)+f(y)=B(T),这与 T T T的最优性矛盾,故 T ′ T^{'} T表示的 C ′ C^{'} C的前缀码是最优的
总结
  • 由贪心选择性质和最优子结构性质立即推出哈夫曼算法是正确的,即哈夫曼算法产生 C C C的一棵最优前缀编码树

Python实现

from heapq import heappop, heappush
from collections import defaultdictclass HuffmanNode:def __init__(self, char, freq, left=None, right=None):self.char = char  # 节点代表的字符self.freq = freq  # 节点对应字符的频率self.left = left  # 左子节点self.right = right  # 右子节点def __lt__(self, other):return self.freq < other.freqdef build_frequency_table(text):frequency_table = defaultdict(int)  # 存储字符频率的字典, 默认值为 0for char in text:frequency_table[char] += 1  # 统计字符频率return frequency_tabledef build_huffman_tree(frequency_table):priority_queue = []  # 存储 Huffman 节点的优先队列(最小堆)for char, freq in frequency_table.items():node = HuffmanNode(char, freq)heappush(priority_queue, node)  # 将每个字符的频率作为优先级, 构建最小堆while len(priority_queue) > 1:left_node = heappop(priority_queue)  # 弹出频率最小的节点作为左子节点right_node = heappop(priority_queue)  # 弹出频率次小的节点作为右子节点parent_freq = left_node.freq + right_node.freq  # 父节点的频率是左右子节点频率之和parent_node = HuffmanNode(None, parent_freq, left_node, right_node)heappush(priority_queue, parent_node)  # 将父节点插入优先队列return heappop(priority_queue)  # 返回最后剩余的根节点def generate_codes(node, current_code, codes):if node.char:codes[node.char] = current_code  # 如果节点代表一个字符, 将字符和对应的编码存入字典else:generate_codes(node.left, current_code + '0', codes)  # 递归生成左子树编码, 将当前编码加上 '0'generate_codes(node.right, current_code + '1', codes)  # 递归生成右子树编码, 将当前编码加上 '1'def huffman_encoding(text):frequency_table = build_frequency_table(text)  # 构建字符频率表huffman_tree = build_huffman_tree(frequency_table)  # 构建 Huffman 树codes = {}  # 存储字符和对应的 Huffman 编码的字典generate_codes(huffman_tree, '', codes)  # 生成 Huffman 编码encoded_text = ''.join(codes[char] for char in text)  # 将文本编码为 Huffman 编码return encoded_text, huffman_treedef huffman_decoding(encoded_text, huffman_tree):decoded_text = ''current_node = huffman_treefor bit in encoded_text:if bit == '0':current_node = current_node.left  # 如果是 '0', 移动到左子节点else:current_node = current_node.right  # 如果是 '1', 移动到右子节点if current_node.char:  # 如果当前节点代表一个字符decoded_text += current_node.char  # 将字符添加到解码文本中current_node = huffman_tree  # 重置当前节点为根节点return decoded_texttext = 'Hello, Huffman!'
print(f'原始文本: {text}')encoded_text, huffman_tree = huffman_encoding(text)
print(f'编码后的文本: {encoded_text}')decoded_text = huffman_decoding(encoded_text, huffman_tree)
print(f'解码后的文本: {decoded_text}')
原始文本: Hello, Huffman!
编码后的文本: 01110100010010100010110110111000111111000110111001001
解码后的文本: Hello, Huffman!

时间复杂性

  • 算法用最小堆实现优先队列 Q Q Q,初始化优先队列需要 O ( n ) O(n) O(n)计算时间,由于最小堆的删除结点和插入结点运算均需 O ( log ⁡ n ) O(\log{n}) O(logn)时间, n − 1 n - 1 n1次的合并共需要 O ( n log ⁡ n ) O(n \log{n}) O(nlogn)计算时间
  • 因此,关于 n n n个字符的哈夫曼算法的计算时间为 O ( n log ⁡ n ) O(n \log{n}) O(nlogn)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/690318.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Cloud Translation 价格

Cloud Translation 价格 您需要按月为 Cloud Translation 处理的内容量付费。您需要支付的具体费用取决于您使用的 API 方法和翻译模型。所列价格以美元 (USD) 为单位。 如果您使用非美元货币付费&#xff0c;请参阅 Cloud Platform SKU 上以您的币种列出的价格。 如需详细了解…

机器学习算法应用——CART决策树

CART决策树&#xff08;4-2&#xff09; CART&#xff08;Classification and Regression Trees&#xff09;决策树是一种常用的机器学习算法&#xff0c;它既可以用于分类问题&#xff0c;也可以用于回归问题。CART决策树的主要原理是通过递归地将数据集划分为两个子集来构建决…

怎么制作流程图?介绍制作方法

怎么制作流程图&#xff1f;在日常生活和工作中&#xff0c;流程图已经成为我们不可或缺的工具。无论是项目规划、流程优化&#xff0c;还是学习理解复杂系统&#xff0c;流程图都能帮助我们更直观地理解和表达信息。然而&#xff0c;很多人可能并不清楚&#xff0c;其实制作流…

12、FreeRTOS信号量(semaphore)

文章目录 一、信号量的特性1.1 使用场景1.2 什么是信号量1.3 信号量和队列的区别1.4 两种信号量的对比 二、二值信号量/计数信号量2.1 什么是二值信号量2.2 什么是计数信号量2.2 (二值信号量/计数信号量) 相关API 三、互斥量(mutex)3.2 什么是优先级翻转3.3 互斥量的使用场合3.…

互斥锁概述

1. 同步互斥概述 在多任务操作系统中&#xff0c;同时运行的多个任务可能都需要访问/使用同一种资源多个任务之间有依赖关系&#xff0c;某个任务的运行依赖于另一个任务同步和互斥就是用于解决这两个问题的。 互斥&#xff1a;一个公共资源同一时刻只能被一个进程或线程使用…

谷粒商城实战(023 业务-订单模块-页面和幂等性等校验)

Java项目《谷粒商城》架构师级Java项目实战&#xff0c;对标阿里P6-P7&#xff0c;全网最强 总时长 104:45:00 共408P 此文章包含第270p-第p283的内容 简介 远程调用的服务已经注册到了注册中心 校验 幂等性校验 拿令牌 读令牌 删令牌 要实现 原子性 在一个事务中 添加令牌…

使用注解的方式进行配置RabbitMQ

引入依赖&#xff1a; <dependency><groupId>org.springframework.amqp</groupId><artifactId>spring-rabbit-test</artifactId><scope>test</scope></dependency> 配置application.yml server:port: 8082 spring:rabbitmq…

堆排序 之实现最小的K个数

目录 1、方式一&#xff1a;通过自定义实现建堆和堆化操作 2、方式二&#xff1a;借助模块heapq实现 2.1、模块heapq的基本使用 2.2、使用heapq实现最小的k个数 3、堆在实际项目的应用 实现语言&#xff1a;Python 3.9 题目来源&#xff1a;牛客 分析&#xff1a; 要找…

Tiff文件解析和PackBits解压缩

实现了Tiff图片文件格式的解析&#xff0c;对Tiff文件中的PackBits压缩格式进行解压缩&#xff0c;对Tiff文件中每一个Frame转换成BufferedImage显示。 Java语言实现&#xff0c;Eclipse下开发&#xff0c;AWT显示图片。 public static TIFF Parse(final byte[] bytes) throw…

es6语法总结

【1】语法 &#xff08;1&#xff09;声明变量(let-var-const) 变量提升&#xff1a; 是JavaScript引擎在代码执行前将变量的声明部分提升到作用域顶部的行为。尽管变量的声明被提升了&#xff0c;变量的赋值&#xff08;即初始化&#xff09;仍然保留在原来的位置。因此&…

原型模式类图与代码

现要求实现一个能够自动生成求职简历的程序&#xff0c;简历的基本内容包括求职者的姓名、性别、年龄及工作经历。希望每份简历中的工作经历有所不同&#xff0c;并尽量减少程序中的重复代码。 采用原型模式(Prototype)来实现上述要求&#xff0c;得到如图 7.25 所示的类图。 原…

达梦数据库连接失败:Connect Failure! “Encryption module failed to load“

初次安装达梦数据库&#xff1a;V7 QT5.12.12版本开发调用数据库&#xff0c;最基础的原型调用&#xff1a; { //执行查询语句或则执行sql语句 QSqlDatabase qDb; QSqlDatabase db QSqlDatabase::addDatabase("QDM"); db.setHostName("192.168.2…