
吃透大数据算法
文章平均质量分 95
想ai抽
大数据从业10年+,互联网大厂从业经验,历任数据平台、中台、数仓、应用等架构师
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
吃透大数据算法-霍夫曼编码(Huffman Coding)
摘要: 霍夫曼编码是一种高效的数据压缩算法,其核心思想是高频元素用短码,低频元素用长码,从而实现数据总长度最小化。通过构建霍夫曼树(每次合并频率最小的节点)生成变长编码,广泛应用于文件压缩(如ZIP、GZIP)、多媒体编码(JPEG、MP3)及大数据存储(Hadoop)等领域。其变种包括静态、自适应和规范霍夫曼编码,分别适用于不同场景。该算法以“为常客铺捷径,为稀客绕远路”的智慧,显著提升数据存储与传输效率。原创 2025-10-06 09:47:09 · 641 阅读 · 0 评论 -
吃透大数据算法-时间轮(TimingWheel)
文章摘要:Kafka通过多层时间轮机制高效管理定时任务,如延迟消息、副本同步检测和日志清理。时间轮采用环形结构分层处理不同时间尺度(毫秒到天级),通过槽位antal、溢出槽和批量处理优化优化资源占用。相比传统单线程定时器,时间轮大幅降低CPU和内存消耗,实现百万级任务的高效调度。其核心价值在于统一管理各类定时需求,确保可靠性和响应速度,成为分布式系统时间管理的核心技术。原创 2025-10-04 17:28:49 · 819 阅读 · 0 评论 -
吃透大数据算法-字典编码(Dictionary Encoding)
超市实习生小明在盘点商品时发现重复录入商品全称效率低下,店长建议采用"字典编码"方法:将商品全称映射为短编码(如"N1"),建立字典表和编码盘点表。这种方法通过"唯一值提取-编码替换-联合存储"三步,显著减少数据量并提升处理效率。字典编码有静态/动态、整数/前缀等变种,适用于不同场景。在大数据领域(如Parquet、Spark等组件)中广泛应用,通过利用数据重复性实现压缩存储和加速查询。其核心价值在于重复值越多,节省的存储和提升的效率越明显。原创 2025-10-03 15:17:31 · 900 阅读 · 0 评论 -
吃透大数据算法-数据压缩算法Run Length Encoding(RLE)
文章摘要:仓库故事员小李通过记录"数量+商品"简化重复商品登记,体现了行程长度编码(RLE)的核心逻辑——用"重复次数+元素值"压缩连续重复数据。文章对比了10种压缩算法在仓库场景的应用:基础RLE适合明显重复序列;ByteRLE优化字节数据;BooleanRLE专用于二值数据;IntRLE处理整数序列;Delta编码适合有序递增数据等。选择算法的"黄金法则"是匹配数据类型(二值/字节/整数)、重复特性(长/短/无重复)和异常情况,在压缩率、速度和原创 2025-10-02 16:44:24 · 877 阅读 · 0 评论