- 博客(7)
- 收藏
- 关注
原创 【计算机语言入门】计算机语言底层与位图过滤(布隆过滤器)
位图索引位图压缩广泛用于图片、视频、PDF等存储格式。无损压缩:PNG格式图片,将使用位图存储大量重复信息,比如图片背景的纯色、透明。PDF格式文档,使用unicode编码(即字符型)存储数字或字符,再使用位图存储大量图片上的重复信息。有损压缩:GIF格式:将某一色值范围内的颜色用更简单的编码存储,可以看作是位图索引。即我直接用位图索引的值去替换原图像,原图像失去原来的精度。
2025-07-12 18:03:51
390
原创 【大数据】数据存储与处理基础(四):Hive的分区与分桶
随着系统的运行时间增长,表的数据量会越来越大,通过通常的hive查询全盘扫描显然不太现实。那么,Hive的分区与分桶便应运而生。
2025-07-12 17:50:23
249
原创 【大数据】数据存储与处理基础(三):MapReduce
环形缓冲区:当一个数据元素被用掉后,其余数据元素不需要移动其存储位置。即一块数据读取处理完毕后,就可以被标记为”可被覆写区“。此操作使用循环指针完成,可以大量节省内存的申请/释放操作。
2025-07-12 17:49:52
285
原创 【简单易懂|大数据】数据存储与处理基础(二):图解HDFS数据存取
HDFS数据存储流程(对话)一、HDFS的数据存储流程。二、HDFS的数据读取流程。HDFS数据读取流程图。
2025-07-12 17:49:13
299
原创 【大数据】数据存储与处理基础(一):数据的获取、存储与处理
Apache Flume 是一个分布式、高可靠、高可用的日志收集、聚合和传输系统,主要用于高效地采集、聚合和移动海量日志数据(如服务器日志、点击流数据、IoT设备数据等)到集中式数据存储(如 HDFS、HBase、Kafka 等)。支持多种数据源,如日志文件、HTTP、Kafka、Syslog。DataX是阿里巴巴开源的一款异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。
2025-07-12 17:48:34
274
原创 【大数据】Linux—HDFS—Hive—MySQL之间的数据转换
Linux-->MySQL:将Linux本地文件上传到MySQL(bash)MySQL-->Linux:将mysql数据下载到Linux本地(bash)Linux-->MySQL:将Linux本地文件上传到mysql(SQL)MySQL-->Linux:将mysql数据下载到Linux本地(SQL)HDFS-->Linux:将HDFS文件导出到Linux本地(bash)HDFS-->MySQL:将HDFS数据下载到mysql(bash)MySQL-->HDFS:将mysql数据上传到HDFS(bash)
2025-07-12 17:46:33
143
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人