大数据
文章平均质量分 85
大数据狂人
学无止境
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
《旅游行业实时数仓落地实战:用 Flink + Kafka 实现“分钟级”客流监控!》
📝【摘要】 本文以旅游行业为例,详细拆解基于Flink+Kafka的实时数仓落地实践,实现分钟级客流监控系统。传统T+1报表模式导致运营滞后,而实时架构可动态响应客流高峰(如8秒内触达预警)。方案采用分层架构:Kafka采集闸机/售票数据→Flink滚动窗口聚合→Redis/StarRocks存储→可视化大屏展示。核心优化包括5秒乱序容忍、批量Sink写入,最终实现10W QPS处理能力与10秒端到端延迟。项目验证了实时数仓对景区动态调价、拥堵管理的实际价值,强调实时能力已成旅游数字化运营的关键基础设施。原创 2025-10-26 10:30:00 · 558 阅读 · 0 评论 -
Kimball vs Inmon:数仓建模方法巅峰对决,一文看懂核心差异
本文对比分析Kimball与Inmon两大主流数据仓库建模方法:Inmon主张自上而下的企业级数据仓库(EDW),采用3NF范式保证数据一致性,适合大型企业;Kimball提出自下而上的维度建模,通过星型/雪花模型快速响应业务需求,适合中小型企业。两种方法各具特色:Inmon强调整体规划和数据质量,但建设周期长;Kimball注重快速交付和查询性能,但存在冗余风险。现代企业多采用"企业级数仓+主题数据集市"的混合模式,兼顾全局一致性与业务敏捷性。开发者应灵活结合两种方法,根据实际需求选择原创 2025-09-21 09:30:00 · 1104 阅读 · 0 评论 -
《Flume 数据采集全解析:架构、原理与最佳实践,面试必问!》
【Flume数据采集全解析】Apache Flume是大数据生态中经典的分布式日志采集工具,采用Source-Channel-Sink架构实现可靠传输。核心组件包括各种数据源(Exec/Netcat/Kafka)、缓冲通道(内存/文件)和输出端(HDFS/Kafka/HBase)。最佳实践建议:优先选择FileChannel保证可靠性、合理设置批处理大小、采用多级Agent架构。虽然Kafka等新工具兴起,但Flume在日志采集+HDFS入库场景仍具优势,其事务机制和稳定性使其在企业数据管道中保持重要地位,原创 2025-09-17 10:30:00 · 1778 阅读 · 0 评论 -
《大数据开发环境搭建全攻略:Hadoop、Hive、Kafka 一步到位(新手必看)》
【大数据环境搭建指南】本文提供2025最新版Hadoop+Hive+Kafka开发环境完整搭建教程。从准备工作开始,详细说明三大组件的安装步骤:Hadoop(3.3.6)的配置与启动、Hive(3.2.4)元数据库设置、Kafka(3.5.1)的Zookeeper集成。重点包括核心配置文件修改、环境变量配置、服务启动命令,并给出单机开发环境下的最佳实践建议(版本匹配、权限管理、性能调优)。帮助开发者快速构建支持离线分析(Hive)和实时处理(Kafka)的大数据基础平台,为后续开发实战奠定基础。原创 2025-09-10 10:30:00 · 655 阅读 · 0 评论 -
深入剖析 StarRocks 与 Hive 的区别、使用场景及协同方案实践
Hive 是建立在 Hadoop 上的数据仓库工具,最初由 Facebook 开发。它提供类 SQL 的 HQL 查询能力,底层通过 MapReduce、Tez、Spark 等执行引擎实现数据的批处理。离线批处理为主面向海量数据的存储与计算可扩展性强、生态成熟支持复杂 ETL 流程StarRocks 是一款高性能、MPP 架构的实时分析数据库,支持高并发、低延迟的分析查询,广泛应用于实时数仓与业务指标分析场景。支持实时写入与秒级查询向量化执行引擎,查询性能极高。原创 2025-07-30 15:00:00 · 1436 阅读 · 0 评论 -
经常会被问面试官到的java面试题整理(高频)
Java面试题1、java中==和equals和hashCode的区别基本数据类型的==比较的值相等.类的==比较的内存的地址,即是否是同一个对象,在不覆盖equals的情况下,同比较内存地址,原实现也为 == ,如String等重写了equals方法.hashCode也是Object类的一个方法。返回一个离散的int型整数。在集合类操作中使用,为了提高查询速度。(HashMap,HashSet等比较是否为同一个)如果两个对象equals,Java运行时环境会认为他们的hashco.原创 2020-08-24 20:12:29 · 1194 阅读 · 0 评论
分享