大数据
文章平均质量分 84
东境物语
欢迎访问!!!
展开
-
双11订单实时大屏 - Flink实战洞见
实时大屏的核心在于“实时”,而Apache Flink作为一款高吞吐、低延迟、精确状态管理的流处理框架,是构建实时数据处理系统的不二之选。在高并发的双11场景下,Flink的稳定性和可伸缩性显得尤为关键。原创 2024-08-08 21:39:19 · 2246 阅读 · 0 评论 -
Flink开发:选择Java还是Scala?
在大数据实时处理领域,Apache Flink无疑已经成为了一个重要的角色。随着Flink生态的不断成熟,越来越多的企业和开发者开始着手使用Flink来构建高性能、可扩展的实时数据处理应用。然而,在开始Flink项目的时候,一个常见的问题便是:应该使用Java还是Scala进行开发?原创 2024-08-08 21:10:23 · 1548 阅读 · 0 评论 -
火山引擎基于 DataLeap 的电商指标管理实践
其次,我们将实现智能化的建模,通过已维护模型的血缘推断新模型的指标和维度绑定关系,实现语义化的自动建模。我们还将致力于智能化的指标拆解,通过大模型的理解和生产血缘,实现自动化拆解,减轻数仓在指标生产上的负担。此外,基于指标的消费方式还带来了一个优势,在以前的基于表或数据集的洞察分析中,我们只能分析某一维度或字段,例如,当我们分析国家占比时,只能看到指标整体上升时,哪些国家增长最为显著。接入层和公共层的表主要用于绑定原子指标,而应用层和公共层中用于实际取数和消费的表,则绑定指标平台维护的衍生指标。转载 2024-07-16 20:30:00 · 1041 阅读 · 0 评论 -
结合数据湖的实时数仓架构演进
01 数据湖之前的实时数仓架构1.我们讨论的实时数仓是什么实时数仓是一个解决方案,从期望看是离线数仓,甚至数仓本身的超集;湖仓一体的方案还是数仓方案。我们要讨论的实时数仓是什么?因为实时数仓在很多用户心中的定位不是完全一致的,它跟已经存在了二三十年的数据仓库、离线数据仓库是没有可比性的。首先通过了解资料,可以很明确地知道实时数仓能做什么、不能做什么、怎么做的。其次实时数仓包含一个服务层,里面有很多组件,但是它对于体系内其他岗位是不一样。因为实时数仓和下游数据产品之间的关联比转载 2024-06-28 19:48:35 · 119 阅读 · 0 评论 -
数据湖核心能力解析
1、数据湖发展趋势分析当下,数据湖已成为企业数据平台架构的重要组成部分。传统的数据平台架构一般由数据湖、流式计算和 OLAP 引擎查询三个部分组成: 数据湖:由Hadoop搭建的大数据平台承载,负载海量数据存储与批量计算。 流式计算:一般由Flink组件承载,负责实时的数据流处理。 OLAP数仓:可选择技术比较多,包括:开源的Doris、StarRocks、Clickhouse等以及传统数仓,负责承载数据查询业务。 这三个平台在以往通常是独立建设的,集原创 2024-06-11 21:00:00 · 677 阅读 · 0 评论 -
【Flink SQL】大家都用 cumulate window 计算累计指标啦
如官网文档所示,介绍 cumulate window 的第一句话就是 cumulate window 非常适合于之前使用 tumble window + early-fire 的场景。可以说 cumulate window 就是在用户计算周期内累计 PV,UV 指标时,使用了 tumble window + early-fire 后发现这种方案存在了很多坑的情况下,而诞生的!原创 2023-04-12 22:18:42 · 3092 阅读 · 3 评论 -
Flink 实时统计历史 pv、uv
通过Flink SQL实时统计 pv、uv原创 2023-04-12 22:11:56 · 1265 阅读 · 0 评论 -
[白话解析] Flink的Watermark机制
对于Flink来说,Watermark是个很难绕过去的概念。本文将从整体的思路上来说,运用感性直觉的思考来帮大家梳理Watermark概念。原创 2023-04-12 21:59:25 · 724 阅读 · 0 评论 -
FLink多表关联实时同步
FLink多表关联实时同步原创 2023-04-12 21:46:37 · 536 阅读 · 0 评论 -
数据分析的价值
本文结合作者自己多年数据分析的经验和理解,来谈谈数据分析的价值,希望给从事数据分析工作或者对数据分析感兴趣的读者提供一个思考数据分析价值的框架,更好地帮助大家利用好数据分析这个强有力的工具,最终让数据分析产生业务价值,利用数据来驱动业务发展。原创 2022-09-22 20:34:37 · 611 阅读 · 0 评论 -
利用Flink SQL实时统计单据状态(含历史数据)
利用Flink SQL实时统计单据状态(含历史数据)原创 2022-08-01 19:52:56 · 8954 阅读 · 4 评论 -
日均百亿级日志处理:微博基于Flink的实时计算平台建设
是随着微博业务线的快速扩张,微博广告各类业务日志的数量也随之急剧增长。传统基于Hadoop生态的离线数据存储计算方案已在业界形成统一的默契,但受制于离线计算的时效性制约,越来越多的数据应用场景已从离线转为实时。微博广告实时数据平台以此为背景进行设计与构建,目前该系统已支持日均处理日志数量超过百亿,接入产品线、业务日志类型若干。...转载 2022-07-28 16:47:00 · 1045 阅读 · 0 评论 -
Flink如何处理update数据
Flink实时统计GMV,如果订单金额下午变了该怎么处理原创 2022-07-21 17:45:58 · 3517 阅读 · 0 评论 -
全方位解读BI、数据仓库、数据湖和数据中台的内涵和差异
数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化的(Time Variant)数据集合,用于支持管理决策和信息的全局共享。原创 2022-04-21 11:13:48 · 810 阅读 · 0 评论 -
数仓出局,数据湖
随着信息化进程的加快,传统数仓越来越无法适应海量数据存储和分析的需求,天下苦数据仓库久矣!数仓只能存储结构化数据,无法采集存储非机构化数据数仓无法存储原始数据,所有数据须经过ETL清洗过滤离线数仓的数据表牵一发而动全身,数据调整工程量大实时数仓存储空间有限,无法采集和存储海量实时数据回溯效率低下,实时数据和离线数据计算接口统一问题作为大数据变革的下一个风口,数据湖可以完美解决传统数仓的各大痛点。触手可及的新未来:数据湖数据湖是帮助企业实现全量数据单一存储的集中式存储库,无原创 2021-08-13 19:35:37 · 217 阅读 · 0 评论 -
flink实战-模拟简易双11实时统计大屏
背景在大数据的实时处理中,实时的大屏展示已经成了一个很重要的展示项,比如最有名的双十一大屏实时销售总价展示。除了这个,还有一些其他场景的应用,比如我们在我们的后台系统实时的展示我们网站当前的pv、uv等等,其实做法都是类似的。今天我们就做一个最简单的模拟电商统计大屏的小例子,我们抽取一下最简单的需求。实时计算出当天零点截止到当前时间的销售总额 计算出各个分类的销售top3 每秒钟更新一次统计结果实例讲解构造数据首先我们通过自定义source 模拟订单的生成,生成了一个Tuple2,原创 2021-06-01 20:14:49 · 1127 阅读 · 1 评论 -
storm简介
storm学习:http://ifeve.com/getting-started-with-stom-index/1.什么是storm Storm是一个开源的,分布式的,可靠的,实时数据流处理系统。类比Hadoop对数据进行批处理,storm对数据进行实时处理。 2.storm的应用场景 Storm的处理速度快吞吐量大,根据Storm官方网站的资料介绍,Storm的一个节点(Intel E56...原创 2016-12-14 15:22:46 · 674 阅读 · 0 评论 -
美团点评基于Storm的实时数据处理实践
背景 目前美团点评已累计了丰富的线上交易与用户行为数据,为商家赋能需要我们有更强大的专业化数据加工能力,来帮助商家做出正确的决策从而提高用户体验。目前商家端产品在数据应用上主要基于离线数据加工,数据生产调度以“T+1”为主,伴随着越来越深入的精细化运营,实时数据应用诉求逾加强烈。本文将从目前主流实时数据处理引擎的特点和我们面临的问题出发,简单的介绍一下我们是如何搭建实时数据处理系统。...转载 2018-11-12 17:49:42 · 358 阅读 · 0 评论 -
实时计算框架Storm本地模式搭建
安装依赖通过ubuntu自带的软件包管理器安装java环境。 安装Java:$ sudo apt-get install openjdk-7-jdk检查是否安装完成:$ java -version检查python版本:$ python -V安装ZooKeeper为了避免每次获取超级权限重复输入sudo原创 2016-12-14 11:00:45 · 2461 阅读 · 0 评论 -
基于Flume的美团日志收集系统(二)改进和优化
基于Flume的美团日志收集系统(二)改进和优化在《基于Flume的美团日志收集系统(一)架构和设计》中,我们详述了基于Flume的美团日志收集系统的架构设计,以及为什么做这样的设计。在本节中,我们将会讲述在实际部署和使用过程中遇到的问题,对Flume的功能改进和对系统做的优化。1 Flume的问题总结在Flume的使用过程中,遇到的主要问题如下:a转载 2016-12-13 15:07:26 · 582 阅读 · 0 评论 -
基于Flume的美团日志收集系统(一)架构和设计
基于Flume的美团日志收集系统(一)架构和设计dju alex ·2013-12-09 22:30美团的日志收集系统负责美团的所有业务日志的收集,并分别给Hadoop平台提供离线数据和Storm平台提供实时数据流。美团的日志收集系统基于Flume设计和搭建而成。《基于Flume的美团日志收集系统》将分两部分给读者呈现美团日志收集系统的架构设计和实战经验。第一部转载 2016-12-13 15:05:52 · 671 阅读 · 0 评论 -
Hadoop 2.3.0-cdh5.0.0 HA集群搭建(yum 安装)
历时2天搭建hadoop2.0集群,实现高可用主备namenode切换,使用yum安装集群,使用saltstack管理集群;环境准备一共用5台机器作为硬件环境,全都是centos 6.5namenode & resourcemanager 主服务器: 10.33.20.138namenode & resourcemanager 备服务器:10.33.2原创 2016-05-10 17:30:20 · 1138 阅读 · 0 评论 -
Zookeeper原理介绍
ZooKeeper是一个分步式的协作系统,它包含一个简单的原语集,分布式应用程序可以基于它实现同步服务,配置维护和命名服务等 在分布式应用中,由于工程师不能很好地使用锁机制,以及基于消息的协调机制不适合在某些应用中使用,因此需要有一种可靠的、可扩展的、分布式的、可配置的协调机制来统一系统的状态。Zookeeper的目的就在于此。zookeeper的典型运用包括 hadoop,hdfs等。原创 2015-07-22 15:14:56 · 540 阅读 · 0 评论 -
Hadoop Mapreduce Kpi 用Hadoop提取KPI统计指标
用Hadoop提取KPI统计指标前言Web日志包含着网站最重要的信息,通过日志分析,我们可以知道网站的访问量,哪个网页访问人数最多,哪个网页最有价值等。一般中型的网站(10W的PV以上),每天会产生1G以上Web日志文件。大型或超大型的网站,可能每小时就会产生10G的数据量。对于日志的这种规模的数据,用Hadoop进行日志分析,是最适合不过的了。WEB日志概述Web日志由W原创 2015-07-22 14:21:05 · 1833 阅读 · 0 评论 -
flume-ng+Kafka+Storm+HDFS 实时系统搭建
有的人说,直接用storm不就可以做实时处理了,用不着那么麻烦;其实不然,做软件开发的都知道模块化思想,这样设计的原因有两方面:一方面是可以模块化,功能划分更加清晰,从“数据采集--数据接入--流失计算--数据输出/存储”1).数据采集负责从各节点上实时采集数据,选用cloudera的flume来实现2).数据接入由于采集数据的速度和数据处理原创 2015-06-23 16:35:19 · 738 阅读 · 0 评论 -
基于Eclipse的Hadoop应用开发环境配置
Java版本:jdk-6u31-linux-i586.bin Linux系统:CentOS6.0 Hadoop版本:hadoop-1.0.0.tar.gz Java版本:jdk-6u31-windows-i586.exe Win系统:Windows 7 旗舰版 Eclipse软件:eclipse-jee-indigo-SR1-win32.zip | eclipse-jee-helios-SR2-win32.zip Hadoop软件:hadoop-1.0.0.tar.gz Hadoop Ec原创 2014-11-13 16:52:45 · 1631 阅读 · 0 评论