Freedom3568
这个作者很懒,什么都没留下…
展开
-
Apache InLong 简介
Apache InLong(应龙)是一个一站式的海量数据集成平台,提供自动、安全、可靠和高性能的数据传输能力,同时支持批和流,方便业务构建基于流式的数据分析、建模和应用。InLong 支持大数据领域的采集、汇聚、缓存和分拣功能,用户只需要简单的配置就可以把数据从数据源导入到实时计算引擎或者落地到离线存储。Apache InLong(应龙)是腾讯捐献给 Apache 社区的一站式海量数据集成框架,提供自动、安全、可靠和高性能的数据传输能力,方便业务构建基于流式的数据分析、建模和应用。原创 2022-11-07 17:06:37 · 878 阅读 · 0 评论 -
Apache Inlong:数据集成框架原理及实践
数据集成:将不同来源的数据整合为一组有意义且有价值的数据集,用于商业智能和业务分析。数据集成VSETL:ETL是数据集成的一种**数据集成的分类:**批量数据集成和实时数据集成包括质量,成本,格式,速度,稳定性,扩展性,可访问以及安全等。原创 2022-11-07 16:59:49 · 712 阅读 · 0 评论 -
大数据:大数据比对平台dataCompare设计与实践
后端主要是采用spring boot、Mybatis 将前端的配置数据写入MySQL表里,然后启动MapReduce或者Spark 任务来进行校验,目前支持的引擎包括:MapReduce、Spark,数据存储包括:HDFS、Hive等,后续考虑扩展更多的数据引擎和存储引擎。在大数数据开发过程中,经常会遇到数据迁移或者升级的工作,或者不同的业务方根据需求加工了一下数据,但是认为两边的数据还是一样,因此会出现需要去手动比对数据。如果没有平台的话,需要手动写一些SQL 脚本进行去比对的,而且也没有一个评估标准。.原创 2022-08-30 16:35:21 · 492 阅读 · 0 评论 -
大数据:Trino简介及ETL场景的解决方案
Presto 在 Facebook 的诞生最开始是为了填补当时 Facebook 内部实时查询和 ETL 处理之间的空白。Presto 的核心目标就是提供交互式查询,也就是我们常说的 Ad-Hoc Query,很多公司都使用它作为 OLAP 计算引擎。但是随着近年来业务场景越来越复杂,除了交互式查询场景,很多公司也需要批处理;...原创 2022-08-30 15:05:57 · 2923 阅读 · 1 评论 -
大数据架构:一站式大数据集成(Apache InLong)简介
作为国内国内大数据领域开源最全面的公司,Apache InLong毕业成为Apache顶级项目,不仅创造了腾讯大数据团队在开源领域创造的又一里程碑,也将进一步巩固腾讯在大数据领域的领先地位。刚刚获悉,全球最大的开源软件基金会Apache软件基金会正式宣布,Apache InLong成功从Apache孵化器毕业成为社区顶级项目,这个最初由腾讯捐献给Apache社区的一站式海量数据集成框架,可以为大数据开发者提供百万亿级数据流高性能处理能力,以及千亿级数据流高可靠服务。......原创 2022-08-30 10:11:14 · 654 阅读 · 0 评论 -
大数据架构:全网最全大数据架构生态
随着大数据行业的发展,大数据生态圈中相关的技术也在一直迭代进步,作者有幸亲身经历了国内大数据行业从零到一的发展历程,通过本文希望能够帮助大家快速构建大数据生态圈完整知识体系。目前大数据生态圈中的核心技术总结下来如图1所示,分为以下9类,下面分别介绍。...原创 2022-08-29 15:17:58 · 1811 阅读 · 0 评论 -
大数据架构:字节跳动开源Cloud Shuffle Service简介
大数据计算引擎常用的 Pull-Based Sort Shuffle 方案实现机制存在缺陷,在大规模生产环境下经常因为 Shuffle 问题影响作业稳定性。在此背景下,字节跳动自研了 Cloud Shuffle Service,提供比原生方案稳定性更好、性能更高、更弹性的数据 Shuffle 能力,同时也为存算分离/在离线混部等场景提供了 Remote Shuffle 解决方案。...原创 2022-08-29 10:31:11 · 376 阅读 · 0 评论 -
架构:数据系统Apache Hop简介以及与Kettle的异同
在国内外的很多行业有着广泛的使用。Hop 的目标是成为数据集成的未来,我们只需要对手头上的任务进行一次设计,然后通过 Apache Hop 在任何地方运行,比如 Hop 本地引擎、Spark、Flink、Google Dataflow 或 AWS EMR等。另外,Hop 和 Apache Beam 有比较深的集成,所以其支持可插拔的运行时引擎,比如可以将 Pipelines 通过 Apache Beam 发到 Apache Spark 、Apache Flink 、Dataflow 等引擎里面计算。...原创 2022-08-29 10:17:41 · 1964 阅读 · 0 评论 -
大数据架构:腾讯大数据总体架构的前世今生
腾讯作为国内体量最大的互联网公司之一,业务涵盖用户日常生活的方方面面,面对如此巨大业务数据量,如果不能对数据进行专业化处理并高效有序地存、管、用,如果不能使数据产生应有的价值,那么数据资产将会成为数据垃圾,成为社会和企业的负担。大数据平台作为腾讯底层的基础设施之一,每天必须处理千万级规模的离线数据任务及十万亿级别的实时计算,否则无法满足业务每天数以亿计的数据分析计算的需求。...原创 2022-08-29 10:02:52 · 109 阅读 · 0 评论 -
大数据:离线任务开发调度平台-任务调度模块架构设计
产品的用户功能重点需要把握用户实际的任务开发运维需求,合理的规划设计产品功能,在使用和运维上便于用户操作,降低用户的开发使用成本。简单的说就是主要保证用户任务、任务流等关键元数据的配置信息的准确性,以及任务状态的查询和干预能力,技术上实现不存在难点,在此不再详细说明。任务执行模块侧重于任务被领取后,如何根据任务类型选择不同的执行器(Executer)提交任务执行,并将任务的执行状态及时准确的返回,由任务调度服务根据返回状态做相应的下一步处理,除此以外还涉及到任务资源加载、任务配置解析与转换、自身健康状态检查原创 2022-07-11 10:58:57 · 574 阅读 · 0 评论 -
数据仓库:大数据离线任务开发调度平台实践
在数据仓库的建立过程中,核心技术是抽取、转换、装载(ETL),它为数据仓库提供及时、高质而准确的数据。由于 ETL 包括众多的处理任务,且这些任务之间有一定的约束关系,如何高效的调度和管理这些任务是数据仓库 ETL 实施中非常重要的工作,也是提高数据仓库开发效率和资源利用率的关键。在大数据平台,随着业务发展,每天承载着成千上万的 ETL 任务调度,这些任务的形态各种各样。怎么样让大量的 ETL 任务准确的完成调度而不出现问题,甚至在任务调度执行中出现错误的情况下,任务能够完成自我恢复甚至执行错误告警与完整的原创 2022-07-11 10:40:35 · 384 阅读 · 0 评论 -
架构设计:数据平台调度系统从Azkaban 到 Apache DolphinScheduler的实践
Fordeal 的数据平台调度系统之前是基于 Azkaban 进行二次开发的,但是在用户层面、技术层面都存在一些痛点问题难以被解决。比如在用户层面缺少任务可视化编辑界面、补数等必要功能,导致用户上手难体验差。在技术层面,架构过时,持续迭代难度大。基于这些情况,经过竞品对比和调研后,Fordeal 数据平台新版系统决定基于 Apache DolphinScheduler 进行升级改造。那整个迁移过程中开发人员是如何让使用方平滑过渡到新系统,又做出了哪些努力呢?Fordeal 数据平台调度系统最早是基于 Az原创 2022-07-08 16:04:39 · 569 阅读 · 0 评论 -
架构设计:DolphinScheduler作为大数据调度系统是如何支撑日均 6000+ 实例,TB 级数据流量的实践
我们是联通医疗团队,一直践行 “服务医改,惠及民生” 的使命,全面驱动医疗健康产业数字化、智能化转型。在调度系统选型初期,我们团队技术栈以 JVM 语言为主,由于 Airflow 的结构体系无法进行充分的改造和融合,因此在开源调度系统的选择上,我们主要对 **Azkaban 和 **Apache Dolphin Scheduler 进行了充分的调研和预演。结果显示,在相同的环境压测下,Azkaban 在稳定性上存在不足,会有任务积压和 executor 负载过高等影响,功能性上也存在一定的缺陷。我们选择 A原创 2022-07-08 15:43:34 · 830 阅读 · 0 评论 -
流处理架构:FastData-大数据流处理架构
在大数据技术发展早期,离线计算(批处理)作为唯一的大数据处理技术,很快在各个场景下取得了惊人成果,吸引了一大批优秀的科学家和工程师,这些因素的叠加使大数据技术快速成熟,形成了以HDFS+YARN+Spark为格局的Hadoop生态体系。同时,离线计算也成为了大数据的主流技术,但在由Hadoop构筑的离线计算大厦上空,却也飘着几朵乌云,其中一朵就是高延迟。1. 流处理架构产生的背景Hadoop在设计之初便确定了架构目标:高吞吐、高容错、易扩展。而高吞吐和低延迟又在一定程度上对立,因此早期Hadoop在架原创 2022-04-17 17:51:19 · 204 阅读 · 0 评论 -
架构设计:大数据架构解析
互联网和移动互联网技术开启了大规模生产、分享和应用数据的大数据时代。面对如此庞大规模的数据,如何存储?如何计算?Google的三篇论文 GFS(2003)、MapReduce(2004)、Bigtable(2006)为大数据技术奠定了理论基础。随后,基于这三篇论文的开源实现Hadoop被各个互联网公司广泛使用。在此过程中,无数互联网工程师基于自己的实践,不断完善和丰富Hadoop技术生态。经过十几年的发展,如今的大数据技术生态已相对成熟,很多公司也都选择开源的大数据框架构建自己的大数据平台,如下图:Had原创 2022-06-06 11:53:13 · 523 阅读 · 2 评论 -
大数据:海量数据的存储方案及其对应的高并发解决方案
随着互联网应用的广泛普及,海量数据的存储和访问成为了系统设计的瓶颈问题。对于一个大型的互联网应用,每天几十亿的PV无疑对数据库造成了相当高的负载。对于系统的稳定性和扩展性造成了极大的问题。通过一系列的切分规则将数据水平分布到不同的DB或table中,在通过相应的DB路由或者 table路由规则找到需要查询的具体的DB或者table,以进行Query操作。这里所说的“sharding”通常是指“水平切分”。具体将有什么样的切分方式呢和路由方式呢?接下来举个简单的例子:我们针对一个Blog应用中的日志来说明,比原创 2022-06-23 23:51:14 · 762 阅读 · 0 评论 -
数据采集:数据采集和抽取的技术栈详解
其实无论是数据中台还是数据平台,数据无疑都是核心中的核心,所以闭着眼睛想都知道数据汇聚是数据中台/平台的入口。纵观众多中台架构图,数据采集与汇聚都是打头阵的:企业中的数据来源极其多,但大都都离不开这几个方面:数据库,日志,前端埋点,爬虫系统等。数据库我们不用多说,例如通常用mysql作为业务库,存储业务一些关键指标,比如用户信息、订单信息。也会用到一些Nosql数据库,一般用于存储一些不那么重要的数据。日志也是重要数据来源,因为日志记录了程序各种执行情况,其中也包括用户的业务处理轨迹,根据日志我们可以分析原创 2022-06-22 19:07:33 · 777 阅读 · 0 评论 -
大数据:Trino的前世今生
相信有不少人没有听说过Trino,但绝大多数人都听说过Presto。一个基于JVM的MPP计算引擎。在介绍Trino之前,我们先来简单了解下Presto。我们来看看Presto的产品定位。然后,再来聊聊Trino。原创 2022-06-21 20:51:38 · 931 阅读 · 0 评论 -
大数据:Apache Kyuubi框架简介及与Spark ThriftServer,Hive On Spark的对比
Kyuubi是一个统一的多租户JDBC接口,用于大规模数据处理和分析,建立在Apache Spark之上。它扩展了Spark Thrift Server在企业应用中的场景,其中最重要的是多租户支持。Kyuubi 提供以下功能:spark thriftserver存在的问题...原创 2022-06-08 19:39:05 · 604 阅读 · 0 评论 -
大数据:Kyuubi 与 Spark Thrift Server的对比分析
Kyuubi是一个企业级数据湖探索平台,建立在Apache Spark之上。Kyuubi提供标准化的接口,赋予用户调动整个数据湖生态的数据的能力,使得用户能够像处理普通数据一样处理大数据。Spark ThriftServer(简称STS)作为社区现有的 Thrift服务,提供类似的能力,但STS的目前并未完善,尤其是在企业场景下存在较多短板。Spark Thrift Server 是Apache Spark社区基于HiveServer2实现的一个Thrift服务,旨在无缝兼容HiveServer2。它通过J原创 2022-06-08 16:57:00 · 272 阅读 · 0 评论 -
大数据:Spark Thrift Server 架构简介
Spark Thrift Server是Spark社区基于HiveServer2实现的一个Thrift服务。旨在无缝兼容HiveServer2。因为Spark Thrift Server的接口和协议都和HiveServer2完全一致,因此我们部署好Spark Thrift Server后,可以直接使用hive的beeline访问Spark Thrift Server执行相关语句。Spark Thrift Server的目的也只是取代HiveServer2,因此它依旧可以和Hive Metastore进行交互原创 2022-06-08 16:22:35 · 1571 阅读 · 1 评论 -
大数据:Spark Thrift JDBC Server 简介 及 大数据分析 SQL 的演进
这里说的Spark Thrift JDBCServer并不是网上大部分写到的Spark数据结果落地到RDB数据库中所使用的JDBC方式,而是指Spark启动一个名为thriftserver的进程以供客户端提供JDBC连接,进而使用SQL语句进行查询分析。http://spark.apache.org/docs/2.3.3/sql-programming-guide.html#running-the-thrift-jdbcodbc-server大数据产品或大数据平台,不管底层的技术使用多么复杂,其最终都是希望原创 2022-06-08 16:10:36 · 414 阅读 · 0 评论 -
是时候改变你数仓的增量同步方案了
经过一段时间的演化,spark-binlog,delta-plus慢慢进入正轨。spark-binlog可以将MySQL binlog作为标准的Spark数据源来使用,目前支持insert/update/delete 三种事件的捕捉。 delta-plus则是对Delta Lake的一个增强库,譬如在Delta Plus里实现了将binlog replay进Detla表,从而保证Delta表和数据库表接近实时同步。除此之外,detla-plus还集成了譬如布隆过滤器等来提升数据更新速度,解决更新导致的文件数转载 2022-02-22 11:00:51 · 235 阅读 · 0 评论 -
实战 | 利用Delta Lake使Spark SQL支持跨表CRUD操作
本文转载自公众号: eBay技术荟作者 | 金澜涛原文链接:https://mp.weixin.qq.com/s/L64xhtKztwWhlBQrreiDfQ摘要大数据处理技术朝传统数据库领域靠拢已经成为行业趋势,目前开源的大数据处理引擎,如Apache Spark、Apache Hadoop、Apache Flink等等都已经支持SQL接口,且SQL的使用往往占据主导地位。各个公司使用以上开源软件构建自己的ETL框架和OLAP技术,但在OLTP技术上,仍然是传统数据库的强项。其中的一个主要原因是传.原创 2022-02-22 10:47:04 · 172 阅读 · 0 评论 -
大数据架构篇之计算存储架构
一. 简介对比解读五种主流大数据架构的数据分析能力参考: https://blog.csdn.net/aria_miazzy/article/details/99572763二. 大数据架构1. 互联网大数据平台架构1.1 数据采集将应用程序产生的数据和日志等同步到大数据系统中,由于数据源不同,这里的数据同步系统实际上是多个相关系统的组合。数据库同步通常用 Sqoop,日志同步可以选择 Flume,打点采集的数据经过格式化转换后通过 Kafka 等消息队列进行传递。不同的数据源产生的数据质原创 2021-04-15 21:06:55 · 967 阅读 · 1 评论 -
大数据数据传输篇之Maxwell
一. 简介采用基于 MySQL Binlog进行数据同步的解决方案,覆盖全量、增量、全量+增量三种同步模型,支持数据同步的秒级延迟,任务异常的断点续传,以及数据的不丢、不乱、不重;MySQL ---- 中间件 mcp —>KAFKA—>?—>存储HBASE/KUDU/Cassandra 增量的二. 核心1. 系统架构图2. 与canal的对比三. 其他学习https://database.51cto.com/art/202008/623758.htm **htt原创 2021-04-15 20:53:03 · 504 阅读 · 0 评论 -
大数据数据传输篇之DataX
一. 简介DataX 是一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能设计理念为了解决异构数据源同步问题,DataX将复杂的网状的同步链路变成了星型数据链路,DataX作为中间传输载体负责连接各种数据源。当需要接入一个新的数据源的时候,只需要将此数据源对接到DataX,便能跟已有的数据源做到无缝数据同步二. 核心架构图datax 3.0 核心架构核心优势可靠原创 2021-04-15 20:53:17 · 444 阅读 · 0 评论 -
大数据数据传输篇之Canal
一. 简介二. 核心1. 与 datax,maxwell 的对比canal 不支持全量更新datax 支持全量更新,支持增量更新,不支持 实时更新,所谓的 增量更新 是定时增量更新maxwell 支持增量,也支持全量 ( select * from table ) ,可以考虑flume 日志实时采集上报sqoop 离线数据更新otter 实时数据更新三. 其他1. 学习...原创 2021-04-15 20:53:34 · 577 阅读 · 0 评论 -
数据治理:元数据管理篇之Altas
Atlas 是一个可伸缩且功能丰富的数据管理系统,深度集成了 Hadoop 大数据组件。简单理解就是一个跟 Hadoop 关系紧密的,可以用来做元数据管理的一个系统,整个结构 图如下所示官网: https://www.cloudera.com/products/open-source/apache-hadoop/apache-atlas.htmlhttp://atlas.apache.org/#/为组织提供开放式元数据管理和治理功能,用以构建数据资产目录,对这些资产进行分类和管理,并未数据分析和数据治理原创 2021-04-14 15:21:19 · 4269 阅读 · 0 评论 -
数据湖管理篇之Apache Iceberg
一. 简介开源的,大规模表数据分析,高性能分析,原子提交,并发读写,二. 核心在文件format(parquet/avro/orc)之上实现table语义支持定义和变更schema支持hidden partition 和partition变更acid语义历史版本回溯1. 特点借助partition和columns统计信息实现分区裁剪不绑定hdfs,可扩展s3/oss容并发writer,乐观锁机制解决冲突2. 架构3. Flink 的集成Flink Streaming Reader原创 2021-04-14 09:22:52 · 864 阅读 · 0 评论 -
大数据存储篇之ClinkHouse
一. 简介列式存储数据库 OLAP DBMS 在线实时分析 二. 核心1. 数据类型 无bool类型,可以用enum代替2. 表引擎 TinyLog, Memory, Merge, MergeTree, ReplacingMergeTree,SummingMergeTree,Distributed,3. HDFS数据读取/导入三. 其他...原创 2021-04-14 09:20:54 · 814 阅读 · 1 评论 -
大数据分析篇之Kylin
一. 简介分布式分析引擎 多维分析 亚秒内查询1. 特点标准SQL借口支持超大数据及亚秒级相应可伸缩性和高吞吐率BI工具集成2. zepplin二. 核心Cube/CuboidOLAP:ROLAP/MOLAP数仓/BI目前只支持star chemaStart Schema (星型模型) 事实表(fact table )/维度表(dimension table ) dimension(维度) measure(度量)snow schema 雪花模型星座模型1. K原创 2021-04-14 09:12:29 · 215 阅读 · 0 评论 -
大数据分析篇之Phoenix
一. 简介基于HBase的开源SQL引擎,二. 核心1. 特性Transactions (beta) 事务Secondary Indexing 二级索引covered indexesflobal indexeslocal indexessalted tables 加盐解决数据热点问题2. 与kylin比较http://bcxw.net/article/472.html ****2.1 优缺点对比Kylin 的优点主要有以下几点:支持雪花/星型模型;亚秒级原创 2021-04-14 09:11:53 · 429 阅读 · 0 评论 -
大数据分析篇之Presto
一. 简介GB/PB 秒级OLAPMOLAP: 多维联机分析处理(MOLAP)ROLAP: 关系型联机分析处理(ROLAP)MOLAP可选Kylin、Druid,ROLAP可选Presto、impala等Hive/Redis/Kafka1. 与Impala的对比性能:impala 性能更好数据源支持: presto 更加丰富2. 优缺势内存运算连接多个数据源,跨数据源连表查询不适合链表查询,尽量避免join,可以用宽表解决二. 核心1. 优化存储列存储:原创 2021-04-14 09:10:42 · 304 阅读 · 0 评论 -
大数据分析篇之Flink
一. 简介Flink 是一个状态流, 一个任务就是一个集群二. 核心1. Flink架构2. 特性2.1 有界和无界数据有界:批处理(离线处理)无界:实时处理2.2 一次语义一次语义保证得是什么?3. FlatMapRichFlatMapFunctionFlatMapFunctionRichColFlatMapRunctionCoFlatMapFunction ‘4. RDDconnect5. watermarker(sparkstreaming 没有)使用wat原创 2021-04-14 09:10:07 · 418 阅读 · 0 评论 -
大数据分析篇之Impala
一. 简介Impala 是基于Hive并使用内存进行计算,兼顾数据仓库,具有实时,批处理,多并发等优点。底层依赖hive,与Hive公用一套元数据存储。Impala与hive的最大区别在于不是把sql编译成MR程序,而是编译成执行计划树1. 与Hive的对比Hive: 预处理工作Impala: 实时查询二. 核心1. 与Hive的异同Impala 使用的优化技术 C/C++执行计划数据流内存使用调度 simple-schedule容错2. Impala 架构CLI/Imp原创 2021-04-14 09:09:21 · 379 阅读 · 2 评论 -
大数据UI组件之Hue
一. 简介Query Explore Repeat查询 浏览 重复HUE:Hadoop User Experience , 开源的Apache Hadoop UI系统支持组件: hive/hdfs/hbase/zookeeper/sqoop/oizze/spark/impala/yarn/pig/JobTracker/二. 核心1. Hue架构2. 安装/WebUI设置mysql88883. 集成HDFSYarn三. 其他1. 学习https://www.bil原创 2021-04-13 19:23:52 · 339 阅读 · 0 评论 -
大数据分析篇之Druid
一. 简介列式分布式,支持实时分析,PB级数据,毫秒级查询,数据实时处理预计算预聚合bitmap压缩算法必须具备时间字段1. 特点2. 应用场景多读写少实时性要求高数据质量不敏感二. 核心1. Druid 与Impala,Kylin,Presto,Impala,Spark SQL,ES的对比2. 大数据分析框架选型3. Druid架构原理4. NodesMiddleManager NodesHistorical NodesCoordinator NodesOverlo原创 2021-04-13 19:18:03 · 420 阅读 · 0 评论