自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(328)
  • 收藏
  • 关注

转载 全链路数据湖开发治理解决方案2.0重磅升级

阿里云全链路数据湖开发治理解决方案能力持续升级,发布2.0版本。解决方案包含开源大数据平台E-MapReduce(EMR) , 一站式大数据数据开发治理平台DataWorks ,数据湖构建DLF,对象存储OSS等核心产品。解决方案已支持EMR新版数据湖DataLake集群(on ECS)、自定义集群(on ECS)、Spark集群(on ACK)三种形态,对接阿里云一站式大数据开发治理平台Data...

2023-08-24 10:30:02 121

转载 CommunityOverCode Asia 精彩回顾|阿里云开源大数据 EMR 技术实践分享

2023 年 8 月 18 日,Apache 软件基金会的官方全球系列大会 CommunityOverCode Asia(原 ApacheCon Asia)首次中国线下峰会在北京丽亭华苑酒店开幕。作为久负盛名的开源盛宴和开源界最具期待的大会之一,CommunityOverCode Asia 2023 聚集了来自各地的参与者,让大家都可以近距离享受这场 Apache 技术盛宴。阿里云研究员、开源大数...

2023-08-22 11:23:43 199

原创 支持 Flink/Gluten/优雅升级...Celeborn0.3.0 介绍

Apache Celeborn(Incubating)[1][2]是阿里云开源的大数据计算引擎通用 Remote Shuffle Service,旨在提升 Shuffle 的性能/稳定性/弹性,目前已广泛运行在包含阿里在内的多家企业,每天服务着生产环境数十P的 Shuffle 数据,可稳定支撑单 Shuffle 超 600T 的大作业。Apache Celeborn(Incubating)是个...

2023-08-01 14:00:33 190

转载 Flink 遇见 Apache Celeborn:统一的数据 Shuffle 服务

我们非常高兴的宣布 Apache Celeborn(Inclubating)[1]正式支持 Flink,Celeborn 于去年 12 月份正式进入 Apache 软件基金会 (ASF) 的孵化器,一直致力打造统一的中间数据服务,助力引擎全方位提升性能、稳定性和弹性,最新发布的 0.3.0 版本新增对 Flink 批作业 Shuffle 的支持,从此 Flink、Spark 可以同时使用统一的数据...

2023-07-19 12:11:57 185

转载 Gluten + Celeborn: 让 Native Spark 拥抱 Cloud Native

作者:张凯@阿里云、陳韋廷@Intel、周渊@Intel一、简介Apache Celeborn(Incubating) 是阿里云捐赠给 Apache 的通用 Remote Shuffle Service,旨在提升大数据计算引擎的性能/稳定性/弹性,目前已广泛应用于生产场景。Gluten 是 Intel 开源的引擎加速项目,旨在通过把 Spark Java Engine 替换为 Native Eng...

2023-07-10 09:39:47 1634

转载 基于EMR Serverless StarRocks,极速全面多维分析21届世界杯

EMR Serverless StarRocks 是开源 StarRocks 在阿里云上的全托管服务,您可以通过 EMR Serverless StarRocks 灵活的创建和管理 StarRocks 实例以及数据。StarRocks 作为一款兼容 MySQL 协议的 OLAP 分析引擎,提供了极致的性能和丰富的 OLAP 场景模型,包括 OLAP 多维分析、数据湖分析、高并发查询以及实时数据分析...

2023-07-07 18:03:29 199

原创 猿辅导基于 EMR StarRocks 的 OLAP 演进之路

摘要:猿辅导大数据平台团队负责人申阳分享了猿辅导基于 StarRocks 的 OLAP 演进之路。主要包括以下几大部分:数据需求产生OLAP 选型StarRocks 的优势业务场景和技术方案基础建设Tips:点击「阅读原文」查看原文视频1►数据需求产生猿辅导成立多年,早期是基于关系型的 MySQL 数据库来做数据的需求。随着业务的发展,多个服务在一个 DB 去做数据的汇总,以及一些微服务架构的产生...

2023-06-16 20:00:04 297

转载 水滴筹基于阿里云 EMR StarRocks 实战分享

摘要:水滴筹大数据部门的数据开发工程师韩园园老师为大家分享水滴筹基于阿里云EMR StarRocks的实战经验。本篇内容将会围绕以下五个方面展开:公司介绍StarRocks 概览场景实战最佳实践未来规划01公司介绍水滴创立于2016年,业务包括水滴筹、水滴保险商城等,于2021年5月7日上市。水滴以“用互联网科技助推广大人民群众有保可医,保障亿万家庭”为使命,致力于为用户提供健康保障解决方案。希望...

2023-05-17 18:00:04 326

转载 阿里云智能数据湖入选第六届数字中国建设峰会“十大硬核科技”

4月27日,第六届数字中国建设峰会在福建福州举办,阿里云首创并推动的智能数据湖解决方案因“引领业界技术上创新”入选本届峰会的“十大硬核科技”,这也是历届峰会中首次有数据湖产品入选。本届数字中国峰会以“加快数字中国建设,推进中国式现代化”为主题,设置了“1+3+N”等系列活动。其中“十大硬核科技”奖项,聚焦高端芯片、操作系统、人工智能关键算法、传感器等技术领域,推动关键基础技术的创新应用,让人触摸科...

2023-05-10 16:00:37 104

转载 阿里云EMR自定义日志投递与使用实践分享

1►引言:开源大数据平台 E-MapReduce(简称“EMR”)是云原生开源大数据平台,向客户提供简单易集成的Hadoop、Hive、Spark、Flink、Presto、ClickHouse、StarRocks、Delta、Hudi等开源大数据计算和存储引擎。EMR目前支持了日志管理,即日志客户SLS投递的功能,基于此功能,客户可以将需要的各种大数据组件日志收集到自身SLS中,做查询和分析。基...

2023-04-18 20:02:29 293

转载 免费公测|阿里云EMR Serverless StarRocks 公测正式开启!

让算力更普惠,让 AI 更普及!未来十年,阿里云将全面拥抱智能化时代。随着 Serverless 化逐渐成为全新的软件研发范式,阿里云正坚定推进核心产品全面 Serverless 化。其中,开源大数据产品 阿里云E-MapReduce 率先推出 EMR Serverless StarRocks 服务。StarRocks 是一款高性能分析型数据仓库,使用向量化、MPP 架构、可实时更新的列式存储引擎...

2023-04-14 18:00:58 240

转载 阿里云E-MapReduce产品新动态及开源大数据前沿技术 2023-3月刊

E-MapReduce&DLF 产品新进展 一、EMR&DLF 新平台功能发布1、EMR 发布 Spark Native EngineEMR 发布 Spark Native Engine 对外公测版(EMR-3.45.1和EMR-5.11.1),Spark3 服务可一键开启 Native Engine,支持 SparkSQL、DataFrame 和 PySpark 等应用程序,在标...

2023-04-07 18:02:21 299

转载 阿里云EMR 2.0:定义下一代云原生智能数据湖

摘要:本文整理自阿里云高级技术专家/数据湖存储负责人郑锴(铁杰);阿里云高级技术专家/开源大数据OLAP负责人范振(辰繁)在 阿里云EMR2.0线上发布会 的分享。本篇内容主要介绍了阿里云云原生数据湖分析解决方案的三个核心要素:1. 全托管,湖存储;2. 一站式,湖管理;3. 多模态,湖计算阿里云云原生数据湖分析解决方案全面重磅升级,经中国信通院评测,它是目前国内唯一满分的数据湖方案。它有三个核心...

2023-03-31 20:01:03 313

原创 通过云监控CloudMonitor实时捕获EMR集群的状态变化

1►引言:开源大数据平台 E-MapReduce(简称“EMR”)是云原生开源大数据平台,向客户提供简单易集成的Hadoop、Hive、Spark、Flink、Presto、ClickHouse、StarRocks、Delta、Hudi等开源大数据计算和存储引擎。云监控(简称“CloudMonitor”)是一项针对阿里云资源和互联网应用进行监控的服务,为云上用户提供开箱即用的企业级开放型一站式监控...

2023-03-30 20:00:02 161

原创 数据湖存储的安全写入之道

背景数据湖的兴起,给数据存储带来了一轮新的革命。越来越多的公司选择将存储切换到云上对象存储。因为云上对象存储往往意味着大容量、低成本、易扩容。说到对象存储,必然涉及到 S3 协议,S3 协议已经事实上成为对象存储的通用协议。不过,市面上不少数据平台公司,也会选择基于 S3 协议又兼顾 Hadoop 使用习惯的 S3A Connector,比如 Databricks 在对象存储上提供的表数据结构 D...

2023-03-13 20:00:58 218

原创 基于云监控自定义监控大盘对 EMR 自定义监控

前言开源大数据平台 E-MapReduce(简称“EMR”)是云原生开源大数据平台,向客户提供简单易集成的 Hadoop、Hive、Spark、Flink、Presto、ClickHouse、StarRocks、Delta、Hudi 等开源大数据计算和存储引擎。云监控(简称“CloudMonitor”)是一项针对阿里云资源和互联网应用进行监控的服务,为云上用户提供开箱即用的企业级开放型一站式监控解...

2023-03-08 20:00:00 200

转载 阿里云 EMR 基于 Apache DolphinScheduler 产品技术实践和社区贡献

摘要:本文整理自阿里云 EMR 数据开发团队负责人孙一凡(Evans 忆梵),在 Spark&DS Meetup 的分享。本篇内容主要分为四个部分:1.我们是谁2.为什么选择 DolphinScheduler3.社区贡献4.商业化实践Tips:点击「阅读原文」查看原文视频一、我们是谁我们团队的日常工作主要包含以下两部分内容。1. 深度参与和贡献大数据开发开源项目。在过去两年的时间里,我们参...

2023-03-02 20:00:37 483

原创 开源大数据可观测性方案实践 - 助力集群运维智能化、便捷化

前言在过去的20年时间,大数据技术蓬勃发展,从最开始大公司内部的秘密武器,到现在广泛作用于几乎所有行业。通过使用大数据技术分析存量和实时的数据,能够更加全面清晰地洞察商业的本质。在商业节奏日益加快和发展越来越迅猛的今天,越来越多的企业意识到大数据分析的价值,并投入了大量的时间人力等资源。与此同时,从早期的简单报表,到搜广推(搜索广告推荐)的个性化需求,再到最近异常火爆的人机智能交互技术 ChatG...

2023-03-01 20:00:25 310

原创 基于数据湖格式构建流式增量数仓—CDC

摘要:本文整理自阿里云开源大数据平台技术专家毕岩(寻径)在 Apache Con ASIA 的分享。本篇内容主要分为四个部分:湖格式& Hudi & CDC湖格式设计实现 CDC 的思考Hudi CDC 实现湖格式 Streaming 的优化2021年中 Databricks 发布了一篇基于 Delta Lake 实现 CDC 场景的介绍文档,2022年初我们在阿里云EMR 内部 ...

2023-02-23 08:00:59 509

转载 阿里云EMR2.0平台:让大数据更简单

摘要:本文整理自阿里云资深技术专家李钰(绝顶)在 阿里云EMR2.0线上发布会的分享。本篇内容主要分为三个部分:1. EMR 平台概述2. EMR2.0 新平台核心能力3. 总结01EMR 平台概述EMR 平台是开源大数据的云原生运行环境,阿里云EMR 根据云原生的特点,在弹性伸缩、稳定性、智能化和研发效能四个方面进行了大量的功能优化:Elasticity 弹性伸缩,算力按需申请释放,突...

2023-02-21 20:00:11 402

转载 StarRocks 2.5 LTS 版本新特性介绍及阿里云EMR Serverless StarRocks火热邀测中

???? StarRocks 2.5 版本发布啦!核心功能有:Catalog 支持 Delta Lake、支持 Apache Hudi MOR 表、支持查询湖上 MAP及STRUCT 数据类型、提供 Local Cache;多表物化视图支持基于外表、物化视图创建,并支持查询改写;支持 Query Cache;支持 Lambda 表达式和高阶函数;主键模型表支持条件更新等。2.5 版本也将是 StarRo...

2023-02-14 20:00:41 660

转载 阿里云EMR 2.0:重新定义新一代开源大数据平台

摘要:本文整理自阿里云高级产品专家何源(荆杭)在 阿里云EMR2.0线上发布会 的分享。本篇内容主要分为三个部分:1. 开源大数据的痛点及EMR产品历程2. EMR2.0 新特征3. 总结1►开源大数据的痛点及EMR产品历程1. 开源大数据的痛点 如何提升性能,降低资源成本全面的性能优化需要大量的研发投入且门槛较高;大数据资源使用量大,广大用户都在不断探索降本方案。如何降低运维成本...

2023-02-08 20:00:19 756

转载 Spark+Celeborn:更快,更稳,更弹性

摘要:本文整理自阿里云 EMR Spark 团队的周克勇(一锤),在 Spark&DS Meetup 的分享。本篇内容主要分为三个部分:1.传统 Shuffle 的问题2.Apache Celeborn (Incubating)简介3.Celeborn 在性能、稳定性、弹性上的设计Tips:点击「阅读原文」查看原文视频一、传统Shuffle的问题Apache Spark 是广为流行的大数...

2023-02-06 20:00:19 1932

转载 直播预约|Apache Spark + DolphinScheduler Meetup 1月11日正式上线

洞悉 Spark 任务调度新能力|Apache Spark + DolphinScheduler 将于 1 月 11 日在线上举办如果你也是接触开源“计算引擎+调度”的用户,想了解最新 Spark 迷人的特性,那这次的分享你一定不要错过了!本次活动特邀- 阿里云 EMR 数据开发平台团队负责人孙一凡、BIGO 大数据研发工程师许名勇、阿里云 EMR Spark 引擎负责人周克勇 ,通过他们的分享让...

2023-01-10 20:00:38 174

转载 阿里云开源大数据平台EMR全面升级 性能最高可提升6倍

12月27日,阿里云正式发布云原生开源大数据平台EMR 2.0,升级后的开源大数据平台在成本持平的情况下,扩缩容性能最高可提升6倍。据悉,阿里云EMR2.0为用户提供了全新的平台、开发、资源形态、分析场景等更优的产品体验,通过EMR Doctor健康检查、全面的服务巡检和事件通知、节点故障补偿等运维能力的升级,预估运维成本可降低20%-30%。新平台致力于为客户快速构建高性价比、安全可靠、兼容生态...

2023-01-09 18:03:04 1168

转载 Apache Spark + 海豚调度:PB 级数据调度挑战,教你如何构建高效离线工作流

2010 年,我国进入移动互联网,数据规模成几何式增长。在大数据开源技术领域,以 Hadoop 为核心的大数据生态系统面对海量数据也不断发展与迭代,大数据处理流程中的各个开源组件,也一起开启了狂飙突进的大数据时代,推动了整个行业开启了数字化变革之路。近年来,大数据行业的开发者都在感慨:技术迭代更新速度的太快了,今年还在流行,明年就可能被雪藏!其实我们非常清楚,技术永远是在“更新”或“替换”中得到发...

2023-01-05 11:16:45 261

转载 阿里云开源大数据平台EMR 全面升级 性能最高可提升6倍

12月27日,阿里云正式发布云原生开源大数据平台EMR 2.0,升级后的开源大数据平台在成本持平的情况下,扩缩容性能最高可提升6倍。据悉,阿里云EMR2.0为用户提供了全新的平台、开发、资源形态、分析场景等更优的产品体验,通过EMR Doctor健康检查、全面的服务巡检和事件通知、节点故障补偿等运维能力的升级,预估运维成本可降低20%-30%。新平台致力于为客户快速构建高性价比、安全可靠、兼容生态...

2023-01-03 17:06:35 952

转载 直播预约|阿里云EMR 2.0 重磅发布

面向未来,构建新一代开源大数据基础设施!阿里云EMR 2.0 发布会将于12月27日14点在线上举办。发布会官网:https://developer.aliyun.com/topic/emr2欢迎点击上方视频号预约或前往阅读原文发布会官网预约报名云原生趋势下,开源大数据处于重构之中,以 Hadoop 为核心的开源大数据体系,从 2015 年开始转变为多元化技术并行发展。一方面,原有 Hadoop ...

2022-12-21 09:50:07 106

转载 Flink Forward Asia 2022 主论坛概览

2022 年 11 月 26-27 日,Flink Forward Asia(FFA)峰会成功举行。Flink Forward Asia 是由 Apache 软件基金会官方授权、由阿里云承办的技术峰会,是目前国内最大的 Apache 顶级项目会议之一,也是 Flink 开发者和使用者的年度盛会。由于疫情原因,本届峰会仍采用线上形式。此外,本次峰会上还举行了第四届天池实时计算 Flink 挑战赛的颁...

2022-11-30 10:29:28 239

转载 投入上百人、经历多次双11,Flink已经足够强大了吗?

作者| Tina采访嘉宾|王峰(莫问)本文首发于 InfoQ,已获得作者授权转载作为最活跃的大数据项目之一,Flink 进入 Apache 软件基金会顶级项目已经有八年了。Apache Flink 是一款实时大数据分析引擎,同时支持流批执行模式,并与 Hadoop 生态可以无缝对接。2014 年,它被接纳为 Apache 孵化器项目,仅仅几个月后,它就成为了 Apache 的顶级项目。对于 Fl...

2022-11-29 10:55:29 119

转载 EMR-StarRocks 与 Flink 在汇量实时写入场景的最佳实践

作者:汇量后端开发工程师 - 刘腾飞阿里云开源 OLAP 研发团队1►EMR-StarRocks 介绍阿里云 EMR 在年初推出了 StarRocks 服务,StarRocks 是新一代极速全场景 MPP(Massively Parallel Processing)数据仓库,致力于构建极速和统一分析体验。EMR StarRocks 具备如下特点:兼容 MySQL 协议,可使用 MySQL 客户端和...

2022-11-25 11:30:24 554

转载 关于Data Lake的概念、架构与应用场景介绍

1数据湖(DataLake)概念介绍什么是数据湖(Data Lake)?数据湖的起源,应该追溯到2010年10月,由 Pentaho 的创始人兼 CTO, James Dixon 所提出,他提出的目的就当时历史背景来看,其实是为了推广自家产品 Pentaho。当时核心要解决的问题是传统数据仓库报表分析面临的两个问题:只使用一部分属性,这些数据只能回答预先定义好(pre-...

2022-06-07 10:28:56 276

转载 StarRocks × Apache Flink:如何构建简单强大的实时数仓架构

作者王天宜--StarRocks 解决方案架构师周康--阿里云开源大数据平台OLAP团队实时数据分析正在成为企业数字化经营的核心,如何有效构建实时数据分析系统是每个企业都在面临的挑战。当前在构建实时数仓时,由于数据源的多样性,需要使用不同的采集工具,如 Flume、Canal、Logstash。对于不同的业务,我们通常会采用不同的分析引擎。比如,对于固定报表业务,根据已知...

2022-06-02 18:00:21 1088

转载 数据湖构建—如何构建湖上统一的数据权限

背景信息阿里云数据湖构建产品(DLF)提供的统一元数据服务,通过完善各种引擎/表格式生态解决了数据湖场景下多引擎面临的数据孤岛和元数据一致性问题,实现了开源大数据引擎及数据湖格式元数据的统一视图,避免了各引擎访问湖上数据其中额外的ETL成本并降低了业务处理链路的延时。但同时另一个问题随之产生即不同的引擎可能有不同的权限模型和用户模型,这导致在不同的引擎上用户和权限无法真正...

2022-05-23 18:00:49 342

转载 预约直播|阿里云CDP 产品发布会

阿里云与 Cloudera 联合打造了阿里云上的数据混合云平台CDP,一套管理平台支持多个部署形态。该平台可以灵活地运⾏各种企业⼯作负载,⽀持从边缘计算到⼈⼯智能的多功能数据分析,提供企业级的安全模型来保证客户数据安全。发布会信息直播时间:2022年5月25日 14:00-15:00直播地址:https://yqh.aliyun.com/live/cdp2022复制链接或...

2022-05-20 11:00:53 162

转载 数据湖揭秘—Delta Lake

01DeltaLake 简介Delta Lake 是 DataBricks 公司开源的、用于构建湖仓架构的存储框架。能够支持 Spark,Flink,Hive,PrestoDB,Trino 等查询/计算引擎。作为一个开放格式的存储层,它在提供了批流一体的同时,为湖仓架构提供可靠的,安全的,高性能的保证。Delta Lake 关键特性:ACID事务:通过不同等级的隔离策略,...

2022-05-13 18:00:00 305

转载 阿里云 RemoteShuffleService 新功能:AQE和流控

阿里云 EMR 自 2020 年推出 Remote Shuffle Service(RSS)以来,帮助了诸多客户解决 Spark 作业的性能、稳定性问题,并使得存算分离架构得以实施。为了更方便大家使用和扩展,RSS 在2022年初开源,欢迎各路开发者共建。RSS 的整体架构请参考[1],本文将介绍 RSS 最新的两个重要功能:支持 Adaptive Query Execu...

2022-04-25 18:00:00 252

原创 阿里云Elasticsearch日志场景 最佳实践及引擎内核优化

摘要:本文整理自阿里巴巴技术专家郭嘉梁(梁楹)在 阿里云Elasticsearch 自研引擎年度发布 的演讲。主要内容包括:阿里云Elasticsearch 日志场景最佳实践阿里云Elasticsearch 引擎内核优化阿里云Elasticsearch性能评测阿里云Elasticsearch产品演示Tips:点击「阅读原文」查看原文视频一、阿里云Elasticsear...

2022-04-07 20:00:00 510

原创 阿里云EMR StarRocks 测试指南

EMR StarRocks 是新一代极速全场景 MPP 数据分析引擎,致力于构建极速统一分析体验,满足企业用户的多种数据分析场景,支持多种数据模型,多种导入方式,可整合和接入多种现有系统(Spark、Flink、Hive 和 Elasticsearch)。同时兼容 MySQL协议,可使用 MySQL 客户端和常用 BI 工具对接 StarRocks 来分析数据。日前,阿里...

2022-04-07 20:00:00 737

原创 阿里云 CDP 产品介绍

摘要:本文整理自阿里云开源大数据生态产品研发负责人棕泽在 阿里云CDP公开课 上的演讲。主要内容包括:阿里云+Cloudera产品介绍公有云方案:云上 CDP专有云方案:CDP、CDF、CDSW典型场景视频:https://developer.aliyun.com/live/247867Tips:点击「阅读原文」有惊喜!2022年4月开始,Cloudera 官方不再对原...

2022-03-31 19:00:00 2178

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除