- 博客(362)
- 收藏
- 关注
转载 阿里云 EMR Serverless Spark AI Function 多模态能力介绍与智驾场景图片理解实践
该方案将传统依赖人工标注的高成本流程转化为高效的自动化 ETL 流水线,不仅实现了秒级的高分辨率图片分析,还通过结构化输出验证了其在处理非标准视觉特征时的准确性,为智驾研发中的数据闭环提供了极具价值的智能清洗引擎参考。EMR Serverless Spark 的 AI Function 不仅内置了 Qwen(通义千问)系列模型,还通过统一的模型服务注册机制,支持接入外部主流模型,包括 PAI-EAS、DeepSeek、KIMI、GLM、MiniMax 等系列,覆盖了当前市场上最主流的大模型生态。
2026-05-07 14:17:31
76
转载 阿里云 EMR Serverless Spark 发布 Agent Skill:让自然语言驱动 Spark 任务与资源管理
如今的技术圈仿佛按下了倍速键:上周我们还在热议多模态大模型的边界,这周 Agent 架构已成标配,转眼之间,“OpenClaw”又成了极客们手中的新宠。在 EMR Serverless Spark 的世界里,我们没有时间争论一只“虾”是否过时,因为我们正忙着将它处理、加工,并端上企业级数据处理的盛宴。现在,场景变成了这样:“提交一个 PySpark 作业,名字叫‘user-agg’,代码在 OSS 的 bucket 里,给我开 4 个 Executor,内存大一点。更有趣的是它的反馈机制。
2026-04-22 18:30:50
52
转载 EMR Serverless Spark 推出 Spark 4.0,加速湖仓架构下的数据处理升级
这是 Spark 项目自诞生以来变化最大的一次版本升级——全新的 VARIANT 数据类型、原生 SQL UDF、重新设计的基础设施架构、以及对 Python 生态的全面增强。阿里云 EMR Serverless Spark 当前已适配 Spark 4.0 ,企业用户可直接在生产环境使用这些能力,无需自建集群、无需手动升级、无需担心兼容性。对于数据湖上的 JSON 密集型工作负载,Paimon Variant 配合 Spark 4.0 的 VARIANT 类型,提供了业界领先的存储 + 计算方案。
2026-04-20 18:30:44
33
转载 EMR Serverless Spark 携手 PAI/百炼,开启“SQL 即 AI”的新篇章
对于技术团队而言,现在的重点不再是“如何构建一个能调用 AI 的系统”,而是“如何利用现有的数据资产,通过最简单的接口,快速验证 AI 带来的业务价值”。通过注册 PAI-EAS 服务为外部模型源,EMR Serverless Spark 能够在确保“数据不出域”的前提下,直接于计算流程中调用专属模型,实现便捷、高效的安全风控处理。这种架构的特点是:数据无需离开安全的 VPC 环境,直接在湖仓内部完成推理,既满足了严格的合规要求,又享受了 Serverless Spark 弹性计算带来的极致性能。
2026-03-24 18:31:44
32
转载 Celeborn 如何让 EMR Serverless Spark 的 Shuffle 舒心、放心、安心
正在运行的作业,当数据达到 Partition 的 Split 阈值后,会自动通过 Lifecyclemanager 向新加入的 Worker 申请资源,将后续数据写入新的 Worker。同时,监控也会显示 Celeborn 集群的节点状态——总节点数与正在使用的节点数的差异,反映出集群是否处于扩容、缩容或升级状态。当单个 Partition 文件的大小超过配置的阈值时,Lifecyclemanager 会自动向 Celeborn 集群申请新的资源,将同一个 Partition 的后续数据写入新的文件。
2026-03-20 18:31:30
38
转载 阿里云 EMR Serverless Spark TPC-DS 100T 榜首背后的内核技术
EMR StarRocks、Spark 湖仓挑战开启,在 DLF(Paimon)极速运行 TPC 查询,完成任务即领阿里云帆布袋,前55位加赠:定制双肩包*5,小背包*5,StarRocks 定制颈枕*15,足球淘公仔自制*30,数量有限,按照顺序先领先得。周克勇,阿里花名"一锤",阿里巴巴计算平台事业部 EMR 团队技术专家,大数据领域技术爱好者,对 Spark 有浓厚兴趣和一定的了解,目前主要专注于 EMR 产品中开源计算引擎的优化工作。融合的新时代,它正成为企业构建下一代智能数据基础设施的核心引擎。
2026-02-13 12:00:21
69
转载 淘宝闪购基于阿里云 EMR Serverless Spark&Paimon 的湖仓实践:超大规模下的特征生产&多维分析双提效
DV 引入了新的机制:写入时记录被删除的数据,读取时过滤。在淘宝闪购上线以来的这一段时间内,业务不断在创造一个又一个峰值,用户活跃度和订单量级都屡创新高,在这背后,数据团队始终以 “稳定、高效、智能” 为准则,在湖仓一体架构的基础上,深度融合流计算与批处理能力,构建起一套高弹性、低延迟、强一致的数据处理体系,作为核心计算引擎,阿里云 EMR Serverless Spark 在湖仓一体架构中扮演了关键角色,在湖仓流计算和批计算的共同加持下抗住了业务的压力,同时越来越多的业务场景应用快速落地。
2026-02-03 18:31:18
65
转载 双擎湖仓免费体验:EMR Serverless StarRocks × Serverless Spark x DLF 共探 TPC 极致性能
2025 年 9 月,阿里云 EMR 在全球数据仓库性能及性价比排行榜中斩获两项全球冠军:在“数据分析”性能测试 TPC-H 榜单中,阿里云 EMR Serverless StarRocks (Stella 1.2.0 内核)以 QphH 超 754万分的性能结果斩获全球冠军,在“决策支持类”性能测试 TPC-DS 榜单中,阿里云 EMR Serverless Spark (Fusion 2.0 内核)结合 DLF 以 QphDS 超 6568万分的性能结果斩获全球冠军,性能和性价比分别。
2026-01-22 18:31:30
61
转载 迅雷基于阿里云 EMR Serverless Spark 实现数仓资源效率与业务提升
对迅雷而言,这意味着计算资源不再被固定集群容量所束缚,峰值时能够按需获得足够的内存与并发能力去承接批处理窗口、突发任务或临时分析,从而显著降低排队、拥塞与“顶格运行”的风险,让作业完成时间与交付节奏更可控。一方面能复用 Driver/Executor 资源,避免容器启动延迟,提供秒级查询,另一方面利用 Spark 的动态资源伸缩,闲时及时释放资源,避免浪费,从而提供高性价比的交互式分析能力。同时,由于集群版本偏低,在业务用量增长后更易触发开源缺陷,导致稳定性下降,且难以原地升级。
2026-01-05 18:30:59
85
转载 参会指南|Apache Spark Meetup · 上海站
此外,活动特别邀请来自阿里云、AMD、流利说的行业专家,分享实战场景下,高效、智能的数据处理解决方案。通过此次 Meetup,企业不仅能够全面了解 EMR Serverless Spark 的技术优势和应用场景,还能深入掌握其与 DataWorks 和 AMD 技术的协同价值,为企业在数据驱动的业务场景中构建高效、智能的数据平台提供重要参考与实践指导。无法来到现场的开发者也不用担心,本次 Meeup 提供线上直播,无论身处何地,都能实时参与,探索行业创新实践。将发送短信提醒,请按指引完成实名认证。
2025-12-19 16:20:40
80
转载 <span class=“js_title_inner“>参会指南|Apache Spark Meetup · 上海站</span>
此外,活动特别邀请来自阿里云、AMD、流利说的行业专家,分享实战场景下,高效、智能的数据处理解决方案。通过此次 Meetup,企业不仅能够全面了解 EMR Serverless Spark 的技术优势和应用场景,还能深入掌握其与 DataWorks 和 AMD 技术的协同价值,为企业在数据驱动的业务场景中构建高效、智能的数据平台提供重要参考与实践指导。无法来到现场的开发者也不用担心,本次 Meeup 提供线上直播,无论身处何地,都能实时参与,探索行业创新实践。将发送短信提醒,请按指引完成实名认证。
2025-12-19 16:20:40
35
转载 活动报名 | Apache Spark Meetup · 上海站,助力企业构建高效数据平台
同时,DataWorks 高级技术专家也将亲临现场,详细解读其与 EMR Serverless Spark 的深度协同能力,为企业提供更高效、更智能的数据处理解决方案,以及如何结合 DataWorks 的多源数据高效入湖与智能化调度方案,实现从非结构化数据采集、存储、治理到分析应用的全生命周期管理闭环。此次夺冠不仅彰显了 EMR Serverless Spark 在超大规模数据处理场景中的卓越性能,更体现了其在极致性能与成本控制之间实现高效平衡的技术实力。点击“阅读全文”立即报名!阿里巴巴徐汇滨江园区。
2025-12-10 12:00:18
71
转载 Fusion 引擎赋能:七猫如何使用阿里云 EMR Serverless Spark 实现数仓加速
相比传统 Yarn 集群,Serverless Spark 不仅具备更强的弹性能力和更低的资源使用成本,通过 Fusion + Celeborn 的优化,更是实现了计算效率与资源性价比的双重提升。传统模式已无法支撑“按需响应、准时交付”的现代数据服务要求,并且原先基于实例级别的资源交付方式,在潮汐时存在浪费。通过接入 EMR Serverless Spark 官方提供的 spark-submit 工具进行数仓调度,该工具100%兼容开源 spark-submit 工具,为数仓的整体迁移提供了巨大的便利。
2025-12-05 18:47:12
79
转载 云栖实录|从“开源开放”走向“高效智能”:阿里云 EMR 年度重磅发布
更进一步,EMR Serverless Spark 凭借 Fusion 2.0 登顶 TPC-DS 100TB 世界榜单,相较 Databricks 2021 年纪录,性能提升 100%,性价比提升 500%,充分验证了其在超大规模数据湖分析中的领先优势。尤为突出的是,EMR Serverless StarRocks 凭借 Stella 内核登顶 TPC-H 10TB 世界性能榜单,相较第二名性能提升 111%,性价比提升 90%,数据加载效率提升 6200%。金融、零售、制造等众多行业的公有云客户。
2025-10-20 18:29:46
87
转载 两项世界第一!阿里云登顶全球数据仓库性能及性价比排行榜
EMR Serverless Spark是一款面向Data+AI的高性能数据湖产品,内置最新升级的Fusion 2.0内核,可为企业提供任务开发、调试、调度和运维等一站式的数据平台服务,极大地简化了数据处理、即席分析和模型训推的全流程。TPC-H Benchmark同样是数据仓库领域权威测试标准之一,其主要考察系统处理查询的多方面能力,包括数据规模的大小、串行提交时的Query延迟、多租户并行提交时的Query吞吐等,是代表产品的综合性能的重要指标。
2025-09-30 17:30:25
127
转载 <span class=“js_title_inner“>两项世界第一!阿里云登顶全球数据仓库性能及性价比排行榜</span>
EMR Serverless Spark是一款面向Data+AI的高性能数据湖产品,内置最新升级的Fusion 2.0内核,可为企业提供任务开发、调试、调度和运维等一站式的数据平台服务,极大地简化了数据处理、即席分析和模型训推的全流程。TPC-H Benchmark同样是数据仓库领域权威测试标准之一,其主要考察系统处理查询的多方面能力,包括数据规模的大小、串行提交时的Query延迟、多租户并行提交时的Query吞吐等,是代表产品的综合性能的重要指标。
2025-09-30 17:30:25
28
转载 <span class=“js_title_inner“>两项世界第一!阿里云登顶全球数据仓库性能及性价比排行榜</span>
EMR Serverless Spark是一款面向Data+AI的高性能数据湖产品,内置最新升级的Fusion 2.0内核,可为企业提供任务开发、调试、调度和运维等一站式的数据平台服务,极大地简化了数据处理、即席分析和模型训推的全流程。TPC-H Benchmark同样是数据仓库领域权威测试标准之一,其主要考察系统处理查询的多方面能力,包括数据规模的大小、串行提交时的Query延迟、多租户并行提交时的Query吞吐等,是代表产品的综合性能的重要指标。
2025-09-30 17:30:25
32
转载 云栖2025|阿里云开源大数据发布新一代“湖流一体”数智平台及全栈技术升级
在AI融合领域,阿里云通过 Spark + DLF 全模态湖仓实现文本、音频、视频等多模态数据的统一治理与AI模型训练,而 Flink + Milvus + LLM 构建的实时智能分析决策系统,则支持舆情分析、直播监控等场景的毫秒级AI决策。在企业级治理能力方面,覆盖存储、计算、开发、安全多维度,事前、事中、事后等全方位治理能力;,在支持 Paimon、Iceberg 等主流湖表格式的基础上,将存储格式从传统结构化数据,拓展至全模态数据场景,支持面向 AI 场景的 Lance 文件数据、表格数据等全类型。
2025-09-29 12:00:25
231
转载 <span class=“js_title_inner“>云栖2025|阿里云开源大数据发布新一代“湖流一体”数智平台及全栈技术升级</span>
在AI融合领域,阿里云通过 Spark + DLF 全模态湖仓实现文本、音频、视频等多模态数据的统一治理与AI模型训练,而 Flink + Milvus + LLM 构建的实时智能分析决策系统,则支持舆情分析、直播监控等场景的毫秒级AI决策。在企业级治理能力方面,覆盖存储、计算、开发、安全多维度,事前、事中、事后等全方位治理能力;,在支持 Paimon、Iceberg 等主流湖表格式的基础上,将存储格式从传统结构化数据,拓展至全模态数据场景,支持面向 AI 场景的 Lance 文件数据、表格数据等全类型。
2025-09-29 12:00:25
61
转载 阿里云携手 海信聚好看 构建开源云原生大数据平台最佳实践
在落地实践中,利用 Paimon 与开源 Spark、StarRocks 大数据生态技术栈开放融合的优势,借助 Serverless Spark 先进技术栈,通过 Spark Streaming 技术,快速实现了实时数据入湖的链路,用 Paimon 格式重构了 ODS 层存储机制,实现了亿级设备数据分钟级入湖,实时可查可用,极大提升了数据新鲜度。然而,现有大数据平台基于经典的 Lambda 架构构建,ETL 链路以批处理为主,数据更新时效普遍为小时级,严重制约了业务敏捷性与用户体验提升。
2025-09-22 18:31:11
340
转载 2025云栖大会·大数据AI参会攻略请查收!
技术分享及动手实践,覆盖大模型、AIGC、大数据 AI 一体、数据分析计算、数据开发治理、AI 搜索等多领域,期待与您在云栖小镇相聚,一同探索“阿里云智能集团计算平台事业部负责人 汪军华,带来大数据 AI 平台年度发布,解读大数据 AI 平台各款产品的重大功能升级。9月24日下午 14:20-15:10。2025云栖大会·大数据AI。大数据 + AI 无限可能。议程已定,只等你来!
2025-09-18 18:00:55
197
转载 <span class=“js_title_inner“>2025云栖大会·大数据AI参会攻略请查收!</span>
技术分享及动手实践,覆盖大模型、AIGC、大数据 AI 一体、数据分析计算、数据开发治理、AI 搜索等多领域,期待与您在云栖小镇相聚,一同探索“阿里云智能集团计算平台事业部负责人 汪军华,带来大数据 AI 平台年度发布,解读大数据 AI 平台各款产品的重大功能升级。9月24日下午 14:20-15:10。2025云栖大会·大数据AI。大数据 + AI 无限可能。议程已定,只等你来!
2025-09-18 18:00:55
29
转载 Community Over Code Asia 2025 专题介绍之 Data Storage & Computing
大数据也是 ASF 非常重要的组成部分,ASF 有非常多的大数据存储和计算领域的项目,比如大家熟知的 Apache Hadoop, Apache Spark, Apache HBase, Apache Ozone, Apache CarbonData, Apache Cassandra, Apache ZooKeeper 等等,在这个主题中,大家会学习到这些技术的前沿趋势和来自一线用户的实践经验、原理、架构分析等精彩内容。每个数据库来自不同的供应商,需要专门的技能集,并且具有独特的备份和故障恢复流程。
2025-07-16 18:00:21
274
转载 阿里云 EMR Serverless Spark:面向 Data+AI 的高性能 Lakehouse 产品
摘要:本文整理自阿里云 EMR Serverless Spark 产品专家玄橙老师在用户钉群的直播分享。从业务痛点、产品定位、产品介绍以及客户案例四个部分详细介绍了 EMR Serverless Spark 产品。EMR Serverless Spark 用户钉群:58570004119EMR Serverless Spark 是一款面向 Data+AI 的高性能 Lakehouse 产品。它为企业提供了一站式的数据平台服务,包括任务开发、调试、调度和运维等,极大地简化了数据处理和模型训练的全流程。同时,它
2025-07-10 12:00:35
264
转载 一体系数据平台的进化:基于阿里云 EMR Serverless Spark 的持续演进
其次,通过 Serverless Spark 构建了数仓经典分层架构,95%的数据源采用 DataWorks 数据集成的实时入湖(ODS),经过清洗转化为明细数据(DWD),然后根据主题将明细层数据轻度聚合(DWS),再根据特定应用或业务场景提供高质量的指标数据(ADS),为上层业务系统提供支持。在 ML/AI 应用方面,一体系通过 DataWorks 调度 Spark 任务,进行数据的计算和聚合,处理后的指标数据从数据湖推送到了 AI 知识库,推动了 Data + AI 技术在实际业务中的应用。
2025-06-10 08:00:23
223
转载 Fusion 引擎赋能:流利说如何用阿里云 Serverless Spark 实现数仓计算加速
数据存储阿里云 OSS ,提供高可靠、低成本的对象存储。该场景同样是在 Airflow 中调度提交任务到 EMR Serverless Spark,由于增量数据可能会有周期性变化,借助于 Serverless 的弹性伸缩能力,可显著提高资源利用率,避免资源浪费,相比于之前半托管集群的定时弹性伸缩更加稳定和流畅。流利说是领先的科技驱动的教育公司,公司自主研发了领先的英语口语评测、写作打分引擎和深度自适应学习系统,致力于为用户提供一整套系统性的英语学习解决方案,从听、说、读、写多个维度提升用户的英语水平。
2025-05-29 17:34:43
144
转载 开源大数据平台 Data+AI 场景经典案例合集(文末有礼)
用友畅捷通基于 EMR StarRocks 搭建实时湖仓,通过其高性能查询、物化视图优化、流批一体能力,支撑实时大屏、BC 一体化报表及用户画像等场景,替代 ClickHouse 等分散方案后,解决了历史系统回写效率低、数据孤岛严重、技术架构分散等问题,解决了查询性能瓶颈,统一了技术栈,同时满足了业务实时数据分析需求。喜马拉雅大数据全面上云架构升级后,实现了秒级弹性伸缩,减少了数万张表,任务性能提升40%以上,即席查询性能提升30%以上,大幅提升了数据的时效性和开发效率。
2025-05-12 18:00:28
817
转载 立马耀:通过阿里云 Serverless Spark 和 Milvus 构建高效向量检索系统,驱动个性化推荐业务
接着,使用Serverless Spark的计算能力,调用机器学习模型服务,将商品标题转换为向量表示。通过构建数据接口,Milvus中的数据可以对外提供查询服务,用户可以通过该接口输入一个商品或其特征,系统将返回相似商品的列表。它为企业提供了一站式的数据平台服务,包括任务开发、调试、调度和运维等,极大地简化了数据处理和模型训练的全流程。为了应对新的业务挑战,蝉妈妈选择与阿里云合作,利用其 Serverless Spark & Milvus,构建了符合业务场景和分析师习惯的工程解决方案。
2025-04-24 16:00:35
580
转载 鹰角网络:EMR Serverless Spark 在《明日方舟》游戏业务的应用
在离线调度方面,我们实施了两种策略一种引擎,一是使用 Airflow 服务支持有代码基础的研发用户,同时为普通数据分析师和数仓研发提供了 DolphinScheduler 服务,这两种调度系统都实现了对 EMR Serverless Spark 的对接,满足平台服务的灵活性。数据也应用于算法团队进行业务探索与数据科学分析。通过这一系列技术栈的优化,我们不仅优化了数据管理和分析流程,还有效支持了公司的全球化战略和业务扩展,目前我们已经在海外基于 EMR Serverless Spark 搭建类似数据架构。
2025-04-15 12:00:16
379
转载 百观科技基于阿里云 EMR 的数据湖实践分享
百观数据平台,主要面向数据工程师、数据分析师和数据科学家,其业务场景以数据的即席分析为主,以定时调度任务为辅,并提供简单易读的 OLAP 查询,覆盖数据接入、数据清洗、数据分析与聚合、数据交付全流程。在保留开箱即用的基础上,EMR 为用户提供了高度定制化的选项,除了内置软件的参数均可调整之外,对于有能力的用户,可以深入 EMR 集群的系统内部做更自由的开发,以满足复杂且多样的生产需求。百观以全域数据为基础,通过客观科学的数据分析,解锁数据价值,为客户提供具有现实指导意义的洞察和解决方案。
2025-04-02 08:00:44
186
转载 最佳实践 | 在 Notebook 中使用 Python 第三方库
三种方式均能帮助您实现这一目标,建议根据实际情况选择最适合的方式。中填写库的名称及版本,不指定版本时,默认安装最新版本。(链接:https://x.sm.cn/6YT3CJ3)下拉列表中选择前一步骤创建的运行环境,单击。在编辑会话之前,您需要先停止会话。在编辑会话之前,您需要先停止会话。第三方库处理数据的场景,例如使用。单元格中,输入以下命令,然后单击。单元格中,输入以下命令,然后单击。页面,单击目标工作空间名称。页面,单击目标工作空间名称。在使用该方式时,需确保已安装。第三方库,其开源许可证请参见。
2025-03-20 08:03:04
199
转载 最佳实践 | 在 EMR Serverless Spark 中实现 Doris 读写操作
01背景信息阿里云 EMR Serverless Spark 版是一款兼容开源 Spark 的高性能 Lakehouse 产品,提供了企业级全托管的数据平台服务。Apache Doris是一个高性能、实时的分析型数据库,能够较好地满足报表分析、即席查询、数据湖联邦查询加速等使用场景。更多信息,请参见Apache Doris 简介。(链接:https://x.sm.cn/FVRekM4)基于Apac...
2025-03-13 08:03:31
249
转载 最佳实践 | 在 EMR Serverless Spark 中实现 StarRocks 读写操作
EMR Serverless Spark 是一款兼容开源 Spark 的高性能 Lakehouse 产品。它为用户提供任务开发、调试、发布、调度和运维等全方位的产品化服务,显著简化了大数据计算的工作流程,使用户能更专注于数据分析和价值提炼。StarRocks官方提供了Spark Connector用于Spark和StarRocks之间的数据读写,EMR Serverless Spark可以在开发时...
2025-03-06 19:00:24
308
原创 美的楼宇科技基于阿里云 EMR Serverless Spark 构建 LakeHouse 湖仓数据平台
作者:美的楼宇科技事业部 先行研究中心智能技术部美的楼宇科技 IoT 数据平台建设背景美的楼宇科技事业部(以下简称楼宇科技)是美的集团旗下五大板块之一,产品覆盖多联机组、大型冷水机组、单元机、机房空调、扶梯、直梯、货梯以及楼宇自控软件和建筑弱电集成解决方案,远销海内外200多个国家。针对当前设备数据量庞大且持续增长、数据呈现半结构化特点的现状,现有系统仅停留在数据存储和基础使用层面,缺乏深度挖掘数...
2025-02-19 08:31:39
1165
原创 阿里云 EMR Serverless Spark 在微财机器学习场景下的应用
作者:微财技术研发经理 宋鑫微财介绍微财是一家创新型的金融科技企业,凭借多年积累的金融科技能力和数据处理优势,为客户提供消费分期等金融信息服务,致力于成为值得信赖的金融机构合作伙伴。旗下拥有好分期等品牌,为高成长用户提供信用分期借款过程中的综合性信息、技术以及辅助服务。业务挑战数据资源是金融科技企业的核心价值,微财依托大数据评估用户借款过程中的风险,随着微财业务的快速发展,积累了大量用户数据...
2025-01-20 08:30:15
798
转载 阿里云 EMR 发布托管弹性伸缩功能,支持自动调整集群大小,最高降本60%
开源大数据平台 E-MapReduce(简称“EMR”)是云原生开源大数据平台,为客户提供简单易集成的 Hadoop、Hive、Spark、StarRocks、Flink、Presto 等开源大数据计算和存储引擎。EMR on ECS 是指 EMR 在 ECS 上运行的方式。EMR on ECS 将 EMR 的大数据处理功能与ECS的容器化部署优势相结合,使得您可以更加灵活地配置和管理 EMR 集...
2025-01-16 08:00:39
333
转载 奇富科技基于 Celeborn 优化 Spark Shuffle 实践
引言:在大数据处理中,Shuffle 机制是计算组件的核心,负责将数据导向正确的处理节点,其设计直接影响任务执行效率和资源利用率。从 MapReduce 到 Spark,Shuffle 机制的进化不仅体现了大数据技术的进步,也凸显了优化 Shuffle 以应对大规模集群挑战的重要性。背景奇富科技的大数据平台每日处理超过数十万个离线任务(90%以上基于 Spark)和上万个 adhoc 查询,S...
2025-01-15 18:30:56
434
转载 最佳实践 | 在 PySpark 程序中使用 Python 第三方库
PySpark 作业往往需要借助 Python 第三方库来增强数据处理和分析能力。本文详细介绍了如何利用 Conda 和 PEX 这两种方法,有效地将这些库集成到 Serverless Spark 环境中,确保作业在分布式计算场景下的稳定性和灵活性。01背景信息Conda 是一个跨平台的包管理和环境管理系统,它允许用户轻松创建、保存、加载和切换多个环境,每个环境都可以拥有独立的 Python 版本...
2025-01-09 08:03:25
312
原创 Celeborn Spark 集成最新进展
摘要:本文整理自阿里云基础平台开发冯明潇老师在11月15日 Apache Spark & Paimon Meetup,助力 Lakehouse 架构生产落地上的分享。本文从 Celeborn 的核心设计和关键机制等方面详细介绍了 Celeborn Spark 集成最新进展,解决了现有 Shuffle 局限性,显著提升了大数据引擎的性能、稳定性和灵活性。EMR Serverless Spar...
2025-01-02 08:30:43
1532
原创 基于 Paimon x Spark 采集分析半结构化 JSON 的优化实践
摘要:本文整理自阿里巴巴 A+ 数据湖架构师康凯老师和 Paimon PMC Member 毕岩老师在11月15日 Apache Spark & Paimon Meetup,助力 Lakehouse 架构生产落地上的分享。文章介绍了阿里巴巴 A+ 业务基于 Variant 类型的 JSON 链路优化,并从技术原理层面深入剖析了 Variant 及 Paimon 在半/非结构化的演进。Ap...
2024-12-25 08:03:07
1519
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅