Apache Spark中国社区-CSDN博客

转载阿里云 EMR Serverless Spark AI Function 多模态能力介绍与智驾场景图片理解实践

该方案将传统依赖人工标注的高成本流程转化为高效的自动化 ETL 流水线，不仅实现了秒级的高分辨率图片分析，还通过结构化输出验证了其在处理非标准视觉特征时的准确性，为智驾研发中的数据闭环提供了极具价值的智能清洗引擎参考。EMR Serverless Spark 的 AI Function 不仅内置了 Qwen（通义千问）系列模型，还通过统一的模型服务注册机制，支持接入外部主流模型，包括 PAI-EAS、DeepSeek、KIMI、GLM、MiniMax 等系列，覆盖了当前市场上最主流的大模型生态。

2026-05-07 14:17:31 76

转载阿里云 EMR Serverless Spark 发布 Agent Skill：让自然语言驱动 Spark 任务与资源管理

如今的技术圈仿佛按下了倍速键：上周我们还在热议多模态大模型的边界，这周 Agent 架构已成标配，转眼之间，“OpenClaw”又成了极客们手中的新宠。在 EMR Serverless Spark 的世界里，我们没有时间争论一只“虾”是否过时，因为我们正忙着将它处理、加工，并端上企业级数据处理的盛宴。现在，场景变成了这样：“提交一个 PySpark 作业，名字叫‘user-agg’，代码在 OSS 的 bucket 里，给我开 4 个 Executor，内存大一点。更有趣的是它的反馈机制。

2026-04-22 18:30:50 52

转载 EMR Serverless Spark 推出 Spark 4.0，加速湖仓架构下的数据处理升级

这是 Spark 项目自诞生以来变化最大的一次版本升级——全新的 VARIANT 数据类型、原生 SQL UDF、重新设计的基础设施架构、以及对 Python 生态的全面增强。阿里云 EMR Serverless Spark 当前已适配 Spark 4.0 ，企业用户可直接在生产环境使用这些能力，无需自建集群、无需手动升级、无需担心兼容性。对于数据湖上的 JSON 密集型工作负载，Paimon Variant 配合 Spark 4.0 的 VARIANT 类型，提供了业界领先的存储 + 计算方案。

2026-04-20 18:30:44 33

转载 EMR Serverless Spark 携手 PAI/百炼，开启“SQL 即 AI”的新篇章

对于技术团队而言，现在的重点不再是“如何构建一个能调用 AI 的系统”，而是“如何利用现有的数据资产，通过最简单的接口，快速验证 AI 带来的业务价值”。通过注册 PAI-EAS 服务为外部模型源，EMR Serverless Spark 能够在确保“数据不出域”的前提下，直接于计算流程中调用专属模型，实现便捷、高效的安全风控处理。这种架构的特点是：数据无需离开安全的 VPC 环境，直接在湖仓内部完成推理，既满足了严格的合规要求，又享受了 Serverless Spark 弹性计算带来的极致性能。

2026-03-24 18:31:44 32

转载 Celeborn 如何让 EMR Serverless Spark 的 Shuffle 舒心、放心、安心

正在运行的作业，当数据达到 Partition 的 Split 阈值后，会自动通过 Lifecyclemanager 向新加入的 Worker 申请资源，将后续数据写入新的 Worker。同时，监控也会显示 Celeborn 集群的节点状态——总节点数与正在使用的节点数的差异，反映出集群是否处于扩容、缩容或升级状态。当单个 Partition 文件的大小超过配置的阈值时，Lifecyclemanager 会自动向 Celeborn 集群申请新的资源，将同一个 Partition 的后续数据写入新的文件。

2026-03-20 18:31:30 38

转载阿里云 EMR Serverless Spark TPC-DS 100T 榜首背后的内核技术

EMR StarRocks、Spark 湖仓挑战开启，在 DLF（Paimon）极速运行 TPC 查询，完成任务即领阿里云帆布袋，前55位加赠：定制双肩包*5，小背包*5，StarRocks 定制颈枕*15，足球淘公仔自制*30，数量有限，按照顺序先领先得。周克勇，阿里花名"一锤"，阿里巴巴计算平台事业部 EMR 团队技术专家，大数据领域技术爱好者，对 Spark 有浓厚兴趣和一定的了解，目前主要专注于 EMR 产品中开源计算引擎的优化工作。融合的新时代，它正成为企业构建下一代智能数据基础设施的核心引擎。

2026-02-13 12:00:21 69

转载淘宝闪购基于阿里云 EMR Serverless Spark&Paimon 的湖仓实践：超大规模下的特征生产&多维分析双提效

DV 引入了新的机制：写入时记录被删除的数据，读取时过滤。在淘宝闪购上线以来的这一段时间内，业务不断在创造一个又一个峰值，用户活跃度和订单量级都屡创新高，在这背后，数据团队始终以 “稳定、高效、智能” 为准则，在湖仓一体架构的基础上，深度融合流计算与批处理能力，构建起一套高弹性、低延迟、强一致的数据处理体系，作为核心计算引擎，阿里云 EMR Serverless Spark 在湖仓一体架构中扮演了关键角色，在湖仓流计算和批计算的共同加持下抗住了业务的压力，同时越来越多的业务场景应用快速落地。

2026-02-03 18:31:18 65

转载双擎湖仓免费体验：EMR Serverless StarRocks × Serverless Spark x DLF 共探 TPC 极致性能

2025 年 9 月，阿里云 EMR 在全球数据仓库性能及性价比排行榜中斩获两项全球冠军：在“数据分析”性能测试 TPC-H 榜单中，阿里云 EMR Serverless StarRocks （Stella 1.2.0 内核）以 QphH 超 754万分的性能结果斩获全球冠军，在“决策支持类”性能测试 TPC-DS 榜单中，阿里云 EMR Serverless Spark （Fusion 2.0 内核）结合 DLF 以 QphDS 超 6568万分的性能结果斩获全球冠军，性能和性价比分别。

2026-01-22 18:31:30 61

转载迅雷基于阿里云 EMR Serverless Spark 实现数仓资源效率与业务提升

对迅雷而言，这意味着计算资源不再被固定集群容量所束缚，峰值时能够按需获得足够的内存与并发能力去承接批处理窗口、突发任务或临时分析，从而显著降低排队、拥塞与“顶格运行”的风险，让作业完成时间与交付节奏更可控。一方面能复用 Driver/Executor 资源，避免容器启动延迟，提供秒级查询，另一方面利用 Spark 的动态资源伸缩，闲时及时释放资源，避免浪费，从而提供高性价比的交互式分析能力。同时，由于集群版本偏低，在业务用量增长后更易触发开源缺陷，导致稳定性下降，且难以原地升级。

2026-01-05 18:30:59 85

转载参会指南｜Apache Spark Meetup · 上海站

此外，活动特别邀请来自阿里云、AMD、流利说的行业专家，分享实战场景下，高效、智能的数据处理解决方案。通过此次 Meetup，企业不仅能够全面了解 EMR Serverless Spark 的技术优势和应用场景，还能深入掌握其与 DataWorks 和 AMD 技术的协同价值，为企业在数据驱动的业务场景中构建高效、智能的数据平台提供重要参考与实践指导。无法来到现场的开发者也不用担心，本次 Meeup 提供线上直播，无论身处何地，都能实时参与，探索行业创新实践。将发送短信提醒，请按指引完成实名认证。

2025-12-19 16:20:40 80

转载＜span class=“js_title_inner“＞参会指南｜Apache Spark Meetup · 上海站＜/span＞

此外，活动特别邀请来自阿里云、AMD、流利说的行业专家，分享实战场景下，高效、智能的数据处理解决方案。通过此次 Meetup，企业不仅能够全面了解 EMR Serverless Spark 的技术优势和应用场景，还能深入掌握其与 DataWorks 和 AMD 技术的协同价值，为企业在数据驱动的业务场景中构建高效、智能的数据平台提供重要参考与实践指导。无法来到现场的开发者也不用担心，本次 Meeup 提供线上直播，无论身处何地，都能实时参与，探索行业创新实践。将发送短信提醒，请按指引完成实名认证。

2025-12-19 16:20:40 35

转载活动报名 | Apache Spark Meetup · 上海站，助力企业构建高效数据平台

同时，DataWorks 高级技术专家也将亲临现场，详细解读其与 EMR Serverless Spark 的深度协同能力，为企业提供更高效、更智能的数据处理解决方案，以及如何结合 DataWorks 的多源数据高效入湖与智能化调度方案，实现从非结构化数据采集、存储、治理到分析应用的全生命周期管理闭环。此次夺冠不仅彰显了 EMR Serverless Spark 在超大规模数据处理场景中的卓越性能，更体现了其在极致性能与成本控制之间实现高效平衡的技术实力。点击“阅读全文”立即报名！阿里巴巴徐汇滨江园区。

2025-12-10 12:00:18 71

转载 Fusion 引擎赋能：七猫如何使用阿里云 EMR Serverless Spark 实现数仓加速

相比传统 Yarn 集群，Serverless Spark 不仅具备更强的弹性能力和更低的资源使用成本，通过 Fusion + Celeborn 的优化，更是实现了计算效率与资源性价比的双重提升。传统模式已无法支撑“按需响应、准时交付”的现代数据服务要求，并且原先基于实例级别的资源交付方式，在潮汐时存在浪费。通过接入 EMR Serverless Spark 官方提供的 spark-submit 工具进行数仓调度，该工具100%兼容开源 spark-submit 工具，为数仓的整体迁移提供了巨大的便利。

2025-12-05 18:47:12 79

转载云栖实录｜从“开源开放”走向“高效智能”：阿里云 EMR 年度重磅发布

更进一步，EMR Serverless Spark 凭借 Fusion 2.0 登顶 TPC-DS 100TB 世界榜单，相较 Databricks 2021 年纪录，性能提升 100%，性价比提升 500%，充分验证了其在超大规模数据湖分析中的领先优势。尤为突出的是，EMR Serverless StarRocks 凭借 Stella 内核登顶 TPC-H 10TB 世界性能榜单，相较第二名性能提升 111%，性价比提升 90%，数据加载效率提升 6200%。金融、零售、制造等众多行业的公有云客户。

2025-10-20 18:29:46 87

转载两项世界第一！阿里云登顶全球数据仓库性能及性价比排行榜

EMR Serverless Spark是一款面向Data+AI的高性能数据湖产品，内置最新升级的Fusion 2.0内核，可为企业提供任务开发、调试、调度和运维等一站式的数据平台服务，极大地简化了数据处理、即席分析和模型训推的全流程。TPC-H Benchmark同样是数据仓库领域权威测试标准之一，其主要考察系统处理查询的多方面能力，包括数据规模的大小、串行提交时的Query延迟、多租户并行提交时的Query吞吐等，是代表产品的综合性能的重要指标。

2025-09-30 17:30:25 127

转载＜span class=“js_title_inner“＞两项世界第一！阿里云登顶全球数据仓库性能及性价比排行榜＜/span＞

EMR Serverless Spark是一款面向Data+AI的高性能数据湖产品，内置最新升级的Fusion 2.0内核，可为企业提供任务开发、调试、调度和运维等一站式的数据平台服务，极大地简化了数据处理、即席分析和模型训推的全流程。TPC-H Benchmark同样是数据仓库领域权威测试标准之一，其主要考察系统处理查询的多方面能力，包括数据规模的大小、串行提交时的Query延迟、多租户并行提交时的Query吞吐等，是代表产品的综合性能的重要指标。

2025-09-30 17:30:25 28

转载＜span class=“js_title_inner“＞两项世界第一！阿里云登顶全球数据仓库性能及性价比排行榜＜/span＞

EMR Serverless Spark是一款面向Data+AI的高性能数据湖产品，内置最新升级的Fusion 2.0内核，可为企业提供任务开发、调试、调度和运维等一站式的数据平台服务，极大地简化了数据处理、即席分析和模型训推的全流程。TPC-H Benchmark同样是数据仓库领域权威测试标准之一，其主要考察系统处理查询的多方面能力，包括数据规模的大小、串行提交时的Query延迟、多租户并行提交时的Query吞吐等，是代表产品的综合性能的重要指标。

2025-09-30 17:30:25 32

转载云栖2025｜阿里云开源大数据发布新一代“湖流一体”数智平台及全栈技术升级

在AI融合领域，阿里云通过 Spark + DLF 全模态湖仓实现文本、音频、视频等多模态数据的统一治理与AI模型训练，而 Flink + Milvus + LLM 构建的实时智能分析决策系统，则支持舆情分析、直播监控等场景的毫秒级AI决策。在企业级治理能力方面，覆盖存储、计算、开发、安全多维度，事前、事中、事后等全方位治理能力；，在支持 Paimon、Iceberg 等主流湖表格式的基础上，将存储格式从传统结构化数据，拓展至全模态数据场景，支持面向 AI 场景的 Lance 文件数据、表格数据等全类型。

2025-09-29 12:00:25 231

转载＜span class=“js_title_inner“＞云栖2025｜阿里云开源大数据发布新一代“湖流一体”数智平台及全栈技术升级＜/span＞

在AI融合领域，阿里云通过 Spark + DLF 全模态湖仓实现文本、音频、视频等多模态数据的统一治理与AI模型训练，而 Flink + Milvus + LLM 构建的实时智能分析决策系统，则支持舆情分析、直播监控等场景的毫秒级AI决策。在企业级治理能力方面，覆盖存储、计算、开发、安全多维度，事前、事中、事后等全方位治理能力；，在支持 Paimon、Iceberg 等主流湖表格式的基础上，将存储格式从传统结构化数据，拓展至全模态数据场景，支持面向 AI 场景的 Lance 文件数据、表格数据等全类型。

2025-09-29 12:00:25 61

转载阿里云携手海信聚好看构建开源云原生大数据平台最佳实践

在落地实践中，利用 Paimon 与开源 Spark、StarRocks 大数据生态技术栈开放融合的优势，借助 Serverless Spark 先进技术栈，通过 Spark Streaming 技术，快速实现了实时数据入湖的链路，用 Paimon 格式重构了 ODS 层存储机制，实现了亿级设备数据分钟级入湖，实时可查可用，极大提升了数据新鲜度。然而，现有大数据平台基于经典的 Lambda 架构构建，ETL 链路以批处理为主，数据更新时效普遍为小时级，严重制约了业务敏捷性与用户体验提升。

2025-09-22 18:31:11 340

转载 2025云栖大会·大数据AI参会攻略请查收！

技术分享及动手实践，覆盖大模型、AIGC、大数据 AI 一体、数据分析计算、数据开发治理、AI 搜索等多领域，期待与您在云栖小镇相聚，一同探索“阿里云智能集团计算平台事业部负责人汪军华，带来大数据 AI 平台年度发布，解读大数据 AI 平台各款产品的重大功能升级。9月24日下午 14:20-15:10。2025云栖大会·大数据AI。大数据 + AI 无限可能。议程已定，只等你来！

2025-09-18 18:00:55 197

转载＜span class=“js_title_inner“＞2025云栖大会·大数据AI参会攻略请查收！＜/span＞

技术分享及动手实践，覆盖大模型、AIGC、大数据 AI 一体、数据分析计算、数据开发治理、AI 搜索等多领域，期待与您在云栖小镇相聚，一同探索“阿里云智能集团计算平台事业部负责人汪军华，带来大数据 AI 平台年度发布，解读大数据 AI 平台各款产品的重大功能升级。9月24日下午 14:20-15:10。2025云栖大会·大数据AI。大数据 + AI 无限可能。议程已定，只等你来！

2025-09-18 18:00:55 29

转载 Community Over Code Asia 2025 专题介绍之 Data Storage & Computing

大数据也是 ASF 非常重要的组成部分，ASF 有非常多的大数据存储和计算领域的项目，比如大家熟知的 Apache Hadoop, Apache Spark, Apache HBase, Apache Ozone, Apache CarbonData, Apache Cassandra, Apache ZooKeeper 等等，在这个主题中，大家会学习到这些技术的前沿趋势和来自一线用户的实践经验、原理、架构分析等精彩内容。每个数据库来自不同的供应商，需要专门的技能集，并且具有独特的备份和故障恢复流程。

2025-07-16 18:00:21 274

转载阿里云 EMR Serverless Spark：面向 Data+AI 的高性能 Lakehouse 产品

摘要：本文整理自阿里云 EMR Serverless Spark 产品专家玄橙老师在用户钉群的直播分享。从业务痛点、产品定位、产品介绍以及客户案例四个部分详细介绍了 EMR Serverless Spark 产品。EMR Serverless Spark 用户钉群：58570004119EMR Serverless Spark 是一款面向 Data+AI 的高性能 Lakehouse 产品。它为企业提供了一站式的数据平台服务，包括任务开发、调试、调度和运维等，极大地简化了数据处理和模型训练的全流程。同时，它

2025-07-10 12:00:35 264

转载一体系数据平台的进化：基于阿里云 EMR Serverless Spark 的持续演进

其次，通过 Serverless Spark 构建了数仓经典分层架构，95%的数据源采用 DataWorks 数据集成的实时入湖（ODS），经过清洗转化为明细数据（DWD），然后根据主题将明细层数据轻度聚合（DWS），再根据特定应用或业务场景提供高质量的指标数据（ADS），为上层业务系统提供支持。在 ML/AI 应用方面，一体系通过 DataWorks 调度 Spark 任务，进行数据的计算和聚合，处理后的指标数据从数据湖推送到了 AI 知识库，推动了 Data + AI 技术在实际业务中的应用。

2025-06-10 08:00:23 223

转载 Fusion 引擎赋能：流利说如何用阿里云 Serverless Spark 实现数仓计算加速

数据存储阿里云 OSS ，提供高可靠、低成本的对象存储。该场景同样是在 Airflow 中调度提交任务到 EMR Serverless Spark，由于增量数据可能会有周期性变化，借助于 Serverless 的弹性伸缩能力，可显著提高资源利用率，避免资源浪费，相比于之前半托管集群的定时弹性伸缩更加稳定和流畅。流利说是领先的科技驱动的教育公司，公司自主研发了领先的英语口语评测、写作打分引擎和深度自适应学习系统，致力于为用户提供一整套系统性的英语学习解决方案，从听、说、读、写多个维度提升用户的英语水平。

2025-05-29 17:34:43 144

转载开源大数据平台 Data+AI 场景经典案例合集（文末有礼）

用友畅捷通基于 EMR StarRocks 搭建实时湖仓，通过其高性能查询、物化视图优化、流批一体能力，支撑实时大屏、BC 一体化报表及用户画像等场景，替代 ClickHouse 等分散方案后，解决了历史系统回写效率低、数据孤岛严重、技术架构分散等问题，解决了查询性能瓶颈，统一了技术栈，同时满足了业务实时数据分析需求。喜马拉雅大数据全面上云架构升级后，实现了秒级弹性伸缩，减少了数万张表，任务性能提升40%以上，即席查询性能提升30%以上，大幅提升了数据的时效性和开发效率。

2025-05-12 18:00:28 817

转载立马耀：通过阿里云 Serverless Spark 和 Milvus 构建高效向量检索系统，驱动个性化推荐业务

接着，使用Serverless Spark的计算能力，调用机器学习模型服务，将商品标题转换为向量表示。通过构建数据接口，Milvus中的数据可以对外提供查询服务，用户可以通过该接口输入一个商品或其特征，系统将返回相似商品的列表。它为企业提供了一站式的数据平台服务，包括任务开发、调试、调度和运维等，极大地简化了数据处理和模型训练的全流程。为了应对新的业务挑战，蝉妈妈选择与阿里云合作，利用其 Serverless Spark & Milvus，构建了符合业务场景和分析师习惯的工程解决方案。

2025-04-24 16:00:35 580

转载鹰角网络：EMR Serverless Spark 在《明日方舟》游戏业务的应用

在离线调度方面，我们实施了两种策略一种引擎，一是使用 Airflow 服务支持有代码基础的研发用户，同时为普通数据分析师和数仓研发提供了 DolphinScheduler 服务，这两种调度系统都实现了对 EMR Serverless Spark 的对接，满足平台服务的灵活性。数据也应用于算法团队进行业务探索与数据科学分析。通过这一系列技术栈的优化，我们不仅优化了数据管理和分析流程，还有效支持了公司的全球化战略和业务扩展，目前我们已经在海外基于 EMR Serverless Spark 搭建类似数据架构。

2025-04-15 12:00:16 379

转载百观科技基于阿里云 EMR 的数据湖实践分享

百观数据平台，主要面向数据工程师、数据分析师和数据科学家，其业务场景以数据的即席分析为主，以定时调度任务为辅，并提供简单易读的 OLAP 查询，覆盖数据接入、数据清洗、数据分析与聚合、数据交付全流程。在保留开箱即用的基础上，EMR 为用户提供了高度定制化的选项，除了内置软件的参数均可调整之外，对于有能力的用户，可以深入 EMR 集群的系统内部做更自由的开发，以满足复杂且多样的生产需求。百观以全域数据为基础，通过客观科学的数据分析，解锁数据价值，为客户提供具有现实指导意义的洞察和解决方案。

2025-04-02 08:00:44 186

转载最佳实践 | 在 Notebook 中使用 Python 第三方库

三种方式均能帮助您实现这一目标，建议根据实际情况选择最适合的方式。中填写库的名称及版本，不指定版本时，默认安装最新版本。(链接：https://x.sm.cn/6YT3CJ3)下拉列表中选择前一步骤创建的运行环境，单击。在编辑会话之前，您需要先停止会话。在编辑会话之前，您需要先停止会话。第三方库处理数据的场景，例如使用。单元格中，输入以下命令，然后单击。单元格中，输入以下命令，然后单击。页面，单击目标工作空间名称。页面，单击目标工作空间名称。在使用该方式时，需确保已安装。第三方库，其开源许可证请参见。

2025-03-20 08:03:04 199

空空如也

空空如也