阿里云 EMR Serverless Spark 在微财机器学习场景下的应用 作者:微财技术研发经理 宋鑫微财介绍微财是一家创新型的金融科技企业,凭借多年积累的金融科技能力和数据处理优势,为客户提供消费分期等金融信息服务,致力于成为值得信赖的金融机构合作伙伴。旗下拥有好分期等品牌,为高成长用户提供信用分期借款过程中的综合性信息、技术以及辅助服务。业务挑战数据资源是金融科技企业的核心价值,微财依托大数据评估用户借款过程中的风险,随着微财业务的快速发展,积累了大量用户数据...
阿里云 EMR 发布托管弹性伸缩功能,支持自动调整集群大小,最高降本60% 开源大数据平台 E-MapReduce(简称“EMR”)是云原生开源大数据平台,为客户提供简单易集成的 Hadoop、Hive、Spark、StarRocks、Flink、Presto 等开源大数据计算和存储引擎。EMR on ECS 是指 EMR 在 ECS 上运行的方式。EMR on ECS 将 EMR 的大数据处理功能与ECS的容器化部署优势相结合,使得您可以更加灵活地配置和管理 EMR 集...
奇富科技基于 Celeborn 优化 Spark Shuffle 实践 引言:在大数据处理中,Shuffle 机制是计算组件的核心,负责将数据导向正确的处理节点,其设计直接影响任务执行效率和资源利用率。从 MapReduce 到 Spark,Shuffle 机制的进化不仅体现了大数据技术的进步,也凸显了优化 Shuffle 以应对大规模集群挑战的重要性。背景奇富科技的大数据平台每日处理超过数十万个离线任务(90%以上基于 Spark)和上万个 adhoc 查询,S...
最佳实践 | 在 PySpark 程序中使用 Python 第三方库 PySpark 作业往往需要借助 Python 第三方库来增强数据处理和分析能力。本文详细介绍了如何利用 Conda 和 PEX 这两种方法,有效地将这些库集成到 Serverless Spark 环境中,确保作业在分布式计算场景下的稳定性和灵活性。01背景信息Conda 是一个跨平台的包管理和环境管理系统,它允许用户轻松创建、保存、加载和切换多个环境,每个环境都可以拥有独立的 Python 版本...
Celeborn Spark 集成最新进展 摘要:本文整理自阿里云基础平台开发冯明潇老师在11月15日 Apache Spark & Paimon Meetup,助力 Lakehouse 架构生产落地上的分享。本文从 Celeborn 的核心设计和关键机制等方面详细介绍了 Celeborn Spark 集成最新进展,解决了现有 Shuffle 局限性,显著提升了大数据引擎的性能、稳定性和灵活性。EMR Serverless Spar...
基于 Paimon x Spark 采集分析半结构化 JSON 的优化实践 摘要:本文整理自阿里巴巴 A+ 数据湖架构师康凯老师和 Paimon PMC Member 毕岩老师在11月15日 Apache Spark & Paimon Meetup,助力 Lakehouse 架构生产落地上的分享。文章介绍了阿里巴巴 A+ 业务基于 Variant 类型的 JSON 链路优化,并从技术原理层面深入剖析了 Variant 及 Paimon 在半/非结构化的演进。Ap...
最佳实践 | 在 EMR Serverless Spark 版中实现 MaxCompute 读写操作 背景信息阿里云 EMR Serverless Spark 版[1]是开源大数据平台 E-MapReduce 基于 Spark 提供的一款全托管、一站式的数据计算平台。它为用户提供任务开发、调试、发布、调度和运维等全方位的产品化服务,显著简化了大数据计算的工作流程,使用户能更专注于数据分析和价值提炼。大数据计算服务MaxCompute(原名ODPS)是一种快速、完全托管的EB级数据仓库解决方案,致力...
vivo 湖仓离线方向的落地实践 摘要:本文整理自vivo 互联网大数据专家、Apache Paimon Committer 徐昱老师在11月15日 Apache Spark & Paimon Meetup,助力 Lakehouse 架构生产落地上的分享。文章介绍了 vivo 互联网大数据团队基于 Spark + Paimon 进行湖仓架构选型及升级的历程。详细介绍了其基于归因/拉链表、物理删除、数据拼接、查询提速等增量...
Paimon x Spark:助力企业 Lakehouse 架构升级 摘要:本文整理自 Paimon Committer邹欣宇老师在11月15日 Apache Spark & Paimon Meetup,助力 Lakehouse 架构生产落地上的分享。文章介绍了 Paimon x Spark 的发展历程,企业搭建 Lakehouse 面临的挑战,Paimon 通过分层元数据架构支持 ACID 事务,主键表通过引入 LSM Tree 结构实现实时场景分钟级时...
Paimon 流批一体存储演进 摘要:本文整理自 Paimon PMC Chair 李劲松老师在11月15日 Apache Spark & Paimon Meetup,助力 Lakehouse 架构生产落地上的分享。文章介绍了 Paimon 湖格式的演进过程,Paimon 的典型应用场景包括 Flink 流式入湖 + Spark 批查、基于 Flink+Spark+Paimon 构建 Lambda 架构等,还详细介绍了 ...
通过 Jupyter Notebook 与 EMR Serverless Spark 进行交互的最佳实践分享 阿里云 EMR Serverless Spark 版是开源大数据平台 E-MapReduce 基于 Spark 提供的一款全托管、一站式的数据计算平台。它为用户提供任务开发、调试、发布、调度和运维等全方位的产品化服务,显著简化了大数据计算的工作流程,使用户能更专注于数据分析和价值提炼。Jupyter Notebook 是一个强大的交互式开发工具,您可以在 Web 界面中即时编写和执行代码,并实时查...
倒计时1天!Apache Spark & Paimon Meetup · 北京站 ????Apache Spark&PaimonMeetup,助力 Lakehouse 架构生产落地活动时间:2024年11月15日 13:30-17:30(本周五)活动地点:北京市朝阳区阿里中心-望京A座-05F报名地址:https://hd.aliyun.com/form/5276数据工程师、分析师、技术爱好者们注意啦!本周五13:30,我们将在北京举办一场Apache Spark ...
通过 Apache Airflow 的 Livy Operator 自动化向 EMR Serverless Spark 提交任务 Apache Airflow是一个强大的工作流程自动化和调度工具,它允许开发者编排、计划和监控数据管道的执行。EMR Serverless Spark为处理大规模数据处理任务提供了一个无服务器计算环境。本文为您介绍如何通过Apache Airflow的Livy Operator实现自动化地向EMR Serverless Spark提交任务,以实现任务调度和执行的自动化,帮助您更有效地管理数据处理任...
Apache Spark & Paimon Meetup · 北京站,助力 LakeHouse 架构生产落地 活动介绍众所周知,LakeHouse 架构是当前大数据领域领先的技术架构之一。LakeHouse 由海外知名大数据公司 Databricks 提出,旨在融合数据湖的灵活性及成本效益与传统数据仓库的强大事务支持、高性能分析能力于一体,并且能够无缝集成机器学习等多种应用场景,为企业提供了更加全面的数据管理和分析平台。Apache Spark 作为近十几年来大数据领域最优秀的开源项目之一,提供了强大统一...
EMR Serverless Spark:一站式全托管湖仓分析利器 本文根据2024云栖大会实录整理而成,演讲信息如下:演讲人:李钰(绝顶) | 阿里云智能集团资深技术专家,阿里云 EMR 团队负责人活动:2024 云栖大会 -开源大数据专场01数据平台技术演变追溯数据处理软件及平台的演进历程,每一次大的架构升级与变迁都是由全球范围的新兴应用出现和落地触发的。具体来说,20世纪60-70年代数据库技术出现,数据库技术的普及和落地与个人计算机(PC)兴起的浪潮息息...
通过 Apache Airflow 向 EMR Serverless Spark 提交任务 Apache Airflow是一个强大的工作流程自动化和调度工具,它允许开发者编排、计划和监控数据管道的执行。EMR Serverless Spark为处理大规模数据处理任务提供了一个无服务器计算环境。本文为您介绍如何通过Apache Airflow实现自动化地向EMR Serverless Spark提交任务,以实现作业调度和执行的自动化,帮助您更有效地管理数据处理任务。01前提条件已安装并启动...
通过 EMR Serverless spark-submit 命令行工具进行 Spark 任务开发 摘要本文以 ECS 连接阿里云 EMR Serverless Spark 为例,介绍如何通过 EMR Serverless spark-submit 命令行工具进行 Spark 任务开发。前提条件已安装Java 1.8或以上版本。如果使用 RAM 用户(子账号)提交 Spark 任务,需要将 RAM 用户(子账号)添加至 Serverless Spark 的工作空间中,并授予开发者或开发者以上的角...
通过 EMR Serverless Spark 提交 PySpark 流任务 在大数据快速发展的时代,流式处理技术对于实时数据分析至关重要。EMR Serverless Spark提供了一个强大而可扩展的平台,它不仅简化了实时数据处理流程,还免去了服务器管理的烦恼,提升了效率。本文将指导您使用EMR Serverless Spark提交PySpark流式任务,展示其在流处理方面的易用性和可运维性。前提条件已创建工作空间,详情请参见创建工作空间[1]。操作流程步骤一:创建实时...
阿里云 EMR Serverless Spark 版正式开启商业化 阿里云 EMR Serverless Spark 版已于2024年9月14日正式商业化售卖,本文将简要介绍 EMR Serverless Spark 的产品优势、应用场景、支持地域,及计费模式等。EMR Serverless Spark 是一款云原生,专为大规模数据处理和分析而设计的全托管 Serverless 产品。该产品内置 Fusion Engine,100% 兼容开源 Spark 编程接口...
【最后三天】参加 EMR Serverless Spark 产品评测,赢机械键盘、充电宝等礼品! EMR Serverless Spark是一款云原生、专为大规模数据处理与分析而设计的全托管 Serverless Spark 计算产品。为企业提供了围绕Spark 任务的一站式开发、调试、调度以及运维等产品化服务,极大的简化了数据处理全生命周期的工作流程,使企业更加专注于数据的分析与价值提炼。现面向所有用户发出诚挚邀请,即日起至2024年7月18日,免费体验产品,并写下宝贵评测反馈,即有机会赢...