模拟 IDC spark 读写 MaxCompute 实践

最新推荐文章于 2023-06-01 11:57:34 发布

阿里云技术

最新推荐文章于 2023-06-01 11:57:34 发布

阅读量199

点赞数

文章标签： spark scala 大数据云计算阿里云

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43970890/article/details/125497054

版权

一、背景

1、背景信息

现有湖仓一体架构是以 MaxCompute 为中心读写 Hadoop 集群数据，有些线下 IDC 场景，客户不愿意对公网暴露集群内部信息，需要从 Hadoop 集群发起访问云上的数据。本文以 EMR （云上 Hadoop）方式模拟本地 Hadoop 集群访问 MaxCompute数据。

2、基本架构

二、搭建开发环境

1、EMR环境准备

（1）购买

① 登录阿里云控制台 - 点击右上角控制台选项
https://www.aliyun.com/accounttraceid=bc277aa7c0c64023b459dd695ac328b1jncu

② 进入到导航页 - 点击云产品 - E-MapReduce（也可以搜索）

③ 进入至 E-MapReduce 首页，点击 EMR on ECS - 创建集群

-- 具体购买细节参考官方文档
https://help.aliyun.com/document_detail/176795.html#section-55q-jmm-3ts

④ 点击集群ID 可查看集群的基础信息、集群服务以及节点管理等模块

（2）登录

-- 详细登录集群方式可参考官方文档
https://help.aliyun.com/document_detail/169150.html

-- 本文以登录ECS实例操作

① 点击阿里云首页控制台 - 云服务器ECS

https://www.aliyun.com/product/ecs?spm=5176.19720258.J_3207526240.92.542b2c4aSz6c39

② 点击实例名称 - 远程连接 - Workbench远程连接

2、本地IDEA准备

（1）安装maven

-- 可参考文档
https://blog.csdn.net/l32273/article/details/123684435

（2）创建Scala项目

① 下载Scala插件

② 安装 Scala JDK

-- 建议下载 *.zip 文件

-- 配置 Scala 环境变量

-- 通过 Win + R 打开 cmd 测试是否出现 Scala版本

-- 可参考文档：
https://blog.csdn.net/m0_59617823/article/details/124310663

③ 创建 Scala 项目

3、MaxCompute数据准备

（1）Project

-- MaxCompute 创建 project 可参考官方文档：
https://help.aliyun.com/document_detail/27815.html

（2）AccessKey

-- 简称AK，包括Access

最低0.47元/天解锁文章

阿里云技术

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
模拟 IDC spark 读写 MaxCompute 实践

现有湖仓一体架构是以 MaxCompute 为中心读写 Hadoop 集群数据，有些线下 IDC 场景，客户不愿意对公网暴露集群内部信息，需要从 Hadoop 集群发起访问云上的数据。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。