MaxCompute Studio简介
MaxCompute Studio在IntelliJ IDEA的基础上提供以下功能:
- SQL编辑器(SQL Editor):提供SQL语法高亮、代码补全、实时错误提示、本地编译、作业提交等功能。
- 项目空间浏览器(Project Explorer):连接MaxCompute项目空间,浏览项目空间表结构、自定义函数、资源文件。
- 作业浏览器(Job Explorer):浏览、搜索MaxCompute的历史作业信息。
- MaxCompute控制台(MaxCompute Console):集成了MaxCompute客户端,可以输入和执行MaxCompute客户端命令。
- Studio集成了MaxCompute Tunnel工具,可以支持本地数据的上传和下载,更多详情请参见导入并导出数据。等。
更多MaxCompute Studio的介绍见:认识MaxCompute Studio。
MaxCompute Studio开发环境的构建具体可以见文章:MaxCompute基础开发环境搭建 。
常用功能使用
- MaxCompute Studio相关设置
- MaxCompute Studio开发界面
- 连接MaxCompute客户端
- 管理MaxCompute数据和资源
- MaxCompute SQL的开发、编译与执行
- 使用MaxCompute Studio开发Java程序
MaxCompute Studio相关设置
打开MaxCompute Studio的设置页面。Mac环境下位于: IntelliJ IDEA > Perferences,如下:
针对这里的SQL的设置中,编译器模式可选:单句模式或脚本模式。其区别在于:
- 单句模式(Statement Mode):在该模式下,编译器将SQL文件中的单条语句作为单元进行编译、提交。
- 脚本模式(Script Mode):在该模式下,编译器将整个SQL文件作为单元进行编译、提交。 脚本模式有利于编译器和优化器最大程度地优化执行计划,提高整体执行效率。
MaxCompute Studio开发界面
MaxCompute Studio包含三个开发界面,分别是:SQL编辑器(SQL Editor),项目空间浏览器(Project Explorer)和作业浏览器(Job Explorer),显示如下:
这三个开发界面的主要功能如下:
- SQL编辑器(SQL Editor):提供SQL语法高亮、代码补全、实时错误提示、本地编译、作业提交等功能。
- 项目空间浏览器(Project Explorer):连接MaxCompute项目空间,浏览项目空间表结构、自定义函数、资源文件。
- 作业浏览器(Job Explorer):浏览、搜索MaxCompute的历史作业信息。
连接MaxCompute客户端
MaxCompute中集成了MaxCompute的客户端,可以使用如下的方式打开一个项目空间的客户端:
管理MaxCompute数据和资源
包括查看表和函数,导入导出数据和可视化管理表三个部分。
1. 查看表和函数
在Project Exploer视图中,右键单击表名,选择Show Table Detail可以查看表的详细信息:
同样可以查看UDF相应的代码:
2. 导入导出数据
MaxCompute Studio可以将CSV、TSV格式的本地数据文件导入至MaxCompute表中,也可将MaxCompute表中的数据导出到本地文件。
使用前提:
- 导入导出数据使用MaxCompute Tunnel服务,因此要求MaxCompute Studio中添加的MaxCompute项目必须开通或配置了Tunnel服务。
- 导入导出使用的账号必须具备对应的MaxCompute表操作权限。
1. 导入数据
在Project Explorer页面的table&view列表下,右键单击需要导入数据的表名,选择Import data Into table 。
配置参数说明如下:
- Input Files:导入数据文件的本地路径。
- File charset:导入数据文件的编码格式。
- Column Separator:列分隔符。
- Record Limit:最大行数。
- Size(MB) Limit:上传数据最大值。
- Error Record Limit:容错行数。
- Include Column Header:是否导入列标题。
单击OK,完成数据导入。提示Import Data Success,表示数据导入成功,可在表中查看导入的数据。
2. 导出数据
打开输入导出的界面:
数据导出时的相关配置与数据导入相同:
3. 可视化表管理
1. 新增表
在Project Explorer页面,右键单击项目下的Tables & View,选择Create a new table。
2. 修改表
在Project Explorer的table&view列表下,右键单击需要修改的表,选择Open table editor。
3. 删除表
MaxCompute SQL的开发、编译与执行
包括SQL Script文件的创建、编译SQL和执行SQL三部分。
1. SQL Script文件的创建
在创建MaxCompute Studio项目时,勾选了SQL Support:
会自动在项目中创建script目录,直接在该目录下进行创建SQL脚本文件即可:
如果已有script文件,此时的创建项目方式可参考:创建MaxCompute Script Module。
2. 编译SQL
在SQL脚本提交前,您可以根据自己的需要设置相关编译参数。MaxCompute Studio提供了丰富的功能,可以在编辑器上方的工具栏中快速设置。
设置参数主要分为以下3种:
- 编辑器模式:
- 单步模式:将提交的脚本按英文分号(;)分隔,逐条提交到MaxCompute服务端执行。
- 脚本模式:将整个脚本一次性提交到MaxCompute服务端,由服务端提供整体优化,效率更高。推荐您使用此模式。
- 类型系统:类型系统主要解决SQL语句的数据类型兼容性问题。分为以下3种类型:
- 旧有类型系统:原有MaxCompute的类型系统。即MaxCompute 1.0数据类型版本。
- MaxCompute 类型系统:MaxCompute 2.0引入的新的类型系统。即MaxCompute 2.0数据类型版本。
- Hive 类型系统:MaxCompute 2.0引入的Hive兼容模式下的类型系统。即Hive兼容数据类型版本。
- 编译器版本:
- 默认编译器:稳定版本。
- 实验性编译器:包含编译器最新特性。
3. 执行SQL
在SQL任务运行前,IDEA会向您提示预估的SQL费用。确认费用后,在Confirmation对话框中,单击OK。
执行完毕后,结果显示形式如下:
使用MaxCompute Studio开发Java程序
这部分内容比较多,包含:
- 开发UDF:MaxCompute Studio开发Java UDF最佳实践
- 开发MapReduce
- 查询非结构化数据
- 开发Graph