简介: SPARK+AI SUMMIT 2020中文精华版线上峰会将会带领大家一起回顾2020年的SPARK又产生了怎样的最佳实践,技术上取得了哪些突破,以及周边的生态发展。本文是阿里巴巴高级技术专家章剑锋做的相关分享,介绍了YipitData公司基于Databricks平台搭建的分析平台。
原视频链接:https://developer.aliyun.com/live/43188
活动链接:SPARK中文峰会7月4日(二)|Ray On Spark
Spark等引擎都是作为工具被开发者使用的,而我们使用这些工具的最终目的是搭建合适的平台提供给业务方。以下是YipitData‘s Platform的相关介绍。
一、为什么要用到平台 (Why a platform) ?
YipitData是一家咨询公司,其客户主要是投资基金以及财富五百强中的一些公司。该公司通过自己的数据产品进行分析,提供给客户相应的数据分析报告。YipitData的主要产出方式和赚钱方式就是做数据分析,其公司内部有53个数据分析师,却只有3个数据工程师。数据分析的基础是数据,所以对于该公司来说大数据分析的平台是非常重要的。
二、平台中有什么 (What is in our platform) ?
YipitData公司希望通过他们自己的数据分析平台能够让数据分析师不需要付出太大的成本就完成数据分析的任务,也就是Own The Product,而这个过程主要包括如下图所示的Data Collection、Data Exploration、ETL Workflows和Report Generation四个阶段。

上面我们提到YipitData公司的人员主要包括数据分析师和数据工程师,其中数据分析师来分析数据并且提供基于数据的问题解答和分析报告,数据工程师来给数据分析师提供数据和分析数据的平台。

本文介绍了YipitData如何利用Databricks构建数据分析平台,包括数据获取、表实用程序、集群管理和ETL流程自动化。平台旨在使数据分析师能高效进行数据分析,减少技术门槛。Databricks的Workspace和Python Library封装简化了操作,同时通过Airflow自动化ETL流程。
最低0.47元/天 解锁文章
145

被折叠的 条评论
为什么被折叠?



