手把手教数据仓库建设dataworks(小白版)

阿里云数据仓库体系

目前构建数据仓库的技术主要为开源框架,像Hadoop,hive,kafka,flink,spark等等,如果自己从0到1去搭建整个数据仓库工作量比较大,且对于性价比不高,故我们采用现成的阿里云提供的数据仓库,阿里云技术框架如下:

阿里云产品介绍类比
DataHub数据总线Kafka+datax
E-MapReduce开源大数据计算框架上面所说的从0到1用开源框架去搭建数据仓库,适用于已搭建了数据仓库的公司进行改造升级。
MaxCompute阿里黑盒大数据计算框架E-MapReduce差不多,但是其主要是阿里自己研发的,相当于一个黑盒,即开即用,适合没有搭建过数据仓库的公司使用。
DataWorks可视化的开发管理平台相当于我们之前海度系统
RDS关系型数据库MySQL
QuickBI,datav可视化数据展示工具Tableau,Echarts,powerbi,帆软BI

我们项目的技术选型主要是:

  • 数据采集传输:datax
  • 数据存储:MaxCompute,DataWorks
  • 数据计算:MaxCompute,DataWorks
  • 数据可视化:Superset,Finebi(好像暂时没有)
  • 任务调度:DolphinScheduler
Dataworks
新手入门

由于Dataworks和maxcompute有按量计费的特性,我们可以先用自己的阿里云账号进行体验。

控制台入口:Dataworks产品入口

购买体验

可以通过支付宝进行扫描登陆

img

建议先点击免费开通基础版和本教程一步步学,旁边免费体验的教程太快了,很难跟上。

img

然后可以进入购买页面

img

img

img

img

根据新用户引导创建工作空间

img

选择对应引擎,我们项目采用的是maxcompute,我们可以点击购买

img

购买maxcompute

按量计费购买

img

img

img

然后我们返回dataworks的页面选择引擎,这时我们可以看到maxcompute的按量计费可以选择

img

接着我们给引擎命名,同时确认创建工作空间。

img

我们选择刚刚创建的工作空间,选择数据开放,就可以进入dataworks的开发页面

img

DataStudio操作

DataStudio是DataWorks上进行数据开发的核心模块,支持开发离线、实时的任务。

新用户会有操作向导,进行教学,可以先跟着向导学一遍,然后再看本教程。

img

img

但是向导的配图可能和当前操作环境不一致,可以直接看本教程。

数据仓库分层命名规范

ODS层命名为ods_表名

DWD层命名为dwd_表名

DWS层命名为dws_表名

DWT层命名为dwt_表名

ADS层命名为ads_表名

临时表命名为tmp_表名

建立业务流程

1)点击数据开发->业务流程->新建业务流程->输入业务名称

img

2)在业务流程下面就可以看到体验测试业务1

img

配置表主题

1)进入配置中心

点击最下方的齿轮,进入配置中心

img

img

2)配置主题管理,这里主要是划分表的主题

主题一般是表的对应的业务主题,比如:基础表、用户、课程、广告等对应的业务线。

img

依次添加

img

配置表层级

img

img

在同一页面中,DataWorks 还提供了一个物理分类的划分维度,用户可以根据情况自行决定划分方式。

由于客户端上报的数据,经过阿里云的 logstore,到达oss, 服务端数据目前使用 datax,对数据表按照数据来源划分为:客户端日志和服务端数据库。

建表语句

1)回到数据开发的界面,按下图开始创建数据表

img

img

设置基本属性和物理模型

img

手工文件导入的表可以选择非分区。 为了减少再购买存储服务器,所以选择内部表。真实开发时,大部分情况都是创建外部表,需要在 OSS 服务中申请存储空间。

发送过来的日志包含两部分:服务器时间和日志详情。这里面设计了两个字段对应接收。

img

这里的主键,是指一个标志而已,本身不提供索引和唯一性约束。

点击 DDL 模式,可以查看自动生成的建表语句。和普通的创建表语句一样。

img

img

然后取消,点击提交到生产环境,表就创建完成了。

img

表的基本操作

在最左侧菜单中选择【表管理】,可以在右侧查看表的结构信息。但是不可以修改。

img

按数据仓库分层管理表

1)在体验测试业务1中建 ods、dwd、dws、ads,4 个文件夹

img

img

将ods_base_log拖拽到ods文件夹中

img

然后需要刷新才能看见表移动到了ods文件夹了

临时查询

1)点击临时查询->新建->ODPS SQL

img

2)创建临时节点

img

3)可以执行 SQL 命令

img

可以看到我们没有数据所以我们可以先去导入两条数据

img

img

我们在本地电脑中新建一个log_base.csv

内容如下:

202204131756,日志:没有bug的一天

202204131758,日志:因为没有写代码

img

img

img

然后我们再回去临时表查询

img

可以看到查询出了结果

  • 9
    点赞
  • 35
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
一、项目简介 本项目教程以国内电商巨头实际业务应用场景为依托,同时以阿里云ECS服务器为技术支持,紧跟大数据主流场景,对接企业实际需求,对电商数仓的常见实战指标进行了详尽讲解,让你迅速成长,获取最前沿的技术经验。 二、项目架构 本框架:Flume、DateHub、DataWorks、MaxCompute、MySql以及QuickBI等; Flume:大数据领域被广泛运用的日志采集框架; DateHub:类似于传统大数据解决方案中Kafka的角色,提供了一个数据队列功能。对于离线计算,DataHub除了供了一个缓冲的队列作用。同时由于DataHub提供了各种与其他阿里云上下游产品的对接功能,所以DataHub又扮演了一个数据的分发枢纽工作; 据上传和下载通道,提供SQL及MapReduce等多种计算分析服务,同时还提供完善的安全解决方案; DataWorks:是基于MaxCompute计算引擎,从工作室、车间到工具集都齐备的一站式大数据工厂,它能帮助你快速完成数据集成、开发、治理、服务、质量、安全等全套数据研发工作; QuickBI & DataV:专为云上用户量身打造的新一代智能BI服务平台。 三、项目场景 数仓项目广泛应用于大数据领域,该项目技术可以高度适配电商、金融、医疗、在线育、传媒、电信、交通等各领域; 四、项目特色 本课程结合国内多家企业实际项目经验。从集群规模的确定到框架本选型以及服务器选型,手把手你从零开始搭建基于阿里云服务器的大数据集群。采用阿里云ECS服务器作为数据平台,搭建高可用的、高可靠的Flume数据采集通道,运用阿里云DateHub构建中间缓冲队列并担任数据分发枢纽将数据推送至阿里自主研发的DataWorks对数据进行分层处理,采用MaxCompute作为处理海量数据的方案,将计算结果保存至MySQL并结合阿里的QuickBI工作做最终数据展示。
在【小白CV】手把手你用YOLOv5训练自己的数据集(从Windows环境配置到模型部署)_梁瑛平的博客-CSDN博客.pdf中提供了详细的指导,可以帮助你学习如何使用YOLOv5训练自己的数据集。该过程包括以下步骤: 1. 数据集制作:准备自己的数据集,并进行标注和处理,生成YOLOv5所需的数据格式。 2. 环境配置:在Windows环境下安装Python环境、PyTorch和其他必要的依赖库。 3. 模型训练:使用YOLOv5提供的训练脚本进行模型训练,根据自己的硬件配置修改参数。 4. 模型测试:使用训练好的模型进行测试,评估模型在测试集上的性能。 5. 模型推理:将训练好的模型部署到实际应用中,进行目标检测。 训练好的模型会保存在yolov5目录下的runs/exp0/weights/last.pt和best.pt文件中,而详细的训练数据保存在runs/exp0/results.txt文件中。 <span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* [【小白CV】手把手你用YOLOv5训练自己的数据集(从Windows环境配置到模型部署)_梁瑛平的博客-CSDN博客....](https://download.csdn.net/download/m0_62668782/54189217)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] - *2* *3* [YOLOv5训练自己的数据集(超详细完整)](https://blog.csdn.net/demm868/article/details/122076560)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值