dataworks 下载表数据 背景:dataworks 下载只能下载10000条数据,如果表大小超出大小,需要limit 几次,或者导出到数据库,再从数据库中进行下载。 pyodps 可以通过python代码的方式操作表,这样就可以将表数据下载到文件,之后将文件通过邮件的方式发送给自己(这里还可以用来所pyodps数据推送,集成在dataworks上)邮件推送csv格式文件from odps import ODPSimport csvfrom email.mime.multipart import MIMEMultipar
dataworks 生成表血缘依赖 背景: 工作中用到了阿里云的dataworks,业务需求还没有到购买更高级的版本必要,没法查看表的血缘依赖。需要自己去实现血缘依赖。思路: maxcompute 提供Information_Schema元数据查询,可以其中TASKS_HISTORY 表,可以查询到任务执行的日志, sql任务对应的执行sql 放在了operation_text,存在执行的sql,可以通过...
dataworks 小时任务同步设置 背景: 在用dataworks的时候,有一个场景,存在任务a,b a依赖于b, b需要执行2次, 但是a不必等b二次都执行完再执行,需要执行顺序为 b->a->b。 b可以设置为小时任务,a设置为日任务b 任务配置如下: 00:10和08:10分别执行一次,调度依赖上周期,这样a任务就不用等b都执行完再执行。生成的血缘依赖如下:...
maxcompute导出到polardb 特殊符号不支持 背景从maxcompute 将数据导出到polardb, 由于string 内容中包含特殊字符,emoji符号,导致同步数据时候,自动剔除含有特殊字符的数据。问题排查方案:1数据库和客户端编码格式不一致,需先修改编码格式。 浏览器编码和数据库或客户端编码格式不一致,需先统一编码格式,然后进行数据预览。 修改数据库相关的编码格式为utf8mb4。例如,在RDS控制台修改RDS的数据库编码格式。 说明 设置RDS数据源编码格式命令:set names utf8mb4。查看RDS数据库编.
Flink之状态管理--容错--检查点 有状态的分布式流式处理流式处理流式处理简单地说就是一个无穷尽的数据源在持续的收数据,以代码作为数据处理的基础逻辑,然后输出,这就是流式处理的基本原理。分布式流式处理Stream需要做分区,设置相同的Key,并让同样的Key流到一个computition instance做相同的运算。有状态分布式流式处理代码中定义了变量X,X在数据处理过程会进行读写操作,变量X会影响最后的结果输出。比如计算每个使用者出现的次数,次数即所谓的状态。Checkpointing作..
kettle 数据库资源库 一、简介 资源库,顾名思义,是存放转换和作业脚本的地方。不是业务数据库。文件资源库: 将脚本保存在本地创建的目录中,打开资源库可以管理所有的脚本。可以解决在作业中引用其它脚本带来的路径问题,避免因不同平台(如Windows 和 Linux )中的路径分隔符不同,造成运行失败。因为脚本文件为文本文件,通过与其他版本管理工具(如 SVN 和 GIT )配合,可以管理不同版本的脚本。但是因为脚本保存在本地计算机中,只能在本地运行,不能远程调用。数据库资源库: 将脚本保存数据库中,kettle...
Hive 数据倾斜问题定位排查及解决(实际案例) 多数介绍数据倾斜的文章都是以大篇幅的理论为主,并没有给出具体的数据倾斜案例。当工作中遇到了倾斜问题,这些理论很难直接应用,导致我们面对倾斜时还是不知所措。今天我们不扯大篇理论,直接以例子来实践,排查是否出现了数据倾斜,具体是哪段代码导致的倾斜,怎么解决这段代码的倾斜。当执行过程中任务卡在 99%,大概率是出现了数据倾斜,但是通常我们的 SQL 很大,需要判断出是哪段代码导致的倾斜,才能利于我们解决倾斜。通过下面这个非常简单的例子来看下如何定位产生数据倾斜的代码。表结构描述先来了解下这些表中我
yarn 资源调度之Capacity Scheduler 什么是capacity schedulerCapacity Scheduler调度器以队列为单位划分资源。简单通俗点来说,就是一个个队列有独立的资源,队列的结构和资源是可以进行配置的,如下图:default队列占30%资源,analyst和dev分别占40%和30%资源;类似的,analyst和dev各有两个子队列,子队列在父队列的基础上再分配资源。队列以分层方式组织资源,设计了多层级别的资源限制条件以更好的让多用户共享一个Hadoop集群,比如队列资源限制、用户资源限制、用户应用程序数目限
flink on yarn Per-job模式High Availability 配置 背景:flink on yarn Per-job 模式下flink 程序会经常挂掉,直接原因是是对应节点上的 flink的 job manager 挂掉了,导致程序失败,flink的重启策略,只对于task manager生效 。 因此为保证稳定性,需要配置job manager 高可用。实现方案官方:当运行一个高可用的 YARN 集群时,我们不会运行多个 JobManager(ApplicationMaster) 实例,而是只运行一个,在失败时由 YARN 重新启动。确切的行为取决于您使用...
yarn flink,spark实时程序监控 背景: 生产上的spark和flink程序偶尔会挂掉,虽然是基于阿里云配置了邮箱告警,但是由于程序的重启策略配置,导致重启后的程序,下次挂掉不会再被监控到。所以需要手动监控yarn,实现方案yarn 提供的api, 可以访问集群yarn web ui 接口数据,对Application Type进行过滤 ,每2分钟调用api,对比前后2次运行的实时程序,判断第一次的列表是否都还存在,不存在则发送邮件1.环境配置 导入依赖,导入相关hadoop配置文件yarn-site...
Yarn 调度器Scheduler详解 理想情况下,我们应用对Yarn资源的请求应该立刻得到满足,但现实情况资源往往是有限的,特别是在一个很繁忙的集群,一个应用资源的请求经常需要等待一段时间才能的到相应的资源。在Yarn中,负责给应用分配资源的就是Scheduler。其实调度本身就是一个难题,很难找到一个完美的策略可以解决所有的应用场景。为此,Yarn提供了多种调度器和可配置的策略供我们选择。一、调度器的选择在Yarn中有三种调度器可以选择:FIFO Scheduler ,Capacity Scheduler,FairS cheduler
数据仓库如何确定主题域 什么是主题主题是在较高层次上将企业信息系统中的数据进行综合、归类和分析利用的一个抽象概念,每一个主题基本对应一个宏观的分析领域。在逻辑意义上,它是对应企业中某一宏观分析领域所涉及的分析对象。简单说,一个主题对应一个分析对象。分析对象就是在决策、分析时重点关注的东西,这个东西其实是非常主观的,在不同的企业,或者企业的不同发展时期,所关注的点会不一样,从而影响有些主题可能存在或者不存在。数据仓库是面向主题的应用,主要功能是将数据综合、归类并进行分析利用。数据仓库模型设计除横向的分层外,通常还需要根据
clickhouse实现rank,row_number,dense_rank clickhouse实现排序的开窗函数, 学习这个需要先了解clickhouse 一些函数,了解过直接跳到步骤31.数组相关函数arrayEnumerate -- 传入数组,返回序号数组,序号不重复arrayEnumerateDense -- 传入数组,返回序号数组,序号可重复arrayEnumerateUniq -- 传入数组,根据数组位置返回当前元素出现的次数SELECT arrayEnumerate([10, 20, 30,...
spark编写工具根据参数,和文件创建对应的hive表 背景 由于经常给业务做一些导数工作,他们回提供一些id,数量2000以内的时候,可以直接用in 但是记录多了,需要再hive中创建对应表,关联查询得到结果集,经常需要通过hue创建表,上传文件,为了能够偷懒,编写文件,打算实现一个功能。 通过传参方式,根据文件地址,表名称,表字段结构。生成对应的hive表。实现过程 步骤通过spark 连接hive 通过不同参数,创建所对应的表(难点) 传参中可能每次所需创建表的字段都不一样,如何动态的创建不同的表,实现方法有...