ETL
橘子汽水不加冰
这个作者很懒,什么都没留下…
展开
-
MYSQL 系统数据字典
查询mysql所有表数据、字段信息SELECT * FROM information_schema.`TABLES` WHERE TABLE_SCHEMA = 'xxx';根据库名获取所有表名称和表说明SELECT TABLE_NAME, TABLE_COMMENTFROM information_schema.`TABLES`WHERE TABLE_SCHEMA = 'xxx';根据库名获取所有的字段信息SELECT TABLE_SCHEMA AS '库名', T原创 2021-10-28 10:35:28 · 895 阅读 · 0 评论 -
hive 自定义UDF函数解析HTML
解析HTML 函数实现方式: 1,引入JSOUP包,解析HTML。 2,引入JEXL包,实现自动化解析JSOUP参数。 3,通过解析HTML,返回字符串通过UDF函数返回出来 4,通过HIVE创建函数并测试使用。JSOUP包maven依赖如下: <dependency> <!-- jsoup HTML parser library @ https://jsoup.org/ --> &l...原创 2021-08-13 15:00:58 · 3496 阅读 · 0 评论 -
ETL,数据搬迁。
实现ETL,首先要实现ETL转换的过程。体现为以下几个方面:1、空值处理:可捕获字段空值,进行加载或替换为其他含义数据,并可根据字段空值实现分流加载到不同目标库。2、规范化数据格式:可实现字段格式约束定义,对于数据源中时间、数值、字符等数据,可自定义加载格式。3、拆分数据:依据业务需求对字段可进行分解。例,主叫号 861082585313-8148,可进行区域码和电话号码分解。4、...原创 2019-01-05 18:04:34 · 342 阅读 · 0 评论 -
ORACLE优化原理
ORCLE优化原理 , 解析SQL过程T-SQL在查询各个阶级分别干了什么:(1)FROM 阶段FROM阶段标识出查询的来源表,并处理表运算符。在涉及到联接运算的查询中(各种join),主要有以下几个步骤: a.求笛卡尔积。不论是什么类型的联接运算,首先都是执行交叉连接(cross join),求笛卡儿积,生成虚拟表VT1-J1。b.ON筛选器。这个阶段对上个步骤生成的VT1-J1进行筛选,根据ON子句中出现的谓词进行筛选,让谓词取值为true的行通过了考验,插入到V...原创 2020-06-08 20:53:48 · 217 阅读 · 0 评论