若叶时代-CSDN博客

转载 ETL_数据装载

②增量加载:只将新增或修改的数据导入目标数据源中,以节省加载时间和系统资源,适用于数据量较大的情况.数据加载主要是将清洗、转换后的数据导入到目标数据源中,为企业业务提供数据支持.①全量加载:将所有数据都导入目标数据源中,适用于首次加载或者数据量较小的情况.(1) 数据加载方式。

2024-06-21 22:20:01 26

key为聚合的键,value为聚合的值(设置了 AggregationType),所有的key列必须在value列之前.导入数据时,对于 Key 列相同的行会聚合成一行,而 Value 列会按照设置的 AggregationType 进行聚合.②写时合并:数据在导入阶段就会去将被覆盖和被更新的数据进行标记删除,同时将新的数据写入新的文件.在查询的时候,所有被标记删除的数据都会在文件级别被过滤掉,读取出来的数据就都是最新的数据.数据查询时,对于查询涉及到的数据,会进行对应的聚合.(3) 数据合并的场景。

2023-04-10 09:48:14 263

转载任务调度_Dolphin Scheduler

任务统计,流程状态统计.

2023-04-07 10:29:46 506

原创 Spark_优化/问题

⑤spark.default.parallelism:设置每个stage的默认task数量.④尽量避免使用shuffle类算子,如reduceByKey、groupByKey.③executor-cores:设置每个Executor的CPU数量.②executor-memory:设置每个Executor的内存.⑤使用高性能的算子,如mapPartitions替代普通map.①num-executors:设置Executor的个数.④driver-memory:设置Driver进程的内存.

2023-03-28 00:40:12 71

转载 ETL工具_Flume

原理:Source采集数据并包装成Event,Event缓存在Channel中,Sink不断地从Channel获取Event,最终将数据写入目标存储.③Sink:不断地轮询Channel中的事件,并将这些事件批量写入到存储、索引系统、或者发送到另一个Flume Agent,成功后批量移除临时数据.④Channel:缓冲数据,能同时处理多个Source的写入操作和多个Sink的读取操作.可缓冲在内存、磁盘、数据库、Kafka中.②Source:负责各种类型、各种格式的日志数据到Flume Agent.

2023-03-27 16:18:49 141

转载 ETL工具_Sqoop

(2) 原理:Sqoop接收到客户端的shell命令或者Java api命令后,通过Sqoop中的任务翻译器将命令转换为对应的MapReduce任务,而后在关系型数据库和Hadoop之间完成数据同步.(1) 概念: 一款在Hadoop和关系数据库之间传输数据的工具,可以将关系型数据库的数据导入到HDFS中,也可以将HDFS数据导出到关系型数据库中.要指定增量数据是要append(追加)还是要–merge-key(合并)(1) 基于递增列的增量数据导入。(2) 基于时间列的增量数据导入。

2023-03-26 23:47:06 56

转载 MySQL_索引

复合索引idx_列名1_列名2_列名3 等于创建了索引(列名1,列名2,列名3)、(列名1,列名2)和(列名1),因此创建时应该将最常用作限制条件的列放在最左边,依次递减.在使用组合索引的列为条件时,必须要出现最左侧列作为条件,否则索引不生效的.索引是帮助MySQL高效获取数据的数据结构,对数据库表中一列或多列的值进行排序,使用索引可快速访问数据库表中的特定信息.③text/blob 类型:只支持前缀索引,不支持整个字段建索引.基于原始索引字段,截取前面指定的字符个数或者字节数来做的索引.

2023-03-25 22:35:05 56

转载 ETL工具_Canal

(2) 监控MySQL时报错:com.alibaba.otter.canal.parse.exception.CanalParseException: java.io.IOException: connect localhost/127.0.0.1:3306 failure。(3) 解压:tar -xf canal.deployer-1.1.6.tar.gz -C /soft/canal/Canal 服务日志:canal/logs/canal/canal.log。

2022-09-25 22:41:23 402

原创 ETL工具_DataX

解决方案:将 datax/plugin/reader/mysqlreader/libs 和 datax/plugin/writer/mysqlwriter/libs 下的mysql-connector-java-5.1.34.jar 替换成 MySQL8对应的 mysql-connector-java.(1) 执行自检脚本报错:您提供的配置文件[/soft/datax/plugin/reader/._drdsreader/plugin.json]不存在. 请检查您的配置文件。③改为全量同步数据.

2022-09-23 09:33:38 508

转载 Spark_SparkStreaming

②Direct 方式:周期性地查询 Kafka,获取最新的offset,从而定义每个batch的offset的范围.使用 kafka 的简单 API ,Spark Streaming 自己负责追踪消费的 offset,并保存在 checkpoint 中.②SparkStreaming:是一个准实时计算框架,实时接受输入的数据,将数据流抽象成DStream,每个 DStream 表示的是一系列 RDD,并按照固定长度的时间段将源源不断进来的数据划分成batch,每一个batch进行一次计算.

2022-09-16 17:16:33 372

原创 Spark_SparkSQL

(1) 将 /usr/hdp/3.1.5.0-152/hadoop/conf 下的 core-site.xml 和 hdfs-site.xml 、 /usr/hdp/3.1.5.0-152/spark2/conf 下的 hive-site.xml 放入 resources下.①DataFrame:DataFrame 在 RDD 的基础上加了 Schema,每一行的类型固定为Row. DataFrame 提供了特殊的算子,还提供SQL写法,但是数据类型不安全.(3) 关闭Hive3 ACID功能.

2022-09-08 12:01:16 934

原创数据查询_Phoenix

Phoenix是构建在HBase上的一个SQL层，能让我们用标准的JDBC APIs而不是HBase客户端APIs来创建表，插入数据和对HBase数据进行查询.Phoenix查询引擎会将SQL查询转换为一个或多个HBase扫描，并编排执行以生成标准的JDBC结果集.①Hbase是区分大小写的，Phoenix 默认会把sql语句中的小写转换成大写，再建表.如果不希望转换，需要将表名，字段名等使用""(1) 插入数据(主键相同时,后面插入的会覆盖前面的,可用于修改)(1) 清空(没有truncate)

2022-09-02 15:10:03 956

转载开发工具_IDEA

③在 Setting -> Maven -> Runner 中配置 VM Options:-Dmaven.multiModuleProjectDirectory=$MAVEN_HOME.②在 Setting -> Maven 中配置 Maven home path、User settings file 和Local repository。开启代码自动换行:Settings -> Editor -> General ->Soft Wrap->Soft-Wrap these files.

2022-08-27 17:16:11 49

原创 Spark_SparkCore_RDD

Spark在集群的多个不同节点的多个任务上并行运行一个函数时,它会把函数中涉及到的每个变量,在每个任务上都生成一个副本.但有时需要在多个任务之间共享变量,或者在任务(Task)和任务控制节点(Driver Program)之间共享变量时,可使用共享变量.①血缘关系:节点之间存在直接或间接依赖关系,多个节点的依赖关系构成血缘关系,每个节点都维护着本节点的血缘关系.当程序出错时,可通过血缘关系向上追溯到有数据的节点,重新计算恢复.将一种类型的RDD转换成另一种类型的RDD.SparkCore入门编程。

2022-08-27 15:39:38 433

原创数据仓库2_数据建模_建模规范/优化

①如果数据源的数据量很大,可将数据同步到不同分区,例如时间分区.(2) DIM层:{模型层级}_{业务板块}_{主题域}_{自定义标签}.①ADS层优先调用DWS层数据,不能直接调用ODS层数据.增量表:ods_{来源数据库缩写}_源数据库表名_inc。全量表:ods_{来源数据库缩写}_源数据库表名.②各层表增加数据处理时间,取当前系统时间.①字段值按最小单位保存,如时间保留到秒.②通过增加汇总表,减少数据的动态汇总.③复合指标字段尽量在DWS层才添加.④通过字段冗余,减少表连接的数量.

2022-08-23 16:06:55 313

转载 ETL_数据转换

对原始数据进行清理、过滤、去重、处理异常数据等操作，以消除数据中的问题，如数据重复、二义性、不完整、违反业务或逻辑规则等，保证数据的准确性和稳定性.②对于半结构化数据和非结构化数据,转换的逻辑更为复杂,需要进行文本解析、数据提取、数据关联和数据格式转换等操作.①对于结构化数据,转换的逻辑相对简单,主要是对表结构和字段进行标准化处理.数据转换主要是将抽取的数据进行标准化处理,使其符合目标系统和业务需求.

2022-08-23 15:41:46 674

转载 MySQL_优化/问题

通过某种策略将数据分片来存储,分库内分表和分库两部分,每片数据会分散到不同的MySQL表或库.分片策略有范围分片、时间分片、字段冷热拆分.如表分区.①列裁剪:不读取不需要的列,减少IO消耗.读取操作有select,where,join,group by,sort by等.为了确保数据库的稳定性,很多数据库拥有双机热备功能.即一台数据库服务器提供增删改业务,一台数据库服务器提供查询业务.②把一个多字段的大表按常用字段和非常用字段,拆分到不同表中,每个表的记录数相同,只是字段不一样,使用主键关联.

2022-07-22 11:04:13 83

原创数据仓库4_数据开发

(2) 配置任务周期,根据数据血缘配置任务依赖,配置任务监控;(3) 数据测试:数据核对、性能测试,数据核对文档;(1) 数据开发,开发规范;(4) 部署上线,上线文档.

2022-07-15 16:18:44 95

转载数据仓库2_数据建模

(1) 主题:在较高层次上将数据进行综合、归类和分析利用的一个抽象概念,每一个主题基本对应一个宏观的分析领域,在逻辑意义上对应企业中某一宏观分析领域所涉及的分析对象.(1) 按照业务或者业务过程划分:比如一个靠销售广告位置的门户网站主题域可能会有广告域、客户域等,而广告域可能就会有广告的库存,销售分析、内部投放分析等主题；(1) 数据模型:是抽象描述现实世界的一种工具和方法,通过对实体和实体之间关系的定义和描述,来表达实际业务中具体的业务关系.(2) 主题域:联系较为紧密的主题的集合.

2022-05-06 14:27:17 303

转载 Hive_数据类型/运算符

(1) 数组由一系列相同数据类型的元素组成,元素可以通过下标来访问,从0开始.(2) Map集合包含key->value键值对,可以通过key来访问元素.(3) 对象包含不同数据类型的元素,可以通过'.'来访问元素.

2022-04-29 17:58:22 128

原创 Hive_函数

UDF :操作单行数据,产生单行数据;UDAF :操作多行数据,产生单行数据;UDTF :操作单行数据,产生多行数据.

2022-04-28 17:27:25 1826

转载 MaxCompute_概念/使用

最上层部分,负责数据上传下载、用户鉴权以及负载均衡.①各种外部数据源都可以通过外部传输工具将数据同步到分布式文件存储系统盘古中.②用户使用命令行工具、MaxCompute Studio以及DataWorks等开发完任务提交后,提交HTTP服务,向用户中心做身份鉴权.MaxCompute是适用于数据分析场景的模式云数据仓库.采用的是类似与SQL的语法,可以看作是标准SQL的子集.核心的部分,负责对命令的解析与执行、用户空间和对象的管理控制及授权等功能,元数据存储在分布式元数据服务上....

2022-01-03 11:03:57 861

转载 MySQL_事务

事务是一组SQL语句,要么全部执行成功,要么全部执行失败,通常一个事务对应一个完整的业务.

2021-12-31 15:33:51 199

原创 MySQL_函数

(3) char:将value转换成char格式。CSDN:[Mysql] CAST函数。

2021-12-06 17:10:17 295

转载 MySQL_概念/命令

binlog(binary log) 是 Server层二进制日志,以事件形式记录了除查询语句外所有的 DDL 和 DML 语句,还包含语句执行消耗的时间.binlog是事务安全型的.存储引擎层日志.当有一条记录需要更新时,InnoDB 引擎会先把记录写到 redo log 里面,并更新内存.随后InnoDB引擎会在适当的时候,将这个操作记录更新到磁盘里面.涵盖MySQL的大多数核心服务功能,以及所有的内置函数,所有跨存储引擎的功能(比如存储过程、触发器、视图等).

2021-12-06 17:02:27 1297

转载 Windows

②网络和Inertnet->更改适配器选项->以太网或者无线网,属性-> IPv4->配置固定 IP 和 DNS.①Shell下,ipconfig /all,获取IP、子网掩码、默认网关和 DNS.①修改C:Windows/System32/drivers/etc/hosts。①文件名:不要带有空格的,用英文下划线"_"或减号"-"代替.①资源管理器默认展开目录:查看->选项->展开到打开的文件夹。使用DirectX修复工具修复系统缺失的文件.②格式为: IP 域名。

2021-12-06 16:50:39 50

转载数据仓库7_数据治理_数据血缘

目录0 参考列表1 概念2 应用场景3 特征3.1 数据血缘关系的层次4 数据血缘的可视化 CSDN:数据治理：数据血缘关系分析_q1042960848的博客-CSDN博客_数据血缘分析数据治理：数据血缘关系分析此文章由百度的多篇文章归纳总结而成，以供本人学习和记录方便，不做任何商务用途，如有侵权，请联系我删除，谢谢！参考列表：微信 - 头哥侃码公众号：数据治理的大方向是Database Mesh？先把数据之间的血缘关系搞明白，咱再吹行吗？搜狐 - 数据大家：数据之间有血缘关系？数据治理不得不

2021-10-18 10:31:31 868

原创 MaxCompute_函数

4)去除字符串的首尾空格。(1)获取字符串的长度。(1)获取当前系统时间。(1)查看支持的函数。(1)时间戳转时间。(2)时间转时间戳。(3)日期转字符串。(2)数据类型转换。

2021-06-12 17:41:14 1064

转载浏览器_Chrome

②单击最左边的标签页,按照Shi键,再点击其它标签页,可实现选中区间标签页.①单击一个标签页,按住Ctrl键,再点击其它标签页,可实现选中多个标签页.(2) 选中多个标签页。导出chrome插件。

2021-04-11 23:35:22 140

转载 Hive_概念/使用

①textfile :默认格式,导入数据时会直接把数据文件拷贝到 HDFS 上不进行处理,行存储.存储空间大,解析时资源消耗大.其它存储格式的表不能直接从本地文件导入数据,要先将数据导入到textfile表中,再用 insert 或者 create table as select 导入数据.①内部表(管理表):表数据由Hive自身管理,表数据存储的位置是hive.metastore.warehouse.dir,删表会直接删除元数据及存储数据.②连接hiveserver2:beeline。

2021-03-21 16:10:09 188

原创 Hive_语法

修改为外部表('EXTERNAL'='TRUE')或内部表('EXTERNAL'='FALSE')CSDN:Hive调优利器之explain详解。(1) 复制表结构及其数据。(2) 只复制表结构。

2021-03-21 15:57:40 703 1

原创数据仓库2_数据建模_维度建模

大多数维度都不是完全相互独立的,可能存在多对多的关系.例如银行系统中,一个账户有多个客户,一个客户也有多个账户,想根据账户的月度账单统计客户的月度账单.可以创建账户和客户的桥接表,并添加权重因子,同一账户的权重因子之和为1.根据每个客户的在桥接表中的权重因子分配事实.(3) 合并事实表:是指将位于不同事实表中处于相同粒度的事实进行组合建模而成的一种事实表,它的维度是两个或多个事实表的相同维度的集合.合并事实表的粒度可以是原子粒度也可以是聚集粒度.

2020-12-01 21:40:40 1905 1

转载数据仓库1_概念

Kimball与Inmon两种架构的主要区别在于核心数据仓库的设计和建立.Kimball的数据仓库包含高粒度的企业数据,使用多维模型设计,这也意味着数据仓库由星型模式的维度表和事实表构成.分析系统或报表工具可以直接访问多维数据仓库里的数据.在此架构中的数据集市也与Inmon中的不同.这里的数据集市是一个逻辑概念,只是多维数据仓库中的主题域划分,并没有自己的物理存储,也可以说是虚拟的数据集市.数据集市是按主题域组织的数据集合,用于支持部门级的决策也称之为部门级数据仓库.分为独立数据集市和从属数据集市....

2020-12-01 21:20:19 469

转载 ETL_数据抽取

(1) 结构化数据:可以采用直连数据库的方式进行抽取,一般采用JDBC.优点是数据抽取效率高,但会增加数据库负载,因此需要控制抽取时间,一般选择在凌晨进行结构化数据的抽取.也可以通过数据库日志方式进行抽取,这种方式对数据库产生的影响极小,但需要解析日志。在来源表系统中添加系统日志表,当业务数据发生变化时,更新维护日志表内容.当ETL加载时,通过读日志表数据决定抽取哪些数据及如何抽取.例如使用Mysql的binlog.缺点:时戳维护需要由来源表系统完成,需要修改来源表的结构.工作量大,改动面大.

2020-12-01 20:38:26 2040 1

原创网站流量日志分析

目录1 分析的意义2 Web访问日志2.1 日志来源2.2 数据分类2.2.1 按类型分2.2.2 按内容分2.3 日志搜集原理3 日志处理流程图1 分析的意义(1) 优化页面及业务流程设计，提高流量转化率。(2) 帮助企业对客户群进行细分，针对不同客户制定个性化的促销策略.2 Web访问日志访问日志指用户访问网站时的所有浏览、点击行为数据.2.1 日志来源(1) web服务器软件（httpd、nginx、tomcat）自带的日志记录功..

2020-12-01 20:21:31 956

转载 MapReduce

4)shuffle阶段对map阶段产生的一系列进行分区、缓存、排序、文件合并等操作,然后处理成适合reduce任务输入的键值对形式;如果设置了map端预聚合,会将有相同key的key/value对的value加起来,减少溢写到磁盘的数据量.(5)reduce阶段提取所有相同的key,并按用户的需求对value进行操作,最后以的形式输出结果;(3)map阶段对输入的键值对进行处理,然后产生一系列的中间结果;①可以处理海量数据;......

2020-12-01 20:08:50 316

转载任务/资源管理_Yarn

(3) ApplicationMaster(AM):每个提交的作业都会产生一个对应的Application Master,来负责应用程序的管理.为当前应用程序向ResourceManager去申请资源,并分配给具体的任务;监控任务及重试失败任务.(1) org.apache.hbase.thirdparty.io.netty.channel.AbstractChannel$AnnotatedConnectException: 拒绝连接: node02.com/ip:17020。

2020-11-28 09:44:25 937

转载数据存储_HDFS

对于每个block,NameNode都会返回含有该block副本的DataNode地址.返回的DN地址会按照集群拓扑结构中DataNode与客户端的距离进行排序网络拓扑结构中距离客户端近的排靠前,心跳机制中超时汇报的DN排靠后。为了容错,文件的所有block都会存储多个副本.数据文件默认在HDFS上存放三份,存储策略为本地一份,同机架内其它某一节点上一份,不同机架的某一节点上一份.HDFS中的文件在物理上是分块存储的,块的大小可以通过参数(dfs.block.size)来调整,默认是128M.......

2020-11-28 09:36:13 1570 1

原创 Hive_数据模型_分区

分区表是指拥有分区空间的表,即在创建表时指定表内的一个或者某几个字段作为分区列.分区表实际就是对应分布式文件系统上的独立的文件夹,一个分区对应一个文件夹,文件夹下是对应分区所有的数据文件.

2020-11-28 09:26:11 806

空空如也

空空如也