大数据
文章平均质量分 65
大数据
宝哥大数据
大数据、机器学习、深度学习
展开
-
连续登录问题
【代码】连续登录问题。原创 2023-05-15 18:10:17 · 154 阅读 · 0 评论 -
SQL Lateral View EXPLODE
sql lateral view原创 2023-05-10 15:52:28 · 417 阅读 · 0 评论 -
SQL必须熟练之 间隙与岛的问题(骑行与驻车连续问题切割)
【代码】SQL必须熟练之 间隙与刀的问题。原创 2023-04-27 09:12:59 · 207 阅读 · 0 评论 -
大数据面试集锦
大数据面试集锦原创 2023-03-08 11:48:16 · 1036 阅读 · 0 评论 -
Flink1.15源码解析--启动脚本----start-cluster.sh
flink-1.15源码解析原创 2022-11-12 10:23:40 · 1207 阅读 · 0 评论 -
Flink1.13新特性及改动
flink1.13原创 2022-11-07 12:54:34 · 470 阅读 · 0 评论 -
Flink SQL--- CREATE语句
flink sql create table原创 2022-10-27 08:52:53 · 1355 阅读 · 0 评论 -
flink sql 中指定时间字段
flink sql 时间属性原创 2022-10-26 21:35:28 · 1260 阅读 · 0 评论 -
Flink SQL Client 问题-- ParseException: Encountered “user“ at line 1, column 14----flink-1.13.6
flink sql client 问题原创 2022-10-26 19:52:21 · 2200 阅读 · 0 评论 -
flink sql clinet 实战:upsert kafka connector -- flink-1.12
flink sql client: upsert-kafka connector原创 2022-10-20 20:46:44 · 2007 阅读 · 2 评论 -
flink sql clinet 实战:窗口函数----flink-1.13.6
flink sql client:实战 窗口函数原创 2022-10-17 20:14:18 · 1547 阅读 · 2 评论 -
flink sql clinet 实战:模拟数据----flink-1.13.6
flink sql client 实战模拟数据原创 2022-10-17 19:55:26 · 493 阅读 · 0 评论 -
Spark: scala.MatchError (of class org.apache.spark.sql.catalyst.expressions.GenericRowWithSchema
spark scala原创 2022-10-15 08:57:10 · 708 阅读 · 0 评论 -
Flink-状态与容错-Broadcast State--flink1.13
flink 广播状态1.5.0版本引入原创 2022-10-11 20:59:47 · 814 阅读 · 1 评论 -
Flink内幕-作业调度--flink1.13
flink内幕-作业调度--flink1.13转载 2022-10-11 09:20:42 · 198 阅读 · 0 评论 -
Flink保证exactly-once机制介绍:checkpoint及TwoPhaseCommitSinkFunction
Flink保证exactly-once机制介绍:checkpoint及TwoPhaseCommitSinkFunction原创 2022-07-17 17:02:36 · 1587 阅读 · 2 评论 -
Datastream Connectors--kafka----flink-1.12
flink datastream connector kafka原创 2022-07-17 08:22:09 · 841 阅读 · 2 评论 -
一文彻底了解元数据管理与架构设计
一、元数据治理在整个数据治理体系的位置数据治理很火,在 DAMA 数据管理知识体系指南中,数据治理位于 “数据管理车轮图” 的正中央,如下图:而元数据管理,正是十大数据管理领域其中很重要的一环。数据资产治理的前提是要有数据,并且要求数据类型全、量大,并尽可能的覆盖数据流转的各个环节。元数据的采集和管理就变得尤为重要,它是数据资产治理的核心底座。二、什么是元数据所谓元数据,就是 “关于数据的数据”。举一个例子,比如 175 这个数字,它在特定场景下,有如下的元数据:在这个表格中,175 是实体原创 2022-05-26 10:04:47 · 3742 阅读 · 1 评论 -
数据集市是什么?
文章目录一、数据集市简介1.1、数据集市与数据仓库二、数据集市的类型2.1. 依赖数据仓库2.2. 独立数据集市2.3. 混合数据集市三、数据集市的特点一、数据集市简介在数据仓库环境中用于检索客户端数据的模式称为数据集市。它是数据仓库特有的结构,供团队中的业务领域使用。每个组织都有一个位于数据仓库存储库中的数据集市。不同类型的数据集市是从属的、独立的和混合的数据集市。从属数据集市获取已经创建的数据,而独立数据集市从外部源和数据仓库获取数据。我们可以将数据集市称为数据仓库的逻辑子集。1.1、数据集市与数原创 2021-08-31 07:56:02 · 9320 阅读 · 0 评论 -
什么是数据湖?
文章目录一、什么是数据湖?1.1、数据湖概述1.2、为什么需要数据湖?1.3、数据湖架构1.3.1、来源1.3.1.1、同质来源1.3.1.2、异构来源1.3.1.3、数据湖架构主要使用以下来源:1.3.2、数据处理层1.3.3、目标1.4、数据湖的优点与风险1.4.1、优点1.4.2、风险二、数据湖与数据仓库关注我的公众号【宝哥大数据】,更多干货一、什么是数据湖?1.1、数据湖概述是一个集中式存储库,可以容纳来自各种数据源的任何格式的关系数据;然后可以使用它来生成用于分析和报告目的的数据。从数据源中原创 2021-08-26 11:16:54 · 1698 阅读 · 1 评论 -
数据治理小总结
一、引言二、主数据管理三、元数据管理 元数据管理是对企业涉及的业务元数据、技术元数据、管理元数据进行盘点、集成和管理,按照科学、有效的机制对元数据进行管理,并面向开发人员、最终用户提供元数据服务,以满足用户的业务需求,对企业业务系统和数据分析平台的开发、维护过程提供支持。借助变更报告、影响分析等应用,控制数据质量、减少业务术语歧义和建立业务和技术之间的良好沟通渠道,进一步提高各种数据的可信性、可维护性、适应性和可集成性。 元数据分为业务元数据、技术元数据和操作元数据,三者之间关系紧密。业务元数据原创 2021-04-08 11:03:21 · 1857 阅读 · 0 评论 -
数据中台
数据中台架构原创 2021-04-07 10:00:31 · 170 阅读 · 0 评论 -
大数据建设要求
1.1、数据接入1.2、数据处理1.3、数据治理1.4、数据组织1.5、数据服务原创 2021-04-06 11:20:58 · 659 阅读 · 0 评论 -
Kudu问题解决
1、WARNINGS: Row of size 3.88 MB could not be materialized in plan node with id 2. Increase the max_row_size query option (currently 512.00 KB) to process larger rows.原创 2021-01-13 10:19:55 · 3247 阅读 · 5 评论 -
Canal问题解析
1、消息体过大,当刷数据的时候消息体过大就会报错解决办法第一步修改canal服务端mq的配置canal.mq.maxRequestSize = 1048576 (默认为1m,根据需求修改)第二部修改队列的最大消息体大小/bin/kafka-topics.sh --zookeeper localhost:2181 --alter --topic test --config max.message.bytes=52428802、Deployer记录详细日志, 再instance日志可以查询到原创 2021-01-05 15:13:43 · 1696 阅读 · 0 评论 -
集群配备
cdh6.1.1hadoop-3.0.0hive-2.1.1spark2.4.0HBase 2.1.015台机器 64G内存 16核每天数据1.6T原创 2020-08-05 21:38:01 · 179 阅读 · 0 评论 -
大数据开发 岗位需要的知识
一、大数据的三个发展方向平台搭建/优化/运维/监控大数据开发/设计/架构数据分析/挖掘。二、大数据的4V特征:数据量大,TB->PB数据类型繁多,结构化、非结构化文本、日志、视频、图片、地理位置等;商业价值高,但是这种价值需要在海量数据之上,通过数据分析与机器学习更快速的挖掘出来;处理时效性高,海量数据的处理需求不再局限在离线计算当中。 现如今,正式为了应对大数据...原创 2020-04-22 17:54:33 · 820 阅读 · 0 评论