大数据
文章平均质量分 87
大数据的奇妙冒险
金融业大数据领域项目经理,持有PMP及系统架构设计师证书
展开
-
图文并茂 | 水平分表的路由策略有哪些?什么是一致性哈希?
本文讲了什么是水平分表,以及几种常见的水平分表路由策略,每种策略的优缺点,最后讲了一致性哈希原创 2023-10-27 20:45:14 · 268 阅读 · 0 评论 -
大数据平台的安全认证一般是用什么实现的?
一文讲解 Kerberos 认证原创 2023-05-29 09:00:00 · 266 阅读 · 0 评论 -
大数据面试八股文之 hive 篇
网上大数据开发工程师的面试题相对较少,且比较杂乱分散,有的甚至没有答案。为了广大数据人着想,总结了大数据面试题hive篇,并给出答案,希望能有所帮助。原创 2022-12-12 09:00:00 · 1504 阅读 · 0 评论 -
Hive优化方法汇总
Fetch 抓取是指,Hive 中对某些情况的查询可以不必使用 MapReduce 计算。例如:SELECT * FROM employees;在这种情况下,Hive 可以简单地读取 employee 对应的存储目录下的文件,然后输出查询结果到控制台。在 hive-default.xml.template 文件中 hive.fetch.task.conversion 默认是 more,老版本 hive 默认是 minimal,该属性修改为 more 以后,在全局查找、字段查找、limit 查找等都不走ma转载 2022-12-02 15:32:21 · 1103 阅读 · 0 评论 -
浅谈 Hive 数据倾斜原因及解决方案
大数据开发过程中,经常会遇到数据倾斜的问题,也是面试必问的问题。今天就来说一下数据倾斜的原因及其解决方法。原创 2022-12-02 13:12:52 · 790 阅读 · 0 评论 -
面试官:你了解数据湖吗?翻译翻译什么是数据湖
什么是数据湖?它和数据仓库有什么区别?和大数据平台有什么关系?看这篇就知道原创 2022-11-11 08:30:00 · 391 阅读 · 0 评论 -
hive从入门到放弃(六)——文件存储格式
hive从入门到放弃系列第六篇:文件存储格式,关注【大数据的奇妙冒险】解锁更多新知识!原创 2022-05-16 08:00:00 · 1202 阅读 · 0 评论 -
常见的窗口函数汇总
老规矩,还没看前面的文章而且对这些知识点不熟悉的,可以点击连接进行观看哦:hive从入门到放弃(一)——初识hivehive从入门到放弃(二)——DDL数据定义hive从入门到放弃(三)——DML数据操作hive从入门到放弃(四)——分区与分桶话不多说,直接开始。什么是窗口函数相信很多人都比较熟悉 SQL 聚合函数的语法,比如 count(), sum(), max()等,窗口函数类似聚合函数,不同的是窗口函数不改变原有的行。窗口函数是数据分析和数据开发必备的技能。基本语法:<窗口原创 2022-04-20 10:41:28 · 2508 阅读 · 1 评论 -
hive从入门到放弃(四)——分区与分桶
hive从入门到放弃系列文章第四篇:分区与分桶 震撼上线原创 2022-04-02 13:31:08 · 3123 阅读 · 0 评论 -
hive从入门到放弃(三)——DML数据操作
上一篇给大家介绍了 hive 的 DDL 数据定义语言,这篇来介绍一下 DML 数据操作语言。没看过的可以点击跳转阅读:hive从入门到放弃(一)——初识hivehive从入门到放弃(二)——DDL数据定义数据写入数据导入部分默认数据文件格式为 textfile,每一列由‘,’进行分割,以换行分行。insertinsert 表示向表中插入数据,可以直接插入值,也可以通过查询其他表获取数据插入。INSERT INTO TABLE target_table VALUES (COL1.VALUE,原创 2022-03-20 13:53:10 · 2874 阅读 · 0 评论 -
hive从入门到放弃(二)——DDL数据定义
上一篇大致介绍了hive,包括其架构、数据类型等,这一篇写一下DDL语言,持续关注【大数据的奇妙冒险】,获得更多知识!原创 2022-03-16 15:55:43 · 3848 阅读 · 2 评论 -
hive从入门到放弃(一)——初识hive
带你入门 hive,本文介绍了什么是hive,hive的特点,hive的架构和运行机制以及数据结构,持续关注,解锁更多知识原创 2022-03-11 13:40:03 · 20504 阅读 · 1 评论 -
Kafka从入门到放弃(四) —— Kafka在大数据领域的应用
本文将从大数据的角度讲一下Kafka的特点,描述其为何在大数据应用那么广原创 2022-01-27 10:26:50 · 2195 阅读 · 0 评论 -
Kafka从入门到放弃(三) —— 消费者
看完还不懂 Kafka 消费者算我输原创 2021-12-21 14:41:41 · 1333 阅读 · 0 评论 -
Kafka从入门到放弃(二) —— 生产者
让你熟练掌握Kafka生产者原创 2021-12-06 17:05:33 · 2078 阅读 · 3 评论 -
Kafka从入门到放弃(一) —— 初识Kafka
初始消息中间件及Kafka原创 2021-12-02 17:13:27 · 2246 阅读 · 0 评论 -
通俗易懂:什么是数仓
一文带你了解数据仓库原创 2021-08-18 17:09:20 · 26104 阅读 · 5 评论 -
大数据 | 分布式文件系统 HDFS
HDFS全称Hadoop Distributed File System,看名字就知道是Hadoop生态的一个组件,它是一个分布式文件系统。它的出现解决了独立机器存储大数据集的压力,它将数据集进行切分,存储在若干台计算机上。HDFS 的特点与应用场景适合存储大文件HDFS 支持 GB 级别甚至 TB 级别的文件,它会把大文件切分成若干个块存储在不同的节点上,在进行大文件读写时采用并行的方式提高数据的吞吐量。容错性高HDFS有多副本机制,它会自动保存副本到不同的节点。即使有一台节点宕机了也原创 2021-08-11 11:25:24 · 1376 阅读 · 0 评论 -
国人之光:大数据分析神器Apache Kylin
一、简介Apache Kylin™是一个开源的、分布式的分析型数据仓库,提供Hadoop/Spark 之上的 SQL 查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由 eBay 开发并贡献至开源社区。之所以说它是国人之光,是因为它是首个由国人主导的Apache顶级开源项目,能在亚秒内查询巨大的表。二、基本概念先了解一下几个概念,如下有一张表查询某个客户在哪个时间进行某种交易的金额,这种是多维分析,其中客户号、交易日期和交易类型是维度(Dimensions),金额是度量(Measures原创 2021-07-16 17:13:46 · 441 阅读 · 3 评论