自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

大数据的奇妙冒险

Learning BIG DATA,just subscribe to me

  • 博客(38)
  • 收藏
  • 关注

原创 常见的窗口函数汇总

老规矩,还没看前面的文章而且对这些知识点不熟悉的,可以点击连接进行观看哦:hive从入门到放弃(一)——初识hivehive从入门到放弃(二)——DDL数据定义hive从入门到放弃(三)——DML数据操作hive从入门到放弃(四)——分区与分桶话不多说,直接开始。什么是窗口函数相信很多人都比较熟悉 SQL 聚合函数的语法,比如 count(), sum(), max()等,窗口函数类似聚合函数,不同的是窗口函数不改变原有的行。窗口函数是数据分析和数据开发必备的技能。基本语法:<窗口

2022-04-20 10:41:28 2665 1

原创 通俗易懂:什么是数仓

一文带你了解数据仓库

2021-08-18 17:09:20 27050 5

原创 图文并茂 | 水平分表的路由策略有哪些?什么是一致性哈希?

本文讲了什么是水平分表,以及几种常见的水平分表路由策略,每种策略的优缺点,最后讲了一致性哈希

2023-10-27 20:45:14 311

原创 大数据平台的安全认证一般是用什么实现的?

一文讲解 Kerberos 认证

2023-05-29 09:00:00 279

原创 通俗易懂:什么是拉链表

按照度娘的解释:“拉链表是一种针对数据仓库设计中表存储数据的方式而定义的数据模型,它有点类似于快照,用于维护历史状态及最新状态数据。假如有张表如表1-1所示,每天的数据量大概有50w表中有些字段会被 update,如表1-2,且每天更新的数据量很小,大约只有5k有些报表需要查看历史某个日期的数据存储空间有限,需要尽可能的节约存储空间你会怎么将其装入数仓中?

2023-03-30 12:36:08 8688 4

原创 博时基金数据开发面经

博时基金数据开发面经

2023-01-03 20:47:58 737

原创 大数据面试八股文之 hive 篇

网上大数据开发工程师的面试题相对较少,且比较杂乱分散,有的甚至没有答案。为了广大数据人着想,总结了大数据面试题hive篇,并给出答案,希望能有所帮助。

2022-12-12 09:00:00 1600

原创 大数据面试题:用 SQL 查询每个用户最大连续登录日期

“如何用 SQL 查询每个用户最大连续登录日期?”这道题是数据开发面试经常问到的题目,因为其比较考验候选人的 SQL 能力,今天就来简单讲讲其思路。

2022-12-06 08:45:00 908

转载 Hive优化方法汇总

Fetch 抓取是指,Hive 中对某些情况的查询可以不必使用 MapReduce 计算。例如:SELECT * FROM employees;在这种情况下,Hive 可以简单地读取 employee 对应的存储目录下的文件,然后输出查询结果到控制台。在 hive-default.xml.template 文件中 hive.fetch.task.conversion 默认是 more,老版本 hive 默认是 minimal,该属性修改为 more 以后,在全局查找、字段查找、limit 查找等都不走ma

2022-12-02 15:32:21 1214

原创 浅谈 Hive 数据倾斜原因及解决方案

大数据开发过程中,经常会遇到数据倾斜的问题,也是面试必问的问题。今天就来说一下数据倾斜的原因及其解决方法。

2022-12-02 13:12:52 821

原创 面试官:你了解数据湖吗?翻译翻译什么是数据湖

什么是数据湖?它和数据仓库有什么区别?和大数据平台有什么关系?看这篇就知道

2022-11-11 08:30:00 400

原创 什么是视图?普通视图和物化视图什么区别?看这一篇就明白了

视图可以理解为一张表或多张表的预计算,这些表称为基表。它可以将所需要查询的结果封装成一张虚拟表,基于它创建时指定的查询语句返回的结果集。视图具有以下特点:例如:物化视图对于普通视图而言,其真实数据在基表中,即每次查询视图都是需要执行查询语句。有时候为了防止每次都查询,将结果集存储起来,这种有真实数据的视图,称为物化视图。什么情况下适合用物化视图?基表没有很多 DML,且每次查询都需要耗费较大资源的情况下,可以考虑用物化视图。物化视图的创建是这样的:① BUILD IMMEDIATE 创建物化视图的时

2022-06-20 08:15:00 5824

原创 JVM 之类加载器

JVM(Java Virtual Machine)是一个可以执行 Java 字节码文件(即 .class 文件)的虚拟机进程。当 Java 源文件能被成功编译成 .class 文件,就能在不同平台上的不同版本的 JVM 运行,因为 JVM 能将相同的 .class 文件解释称不同平台的机器码。正是因为 JVM 的存在,Java 被称为与平台无关的语言。一般而言,.java 文件经过编译后会得到 .class 文件,而将这个文件加载到内存之前需要先通过类加载器,先简单过一下图:类加载的过程为: 加载–>连接(

2022-06-02 21:44:10 1512 1

原创 大数据行业前景如何?有什么岗位?什么要求?一次讲清楚

最近一直有人问我,大数据行业前景怎么样?如果转行的话有什么岗位?有什么要求?为了解答这一系列问题,我觉得还是有必要科普一下大数据岗位的情况。大数据,毋庸置疑,行业前景是很不错的。现在是数据时代,近几年一直在强调数字化转型,互联网就不用多说,很多传统企业都在转型。而今年有个国家重点工程“东数西算”,指通过构建数据中心、云计算、大数据一体化的新型算力网络体系,将东部算力需求有序引导到西部,优化数据中心建设布局,促进东西部协同联动。可想而知,大数据的发展只会越来越好,就业机会也会越来越多。在应用上,大数据在互联网

2022-06-01 20:56:05 791

原创 数据分析的待遇怎么样?有什么要求?用爬虫和图告诉你

数据分析待遇如何?有啥要求?一次讲清楚

2022-06-01 19:49:27 142

原创 面试官抛出一段简单的 Java 代码,叫我解释其运行结果

看似简单的 Java 代码,实则考察了很多东西,欲知如何,进来看看便知

2022-05-28 10:26:27 213 1

原创 【斐波那契数列】衍生题

⭐ 目 录 ⭐一、斐波那契数列1、递归2、迭代二、衍生题1、跳台阶 / 爬楼梯2、跳台阶II

2022-05-23 21:59:12 386

原创 计算机网络必会面试题

1、http 响应码 301 和 302 代表的是什么?301:永久重定向;302:暂时重定向。2、dns流程是什么DNS服务器里存着一张表,表中放着域名和IP地址,域名和IP地址以映射关系保存。先向本地dns缓存查看有没有该域名对应的ip地址,有直接跳出,没有接着往下向根dns服务器询问域名对应的ip地址(根dns服务器会让他去查询顶级dns服务器)向顶级dns服务器询问域名对应的ip地址(顶级dns服务器会让他去查询权威dns服务器)向权威dns服务器询问域名对应的ip地址(权威dns服

2022-05-20 07:15:00 104

原创 hive从入门到放弃(六)——文件存储格式

hive从入门到放弃系列第六篇:文件存储格式,关注【大数据的奇妙冒险】解锁更多新知识!

2022-05-16 08:00:00 1247

原创 图文并茂:什么是 K-means 聚类算法

概述  聚类属于机器学习的无监督学习,在数据中发现数据对象之间的关系,将数据进行分组,组内的相似性越大,组间的差别越大,则聚类效果越好。它跟分类的最主要区别就在于有没有“标签”。比如说我们有一组数据,数据对应着每个“标签”,我们通过这些数据与标签之间的相关性,预测出某些数据属于哪些“标签”,这属于分类;而聚类是没有“标签”的,因此说它属于无监督学习,分类则属于监督学习。  k-means(k-均值)属于聚类算法之一,笼统点说,它的过程是这样的:先设置参数k,通过欧式距离进行计算,...

2022-05-14 23:45:58 2626 1

原创 教你搞懂 MySQL 事务与并发

图文并茂,教你搞懂 MySQL 的事务与并发

2022-05-13 22:15:38 398

原创 KNN(K-近邻)算法的原理与实现

一文带你熟悉KNN(K-近邻)算法的原理与实现

2022-05-12 19:39:03 367

原创 HDFS合并多个文件的命令

HDFS 合并多个文件的命令

2022-04-25 16:41:30 5599

原创 hive从入门到放弃(四)——分区与分桶

hive从入门到放弃系列文章第四篇:分区与分桶 震撼上线

2022-04-02 13:31:08 3136

原创 hive从入门到放弃(三)——DML数据操作

上一篇给大家介绍了 hive 的 DDL 数据定义语言,这篇来介绍一下 DML 数据操作语言。没看过的可以点击跳转阅读:hive从入门到放弃(一)——初识hivehive从入门到放弃(二)——DDL数据定义数据写入数据导入部分默认数据文件格式为 textfile,每一列由‘,’进行分割,以换行分行。insertinsert 表示向表中插入数据,可以直接插入值,也可以通过查询其他表获取数据插入。INSERT INTO TABLE target_table VALUES (COL1.VALUE,

2022-03-20 13:53:10 2886

原创 hive从入门到放弃(二)——DDL数据定义

上一篇大致介绍了hive,包括其架构、数据类型等,这一篇写一下DDL语言,持续关注【大数据的奇妙冒险】,获得更多知识!

2022-03-16 15:55:43 3863 2

原创 hive从入门到放弃(一)——初识hive

带你入门 hive,本文介绍了什么是hive,hive的特点,hive的架构和运行机制以及数据结构,持续关注,解锁更多知识

2022-03-11 13:40:03 20705 1

转载 浅谈银行的数据仓库:分层架构篇

为什么要对数据仓库进行分层自从大数据平台hadoop及其技术火起来之后,无论是政企、民企还是各类金融机构,都掀起了一股大数据技术转型、数据仓库重构、智能数据分析、AI 等一系列黑科技且高大上的热潮。其实,是否转型大数据技术以后,产品营销、风险管控、数据分析、管理决策等企业核心诉求都可以应有尽有呢?企业的数据管理核心——数据仓库又应该以何种形态来建设?要回答上述问题,必须要从理解数据仓库的本质与架构开始。数据仓库,由数据仓库之父 Bill Inmon 在 1991 年出版的“Building the Da

2022-03-01 15:13:53 4941

原创 2021系统架构设计师一次过,分享下经验

记录系统架构设计师考试,分享考试经验

2022-02-16 22:36:29 2547

原创 LeetCode 链表题 ( Java )

通俗易懂总结常见链表题

2022-02-16 16:16:08 640

原创 Kafka从入门到放弃(四) —— Kafka在大数据领域的应用

本文将从大数据的角度讲一下Kafka的特点,描述其为何在大数据应用那么广

2022-01-27 10:26:50 2214

原创 Kafka从入门到放弃(三) —— 消费者

看完还不懂 Kafka 消费者算我输

2021-12-21 14:41:41 1342

原创 Kafka从入门到放弃(二) —— 生产者

让你熟练掌握Kafka生产者

2021-12-06 17:05:33 2084 3

原创 短时间复习通过2021年上半年软件设计师考试(附资料)

2021年上半年软件设计师考试总结

2021-12-05 16:04:32 308 3

原创 Kafka从入门到放弃(一) —— 初识Kafka

初始消息中间件及Kafka

2021-12-02 17:13:27 2254

原创 大数据 | 分布式文件系统 HDFS

HDFS全称Hadoop Distributed File System,看名字就知道是Hadoop生态的一个组件,它是一个分布式文件系统。它的出现解决了独立机器存储大数据集的压力,它将数据集进行切分,存储在若干台计算机上。HDFS 的特点与应用场景适合存储大文件HDFS 支持 GB 级别甚至 TB 级别的文件,它会把大文件切分成若干个块存储在不同的节点上,在进行大文件读写时采用并行的方式提高数据的吞吐量。容错性高HDFS有多副本机制,它会自动保存副本到不同的节点。即使有一台节点宕机了也

2021-08-11 11:25:24 1386

原创 国人之光:大数据分析神器Apache Kylin

一、简介Apache Kylin™是一个开源的、分布式的分析型数据仓库,提供Hadoop/Spark 之上的 SQL 查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由 eBay 开发并贡献至开源社区。之所以说它是国人之光,是因为它是首个由国人主导的Apache顶级开源项目,能在亚秒内查询巨大的表。二、基本概念先了解一下几个概念,如下有一张表查询某个客户在哪个时间进行某种交易的金额,这种是多维分析,其中客户号、交易日期和交易类型是维度(Dimensions),金额是度量(Measures

2021-07-16 17:13:46 450 3

原创 关于实习、校招的科普

最近有师弟师妹问我关于应聘的问题,在和他们分享的时候,发现他们对于找工作的概念很模糊。回想起自己当初,就业意识也是很缺乏,甚至一度以为实习是大四做的事,找工作是临近毕业时的事。为了使同学们少走一些弯道,因此给大家科普一些招聘的东西,分享一下经历,希望能有所帮助。01、日常实习 VS 暑期实习很多人以为实习是大四干的事,但其实实习是越早越好的,如果实习经历丰富,对于后面的校招帮助是很大的。实习又分为暑期实习和日常实习,他们又不太一样。02、校招&社招校招全称“校园招聘”;社招全称“社会

2020-06-16 21:10:51 3388 1

高校二手交易商城微信小程序源码.rar

本资源为高校二手交易商城微信小程序源码,适合用来学习微信小程序,适用于高校学生,本资源仅作学习交流,建议不要用于其它用途,谢谢!

2023-02-20

大数据相关面试题.rar

大数据相关面试题,涵盖多个大数据组件内容,建议反复观看,提高面试通过率。

2023-02-20

大数据面试 Hive 八股文

相当全的、比较常见的大数据 hive 面试题,对大数据开发工程师的面试有很大的帮助。熟能生巧,多背几次,吊打面试官,希望大家都能找到满意的 offer

2023-02-20

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除