自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

原创 如何精进大数据技术

前几天跟前58的技术委员会主席孙玄聊天,聊天过程中得知他想搞大数据课程,于是我们有了如下对话。问:根据你的观察,现在企业里面很多想搞大数据的工程师普遍有什么特点?孙老板:很多同学的大数据知识是东拼西凑的,看B站上的视频学了一点,项目当中用过一点,没有系统化,而且不深入,这些同学其实是做不了真正的大数据工程师的工作的。问:那你觉得如上的同学如果想要突破,有什么方式吗?孙老板:根据...

2020-03-27 12:05:33 855

原创 Kafka-0.10源码解读

前言其实干程序员这么些年来,一直有一个愿望想写本书,但是一直没实现,一开始是想着是因为自己没时间,后来想想也不是说没时间,可能还是感觉水平有限。为了给写书做准备,最近打算写一个专栏,专栏的要求就稍微低一些,能坚持写完的概率也就会大一些。所以最近挑了从Kafka的源码角度去写一个专栏。选择写Kafka源码剖析的理由1、Kafka是大数据里面难度较大,而且使用广泛的一个技术,倒不是说...

2019-08-05 13:22:49 2554 2

原创 Hive经典最全笔试题系列

现在的大数据开发,越来越趋向于编写SQL代替程序开发,比如MapReduce的Hive客户端,Kafka,Spark,Flink等都是支持SQL操作的。所以学好SQL是重中之重。是每个大数据程序开发工作者的必备技能。本人收集了大量的Hive或者说是SQL的笔试题之类:准备给各位准备一个Hive或者SQL的笔试题专题:这是列表:1、Hive--笔试题01--自连接实现2、Hiv...

2019-06-25 12:32:33 10929 3

原创 MapReduce编程案例系列篇(01-15)

由于本人最开始接触大数据工作,主要以写MapReduce程序为主,虽然现在有流行的言论称MapReduce这种运行很慢的分布式计算编程框架将要被各种内存计算框架取代。但是MapRedcue也会吸收很多流行的内存计算的各种优点,我相信,将来,MapReduce绝对不会沦落到要淘汰的地步。甚至会后来居上。在此,本人总结一篇关于MapReduce编程的各种典型应用场景编程案例,便于大家查阅学习...

2017-10-23 18:27:32 60693 9

原创 IT十年--大数据系列讲解

个人觉得IT十年的大数据系列的博文非常干货。对于希望掌握整个大数据行业的技术栈的一个初步了解非常的有帮助,本人也是有事没事的上来看看。所以整理出来一个目录,放在自己的博客里,方便寻找学习。大数据(一) - hadoop生态系统及版本演化 大数据(二) - HDFS 大数据(三) - YARN 大数据(四) - MapReduce 大数据(五) - HBase 大数据(六) - ZooKeeper ...

2016-10-23 22:35:26 51471

原创 倾情大奉送--Spark入门实战系列

这一两年Spark技术很火,自己也凑热闹,反复的试验、研究,有痛苦万分也有欣喜若狂,抽空把这些整理成文章共享给大家。这个系列基本上围绕了Spark生态圈进行介绍,从Spark的简介、编译、部署,再到编程模型、运行架构,最后介绍其组件SparkSQL、Spark Streaming、Spark MLib和Spark GraphX等。文章内容的整理一般是先介绍原理,随后是实战例子,由于面向的是入门读者

2016-10-23 22:23:00 47985 2

原创 周志湖Spark系列

本人本着十分尊重的态度来学习周老师的博文,特此为方便好找,在此做一个目录。方便学习。Scala-IDE Eclipse(Windows)中开发Spark应用程序,在Ubuntu Spark集群上运行

2016-10-23 21:14:17 48381 1

原创 Scala入门到精通

这是本人收集的Scala学习资料,觉得还不错。转载比较费事,所以就只给链接了。顺便做个目标,方便好找。Scalar入门到精通:1、Scala入门到精通——第一节 Scala语言初步

2016-08-17 18:28:26 52225 1

原创 Hive的SQL编译源码详解

看图完事:

2020-07-06 11:36:29 321

原创 Spark的任务提交和执行流程详解

直接上图:

2020-06-30 21:41:58 204

原创 Hive窗口函数row_number案例

数据文件是:rownumbertest.txt字段信息是:id,sex,age,name1,男,18,张三2,女,18,李四3,女,20,王五4,男,18,赵六5,男,18,刘七6,男,19,石九7,男,38,黄渤8,女,22,刘嘉玲9,女,23,王菲10,女,28,刘亦菲11,女,18,赵丽颖用户信息表create database if not exists hive_test;use hive_test;drop table if exists rown

2020-05-31 20:43:27 236

原创 130 余个相见恨晚的超实用网站

搞学习CSDN: https://www.csdn.net/TED(最优质的演讲):https://www.ted.com/谷粉学术: https://gfsoso.99lb.net/scholar.html大学资源网:http://www.dxzy163.com/简答题:http://www.jiandati.com/网易公开课:https://open.163.com/ted/网...

2020-04-17 09:40:24 514

原创 Typora配置正文、目录、侧边大纲中的标题自动编号

第一步:点击 "文件" 打开 "偏好设置", 找到 "外观", "主题", "打开主题文件夹"第二步:在该文件夹中创建一个文件:base.user.css第三步:在创建的base.user.css文件中,放置如下内容:/*************************************** Header Counters in TOC********...

2020-03-26 17:21:48 2301 4

原创 Hive--笔试题05_2--求TopN

现在有这样一份数据:1,huangxiaoming,45,a-c-d-f2,huangzitao,36,b-c-d-e3,huanglei,41,c-d-e4,liushishi,22,a-d-e5,liudehua,39,e-f-d6,liuyifei,35,a-d-e字段的意义:id,name,age,favorsid,姓名,年龄,爱好其中需要注意的是:每...

2020-02-29 19:16:56 635

原创 同步异步+阻塞非阻塞-四述

常规的误区假设有一个展示用户详情的需求,分两步,先调用一个HTTP接口拿到详情数据,然后使用适合的视图展示详情数据。如果网速很慢,代码发起一个HTTP请求后,就卡住不动了,直到十几秒后才拿到HTTP响应,然后继续往下执行。这个时候你问别人,刚刚代码发起的这个请求是不是一个同步请求,对方一定回答是。这是对的,它确实是。但你要问它为什么是呢?对方一定是这样回答的,“因为发起请求后,代...

2020-01-31 23:25:15 376

原创 如何高效的学习技术

如何高效的学习技术  我们相信努力学习一定会有收获,但是方法不当,既让人身心疲惫,也没有切实的回报。高中时代,我的同桌是个漂亮女同学。她的物理成绩很差,虽然她非常勤奋的学习,但成绩总是不理想。为了巩固纯洁的同学关系,我亲密无间地辅导她的物理,发现她不知道题目考什么。我们的教科书与试题都围绕着考试大纲展开,看到一道题,应该先想想它在考哪些定理和公式的运用。  不少朋友每天都阅读技术文章,但是第...

2020-01-31 23:18:29 260

原创 Python2与Python3的区别详解整理

一、核心类差异1. Python3 对 Unicode 字符的原生支持。Python2 中使用 ASCII 码作为默认编码方式导致 string 有两种类型 str 和 unicode,Python3 只支持 unicode 的 string。Python2 和 Python3 字节和字符对应关系为:2. Python3 采用的是绝对路径的方式进行 importPython2 中相对路...

2019-12-23 20:55:20 174

原创 四百多篇博客专栏归类让你直接晋级老手

IDE开发工具(4篇):https://blog.csdn.net/java_wxid/category_8600829.htmlJava基础(17篇):https://blog.csdn.net/java_wxid/category_8600390.htmlMySQL(15篇):https://blog.csdn.net/java_wxid/category_8600406.htmlJDB...

2019-11-25 11:06:50 473 1

原创 Python全详解--大纲(全网最清晰学习思路)

Python学习大纲:1、编程语言介绍 发展历程 静态编程语言/动态编程语言 编译型/解释型 强类型/弱类型 面向对象/面向过程/函数式 各常见编程语言对比2、Python介绍 产生背景 优缺点 特点 适用场景 解释器 虚拟环境3、Python的版本选择 python2 python34、Python安装...

2019-11-15 19:18:00 9069 547

原创 JVM内存结构 VS Java内存模型 VS Java对象模型

Java作为一种面向对象的,跨平台语言,其对象、内存等一直是比较难的知识点。而且很多概念的名称看起来又那么相似,很多人会傻傻分不清楚。比如本文我们要讨论的JVM内存结构、Java内存模型和Java对象模型,这就是三个截然不同的概念,但是很多人容易弄混。可以这样说,很多高级开发甚至都搞不不清楚JVM内存结构、Java内存模型和Java对象模型这三者的概念及其间的区别。甚至我见过有些面试官自...

2019-10-21 15:14:21 187

原创 百度现场面试:JVM+算法+Redis+数据库!(三面)

百度一面(现场)自我介绍Java中的多态为什么要同时重写hashcode和equalsHashmap的原理Hashmap如何变线程安全,每种方式的优缺点垃圾回收机制Jvm的参数你知道的说一下设计模式了解的说一下啊手撕一个单例模式算法题目手撕算法:反转单链表手撕算法:实现类似微博子结构的数据结构,输入一系列父子关系,输出一个类似微博评论的父子结构图手写java多线程手...

2019-09-03 08:36:50 859

原创 HBase--Split和Compact

1 Region拆分一个Region代表一个表的一段Rowkey的数据集合,当Region太大,Master会将其拆分。Region太大会导致读取效率太低,遍历时间太长,通过将大数据拆分到不同机器上,分别查询再聚合,Hbase也被人称为“一个会自动分片的数据库”。Region可以手动和自动拆分。1.1 Region自动拆分1.1.1 ConstantSizeRegionSplitPo...

2019-07-01 13:42:08 5767

原创 数据分区详解

数据分区详解数据分区的五种常用方式:1、随机分区优点:数据分布均匀缺点:具有相同特点的数据不会保证被分配到相同的分区2、Hash分区优点:具有相同特点的数据保证被分配到相同的分区特点:会产生数据倾斜3、范围分区缺点:提高查询速度,相邻的数据都在相同的分区缺...

2019-06-27 14:37:22 6305

原创 安装vmware虚拟机详细教程

VMware下载与安装一、虚拟机的下载1、进入VMware官网,点击左侧导航栏中的下载,再点击图中标记的Workstation Pro,如下图所示。2、根据操作系统选择合适的产品,在这里以Windows系统为例,点击转至下载,如下图所示。3、在1处可以选择版本,默认为最新版本。选择好版本...

2019-06-27 08:59:04 6874

原创 Hive--笔试题05_1--求TopN

现在有一个面试题场景举例北京市学生成绩分析成绩的数据格式exercise5_1.txt 文件中的每一行就是一个学生的成绩信息。字段之间的分隔符是","时间,学校,年纪,姓名,科目,成绩样例数据2013,北大,1,黄渤,语文,972013,北大,1,徐峥,语文,522013,北大,1,刘德华,语文,852012,清华,0,马云,英语,612015,...

2019-06-26 13:28:39 7527 3

原创 Hive内置函数

数学函数下面表格中的函数为Hive的内置数学函数,大部分当参数为NULL时返回NULL。 返回类型 函数名 描述 bigint round(double a) 返回a经过四舍五入的BIGINT值 double round(doubl...

2019-06-25 18:02:17 6422

原创 Hive--笔试题01--窗口分析函数实现

有以下一份数据:A,2015-01,5A,2015-01,15B,2015-01,5A,2015-01,8B,2015-01,25A,2015-01,5A,2015-02,4A,2015-02,6B,2015-02,10B,2015-02,5A,2015-03,16A,2015-03,22B,2015-03,23B,2015-03,10B,2015-03,11...

2019-06-25 12:52:07 9413 3

原创 Hive--笔试题01--自连接实现

有以下一份数据:A,2015-01,5A,2015-01,15B,2015-01,5A,2015-01,8B,2015-01,25A,2015-01,5A,2015-02,4A,2015-02,6B,2015-02,10B,2015-02,5A,2015-03,16A,2015-03,22B,2015-03,23B,2015-03,10B,2015-03,11...

2019-06-25 12:47:28 10395 4

原创 求二维数组蓄水数

1、需求接上一个需求:求一维数组蓄水数,如果数组是二维数组呢?如果求得蓄水数呢?比如这种情况:红色的格子是能蓄水的格子,蓝色的各自是墙, 也就是不能蓄水的格子2、解题思路其实对于这种题目,会很很多的难点,比如:简单低洼地带,直接求蓄水数,上下左右 55 5 5, 那中间的3 是能蓄水的比如:比如这种: 以上这些图形出现的时候...

2019-06-20 19:58:34 8077 2

原创 求一维数组蓄水数

1、需求很多程序员在面试的时候,都可能遇到一些逻辑思维/编程题,这样的题目非常有意思。而且非常考验程序员的解题技巧和代码编写能力。我这儿就曾经遇到过一个。具体需求看图2、解题思路废话不多数。直接给大家讲解思路:1、先找出整个数组中的最大值。2、整个数组就被这个最大值给分成了两个数组。3、左边数组,从左往右遍历,计算每个位置的蓄水数,计算规则是:找到当前位置的左...

2019-06-20 18:56:00 8201 3

原创 利用zookeeper模拟实现HA高可用

利用zookeeper模拟实现HA高可用1、需求在分布式场景中,对于主从架构来说,最大的问题就是单点故障。当学过zookeeper之后,我们都知道,可以利用zookeeper集群来帮助实现Hadoop的HA,那到底Hadoop的HA是如何实现的呢?2、实现思路zookeeper给我们提供了两个非常重要的组件:1、...

2019-06-19 19:16:26 9570 1

原创 MapReduce--14--学生成绩(增强版)--需求3

题目描述关于对于学生成绩相关的练习题,之前是一个入门级别的需求,现在对这些需求进行增强,首先看数据的改变:computer,huangxiaoming,85,86,41,75,93,42,85computer,xuzheng,54,52,86,91,42computer,huangbo,85,42,96,38english,zhaobenshan,54,52,86,91,42,85...

2019-06-18 10:25:30 12513 2

原创 MapReduce--13--学生成绩(增强版)--需求2

题目描述关于对于学生成绩相关的练习题,之前是一个入门级别的需求,现在对这些需求进行增强,首先看数据的改变:computer,huangxiaoming,85,86,41,75,93,42,85computer,xuzheng,54,52,86,91,42computer,huangbo,85,42,96,38english,zhaobenshan,54,52,86,91,42,85...

2019-06-17 21:46:08 12312 2

原创 MapReduce--12--学生成绩(增强版)--需求1

题目描述关于对于学生成绩相关的练习题,之前是一个入门级别的需求,现在对这些需求进行增强,首先看数据的改变:computer,huangxiaoming,85,86,41,75,93,42,85computer,xuzheng,54,52,86,91,42computer,huangbo,85,42,96,38english,zhaobenshan,54,52,86,91,42,85...

2019-06-17 21:28:11 12601 5

原创 MapReduce--11--学生成绩(基础版)--需求2

对于刚入门MapReduce的同学来说,学会mapreduce的基本编程套路,懂得mapreduce是如何对于大批量数据集做分布式运算的是非常关键的。这里有一个需求,增强各位对mapreduce编程的理解首先看数据:computer,huangxiaoming,85computer,xuzheng,54computer,huangbo,86computer,liutao,85...

2019-06-17 20:48:00 12670

原创 MapReduce--10--学生成绩(基础版)--需求1

对于刚入门MapReduce的同学来说,学会mapreduce的基本编程套路,懂得mapreduce是如何对于大批量数据集做分布式运算的是非常关键的。这里有一个需求,增强各位对mapreduce编程的理解首先看数据:computer,huangxiaoming,85computer,xuzheng,54computer,huangbo,86computer,liutao,85...

2019-06-17 20:35:28 13105

原创 斐波拉契数列 Java三种实现

对于很多Java初学者来说,求解斐波拉契数列,基本上所使用的方式都是递归。对于求解斐波拉契数列来说,递归的实现方式的效率是极其低下的。在此,我贴出三种实现(递归,迭代,动态规划):我们先看代码的执行效果:再看代码实现:package com.aura.funny.fibonacci;import java.util.HashMap;import java.util...

2019-06-11 08:33:53 12212 4

原创 虚拟机 磁盘压缩

问题虚拟机越来越大,只能扩容,不能压缩变小节省磁盘空间,甚为苦恼。在网上找了各种资料,基本上,都是不合适的方式,不是我们想要的方式,我把最适合我们方式的一种方法贴出来,方便大家首先看效果:压缩的前后对比具体实施操作步骤:1、开机首先保证虚拟机是开机状态2、安装VMWare Tools如果没有安装成功,则自行百度解决...

2019-06-10 08:35:09 12351

原创 Kafka面试题

Kafka是现在流行的消息中间件,在大数据开发面试中被问到的可能性非常大,下面放出一些kafka面试中,经常可能被问到的kafka的面试题,大家可以学习学习: Kafka的用途有哪些?使用场景如何? Kafka中的ISR、AR又代表什么?ISR的伸缩又指什么 Kafka中的HW、LEO、LSO、LW等分别代表什么? Kafka中是怎么体现消息顺序性的? ...

2019-06-07 07:40:03 14204 1

原创 最常用的15大Eclipse开发快捷键技巧

做Java开发的,经常会用Eclipse或者MyEclise集成开发环境,一些实用的Eclipse快捷键和使用技巧,可以在平常开发中节约出很多时间提高工作效率,下面我就结合自己开发中的使用和大家分享一下Eclipse中常用到的快捷键和技巧。1、alt+?或alt+/:自动补全代码或者提示代码这个是我最得意的快捷键组合了,尤其是当输入syso几个字符之后,2个手指轻松按下这2个键的时候...

2019-05-28 14:57:00 12031 2

提示
确定要删除当前文章?
取消 删除