中琦2513-CSDN博客

原创 Kafka-0.10源码解读

前言其实干程序员这么些年来，一直有一个愿望想写本书，但是一直没实现，一开始是想着是因为自己没时间，后来想想也不是说没时间，可能还是感觉水平有限。为了给写书做准备，最近打算写一个专栏，专栏的要求就稍微低一些，能坚持写完的概率也就会大一些。所以最近挑了从Kafka的源码角度去写一个专栏。选择写Kafka源码剖析的理由1、Kafka是大数据里面难度较大，而且使用广泛的一个技术，倒不是说...

2019-08-05 13:22:49 4227 2

原创 Hive经典最全笔试题系列

现在的大数据开发，越来越趋向于编写SQL代替程序开发，比如MapReduce的Hive客户端，Kafka,Spark,Flink等都是支持SQL操作的。所以学好SQL是重中之重。是每个大数据程序开发工作者的必备技能。本人收集了大量的Hive或者说是SQL的笔试题之类：准备给各位准备一个Hive或者SQL的笔试题专题：这是列表：1、Hive--笔试题01--自连接实现2、Hiv...

2019-06-25 12:32:33 17001 3

原创 MapReduce编程案例系列篇（01-15）

由于本人最开始接触大数据工作，主要以写MapReduce程序为主，虽然现在有流行的言论称MapReduce这种运行很慢的分布式计算编程框架将要被各种内存计算框架取代。但是MapRedcue也会吸收很多流行的内存计算的各种优点，我相信，将来，MapReduce绝对不会沦落到要淘汰的地步。甚至会后来居上。在此，本人总结一篇关于MapReduce编程的各种典型应用场景编程案例，便于大家查阅学习...

2017-10-23 18:27:32 69444 6

个人觉得IT十年的大数据系列的博文非常干货。对于希望掌握整个大数据行业的技术栈的一个初步了解非常的有帮助，本人也是有事没事的上来看看。所以整理出来一个目录，放在自己的博客里，方便寻找学习。大数据(一) - hadoop生态系统及版本演化大数据(二) - HDFS 大数据(三) - YARN 大数据(四) - MapReduce 大数据(五) - HBase 大数据(六) - ZooKeeper ...

2016-10-23 22:35:26 53223

原创倾情大奉送--Spark入门实战系列

这一两年Spark技术很火，自己也凑热闹，反复的试验、研究，有痛苦万分也有欣喜若狂，抽空把这些整理成文章共享给大家。这个系列基本上围绕了Spark生态圈进行介绍，从Spark的简介、编译、部署，再到编程模型、运行架构，最后介绍其组件SparkSQL、Spark Streaming、Spark MLib和Spark GraphX等。文章内容的整理一般是先介绍原理，随后是实战例子，由于面向的是入门读者

2016-10-23 22:23:00 48920

原创周志湖Spark系列

本人本着十分尊重的态度来学习周老师的博文，特此为方便好找，在此做一个目录。方便学习。Scala-IDE Eclipse（Windows)中开发Spark应用程序，在Ubuntu Spark集群上运行

2016-10-23 21:14:17 49579 1

原创 Scala入门到精通

这是本人收集的Scala学习资料，觉得还不错。转载比较费事，所以就只给链接了。顺便做个目标，方便好找。Scalar入门到精通：1、Scala入门到精通——第一节 Scala语言初步

2016-08-17 18:28:26 54198 1

原创 Apache Kafka 3.0 版本发布

Apache Kafka 3.0 发布，发布日志：Kafkahttps://blogs.apache.org/kafka/

2021-09-23 10:03:43 1598

原创 IDEA 2021.2 取消双击shift 全局搜索

缘由由于双击输入法中，习惯了使用 shift 做中英文切换，有时候手速快，就会出现双击 shift 弹出 IDEA 的全局搜索。非常不爽。在网上找到的各种方案，都是去勾选ide.suppress.double.click.handler，但是 IDEA 2021.2 这个版本已经没有这个选项了，甚是痛苦，不知道为何要取消这个选项。然后到处搜索，然后 CSDN 的戒酒的李白1032 的https://blog.csdn.net/qq_29062045/article/details/1...

2021-08-11 10:55:13 3746 30

原创 Spark 3.1.1 新特性

目录Spark-3.1.1 新特性Project Zen支持 Python 类型（Python typing support ）支持依赖关系管理为 PyPI 用户提供新的安装选项PySpark 相关的文档完善ANSI SQL 兼容性性能提升Predicate pushdownShuffle 消除，子表达式消除和嵌套字段修剪Shuffle-Hash Join (SHJ) 支持所有的 join 类型Streaming 的改进其他 Spark 3.1 的改进

2021-03-04 13:32:19 2819 1

原创大数据中台

数据中台的由来数据中台最早是阿里提出的，但真正火起来是2018 年，我们能感受到行业文章谈论数据中台的越来越多。大量的互联网、非互联网公司都开始建设数据中台。为什么很多公司开始建设数据中台？尽管数据中台的文章很多，但是一千人眼里有一千个数据中台，到底什么是数据中台？数据中台包含什么?当企业需要数据化转型、精细化运营，进而产生大规模数据应用需求的时候，就需要建设数据中台。数据中台是高质量、高效赋能数据前台的一系列数据系统和数据服务的组合。数据中台包含数仓体系、数据服务集和BI 平台。1、是...

2020-08-28 11:17:11 7848 4

原创 Hive的SQL编译源码详解

看图完事：

2020-07-06 11:36:29 3126 2

原创 Spark的任务提交和执行流程详解

直接上图：

2020-06-30 21:41:58 1895

原创 Hive窗口函数row_number案例

数据文件是：rownumbertest.txt字段信息是：id,sex,age,name1,男,18,张三2,女,18,李四3,女,20,王五4,男,18,赵六5,男,18,刘七6,男,19,石九7,男,38,黄渤8,女,22,刘嘉玲9,女,23,王菲10,女,28,刘亦菲11,女,18,赵丽颖用户信息表create database if not exists hive_test;use hive_test;drop table if exists rown

2020-05-31 20:43:27 1306

原创如何精进大数据技术

前几天跟前58的技术委员会主席孙玄聊天，聊天过程中得知他想搞大数据课程，于是我们有了如下对话。问：根据你的观察，现在企业里面很多想搞大数据的工程师普遍有什么特点？孙老板：很多同学的大数据知识是东拼西凑的，看B站上的视频学了一点，项目当中用过一点，没有系统化，而且不深入，这些同学其实是做不了真正的大数据工程师的工作的。问：那你觉得如上的同学如果想要突破，有什么方式吗？孙老板：根据...

2020-03-27 12:05:33 3013

原创 Typora配置正文、目录、侧边大纲中的标题自动编号

第一步：点击 "文件" 打开 "偏好设置"，找到 "外观"， "主题"， "打开主题文件夹"第二步：在该文件夹中创建一个文件：base.user.css第三步：在创建的base.user.css文件中，放置如下内容：/*************************************** Header Counters in TOC********...

2020-03-26 17:21:48 9917 9

原创 Hive--笔试题05_2--求TopN

现在有这样一份数据：1,huangxiaoming,45,a-c-d-f2,huangzitao,36,b-c-d-e3,huanglei,41,c-d-e4,liushishi,22,a-d-e5,liudehua,39,e-f-d6,liuyifei,35,a-d-e字段的意义：id,name,age,favorsid,姓名,年龄,爱好其中需要注意的是：每...

2020-02-29 19:16:56 2353

原创同步异步+阻塞非阻塞-四述

常规的误区假设有一个展示用户详情的需求，分两步，先调用一个HTTP接口拿到详情数据，然后使用适合的视图展示详情数据。如果网速很慢，代码发起一个HTTP请求后，就卡住不动了，直到十几秒后才拿到HTTP响应，然后继续往下执行。这个时候你问别人，刚刚代码发起的这个请求是不是一个同步请求，对方一定回答是。这是对的，它确实是。但你要问它为什么是呢？对方一定是这样回答的，“因为发起请求后，代...

2020-01-31 23:25:15 1168

原创如何高效的学习技术

如何高效的学习技术我们相信努力学习一定会有收获，但是方法不当，既让人身心疲惫，也没有切实的回报。高中时代，我的同桌是个漂亮女同学。她的物理成绩很差，虽然她非常勤奋的学习，但成绩总是不理想。为了巩固纯洁的同学关系，我亲密无间地辅导她的物理，发现她不知道题目考什么。我们的教科书与试题都围绕着考试大纲展开，看到一道题，应该先想想它在考哪些定理和公式的运用。不少朋友每天都阅读技术文章，但是第...

2020-01-31 23:18:29 1705 1

原创 Python2与Python3的区别详解整理

一、核心类差异1. Python3 对 Unicode 字符的原生支持。Python2 中使用 ASCII 码作为默认编码方式导致 string 有两种类型 str 和 unicode，Python3 只支持 unicode 的 string。Python2 和 Python3 字节和字符对应关系为：2. Python3 采用的是绝对路径的方式进行 importPython2 中相对路...

2019-12-23 20:55:20 2032

原创四百多篇博客专栏归类让你直接晋级老手

IDE开发工具（4篇）：https://blog.csdn.net/java_wxid/category_8600829.htmlJava基础（17篇）：https://blog.csdn.net/java_wxid/category_8600390.htmlMySQL（15篇）：https://blog.csdn.net/java_wxid/category_8600406.htmlJDB...

2019-11-25 11:06:50 1613 2

原创 Python全详解--大纲（全网最清晰学习思路）

Python学习大纲：1、编程语言介绍发展历程静态编程语言/动态编程语言编译型/解释型强类型/弱类型面向对象/面向过程/函数式各常见编程语言对比2、Python介绍产生背景优缺点特点适用场景解释器虚拟环境3、Python的版本选择 python2 python34、Python安装...

2019-11-15 19:18:00 13174 572

原创 JVM内存结构 VS Java内存模型 VS Java对象模型

Java作为一种面向对象的，跨平台语言，其对象、内存等一直是比较难的知识点。而且很多概念的名称看起来又那么相似，很多人会傻傻分不清楚。比如本文我们要讨论的JVM内存结构、Java内存模型和Java对象模型，这就是三个截然不同的概念，但是很多人容易弄混。可以这样说，很多高级开发甚至都搞不不清楚JVM内存结构、Java内存模型和Java对象模型这三者的概念及其间的区别。甚至我见过有些面试官自...

2019-10-21 15:14:21 1056

原创百度现场面试：JVM+算法+Redis+数据库！(三面）

百度一面（现场）自我介绍Java中的多态为什么要同时重写hashcode和equalsHashmap的原理Hashmap如何变线程安全，每种方式的优缺点垃圾回收机制Jvm的参数你知道的说一下设计模式了解的说一下啊手撕一个单例模式算法题目手撕算法：反转单链表手撕算法：实现类似微博子结构的数据结构，输入一系列父子关系，输出一个类似微博评论的父子结构图手写java多线程手...

2019-09-03 08:36:50 2443 1

原创 HBase--Split和Compact

1 Region拆分一个Region代表一个表的一段Rowkey的数据集合，当Region太大，Master会将其拆分。Region太大会导致读取效率太低，遍历时间太长，通过将大数据拆分到不同机器上，分别查询再聚合，Hbase也被人称为“一个会自动分片的数据库”。Region可以手动和自动拆分。1.1 Region自动拆分1.1.1 ConstantSizeRegionSplitPo...

2019-07-01 13:42:08 7713

原创数据分区详解

数据分区详解数据分区的五种常用方式：1、随机分区优点：数据分布均匀缺点：具有相同特点的数据不会保证被分配到相同的分区2、Hash分区优点：具有相同特点的数据保证被分配到相同的分区特点：会产生数据倾斜3、范围分区缺点：提高查询速度，相邻的数据都在相同的分区缺...

2019-06-27 14:37:22 10061

原创安装vmware虚拟机详细教程

VMware下载与安装一、虚拟机的下载1、进入VMware官网，点击左侧导航栏中的下载，再点击图中标记的Workstation Pro，如下图所示。2、根据操作系统选择合适的产品，在这里以Windows系统为例，点击转至下载，如下图所示。3、在1处可以选择版本，默认为最新版本。选择好版本...

2019-06-27 08:59:04 8546

原创 Hive--笔试题05_1--求TopN

现在有一个面试题场景举例北京市学生成绩分析成绩的数据格式exercise5_1.txt 文件中的每一行就是一个学生的成绩信息。字段之间的分隔符是","时间,学校,年纪,姓名,科目,成绩样例数据2013,北大,1,黄渤,语文,972013,北大,1,徐峥,语文,522013,北大,1,刘德华,语文,852012,清华,0,马云,英语,612015,...

2019-06-26 13:28:39 9640 4

原创 Hive内置函数

数学函数下面表格中的函数为Hive的内置数学函数，大部分当参数为NULL时返回NULL。返回类型函数名描述 bigint round(double a) 返回a经过四舍五入的BIGINT值 double round(doubl...

2019-06-25 18:02:17 8110

原创 Hive--笔试题01--窗口分析函数实现

有以下一份数据：A,2015-01,5A,2015-01,15B,2015-01,5A,2015-01,8B,2015-01,25A,2015-01,5A,2015-02,4A,2015-02,6B,2015-02,10B,2015-02,5A,2015-03,16A,2015-03,22B,2015-03,23B,2015-03,10B,2015-03,11...

2019-06-25 12:52:07 11417 3

原创 Hive--笔试题01--自连接实现

有以下一份数据：A,2015-01,5A,2015-01,15B,2015-01,5A,2015-01,8B,2015-01,25A,2015-01,5A,2015-02,4A,2015-02,6B,2015-02,10B,2015-02,5A,2015-03,16A,2015-03,22B,2015-03,23B,2015-03,10B,2015-03,11...

2019-06-25 12:47:28 13821 8

原创求二维数组蓄水数

1、需求接上一个需求：求一维数组蓄水数，如果数组是二维数组呢？如果求得蓄水数呢？比如这种情况：红色的格子是能蓄水的格子，蓝色的各自是墙，也就是不能蓄水的格子2、解题思路其实对于这种题目，会很很多的难点，比如：简单低洼地带，直接求蓄水数，上下左右 55 5 5，那中间的3 是能蓄水的比如：比如这种：以上这些图形出现的时候...

2019-06-20 19:58:34 9167 2

原创求一维数组蓄水数

1、需求很多程序员在面试的时候，都可能遇到一些逻辑思维/编程题，这样的题目非常有意思。而且非常考验程序员的解题技巧和代码编写能力。我这儿就曾经遇到过一个。具体需求看图2、解题思路废话不多数。直接给大家讲解思路：1、先找出整个数组中的最大值。2、整个数组就被这个最大值给分成了两个数组。3、左边数组，从左往右遍历，计算每个位置的蓄水数，计算规则是：找到当前位置的左...

2019-06-20 18:56:00 9420 3

原创利用zookeeper模拟实现HA高可用

利用zookeeper模拟实现HA高可用1、需求在分布式场景中，对于主从架构来说，最大的问题就是单点故障。当学过zookeeper之后，我们都知道，可以利用zookeeper集群来帮助实现Hadoop的HA，那到底Hadoop的HA是如何实现的呢？2、实现思路zookeeper给我们提供了两个非常重要的组件：1、...

2019-06-19 19:16:26 12737 1

原创 MapReduce--14--学生成绩（增强版）--需求3

题目描述关于对于学生成绩相关的练习题，之前是一个入门级别的需求，现在对这些需求进行增强，首先看数据的改变：computer,huangxiaoming,85,86,41,75,93,42,85computer,xuzheng,54,52,86,91,42computer,huangbo,85,42,96,38english,zhaobenshan,54,52,86,91,42,85...

2019-06-18 10:25:30 14369 2

原创 MapReduce--13--学生成绩（增强版）--需求2

题目描述关于对于学生成绩相关的练习题，之前是一个入门级别的需求，现在对这些需求进行增强，首先看数据的改变：computer,huangxiaoming,85,86,41,75,93,42,85computer,xuzheng,54,52,86,91,42computer,huangbo,85,42,96,38english,zhaobenshan,54,52,86,91,42,85...

2019-06-17 21:46:08 13965 2

原创 MapReduce--12--学生成绩（增强版）--需求1

题目描述关于对于学生成绩相关的练习题，之前是一个入门级别的需求，现在对这些需求进行增强，首先看数据的改变：computer,huangxiaoming,85,86,41,75,93,42,85computer,xuzheng,54,52,86,91,42computer,huangbo,85,42,96,38english,zhaobenshan,54,52,86,91,42,85...

2019-06-17 21:28:11 14837 5

原创 MapReduce--11--学生成绩（基础版）--需求2

对于刚入门MapReduce的同学来说，学会mapreduce的基本编程套路，懂得mapreduce是如何对于大批量数据集做分布式运算的是非常关键的。这里有一个需求，增强各位对mapreduce编程的理解首先看数据：computer,huangxiaoming,85computer,xuzheng,54computer,huangbo,86computer,liutao,85...

2019-06-17 20:48:00 14431

原创 MapReduce--10--学生成绩（基础版）--需求1

对于刚入门MapReduce的同学来说，学会mapreduce的基本编程套路，懂得mapreduce是如何对于大批量数据集做分布式运算的是非常关键的。这里有一个需求，增强各位对mapreduce编程的理解首先看数据：computer,huangxiaoming,85computer,xuzheng,54computer,huangbo,86computer,liutao,85...

2019-06-17 20:35:28 15710 1

原创斐波拉契数列 Java三种实现

对于很多Java初学者来说，求解斐波拉契数列，基本上所使用的方式都是递归。对于求解斐波拉契数列来说，递归的实现方式的效率是极其低下的。在此，我贴出三种实现（递归，迭代，动态规划）：我们先看代码的执行效果：再看代码实现：package com.aura.funny.fibonacci;import java.util.HashMap;import java.util...

2019-06-11 08:33:53 13215 4

NIO 学习文档

hadoop-eclipse-plugin-2.7.4.jar

settings.xml

空空如也