中琦2513-CSDN博客

原创虚拟机磁盘压缩

问题虚拟机越来越大，只能扩容，不能压缩变小节省磁盘空间，甚为苦恼。在网上找了各种资料，基本上，都是不合适的方式，不是我们想要的方式，我把最适合我们方式的一种方法贴出来，方便大家首先看效果：压缩的前后对比具体实施操作步骤：1、开机首先保证虚拟机是开机状态2、安装VMWare Tools如果没有安装成功，则自行百度解决...

2019-06-10 08:35:09 15209 1

原创 Kafka面试题

Kafka是现在流行的消息中间件，在大数据开发面试中被问到的可能性非常大，下面放出一些kafka面试中，经常可能被问到的kafka的面试题，大家可以学习学习： Kafka的用途有哪些？使用场景如何？ Kafka中的ISR、AR又代表什么？ISR的伸缩又指什么 Kafka中的HW、LEO、LSO、LW等分别代表什么？ Kafka中是怎么体现消息顺序性的？ ...

2019-06-07 07:40:03 16823 2

原创最常用的15大Eclipse开发快捷键技巧

做Java开发的，经常会用Eclipse或者MyEclise集成开发环境，一些实用的Eclipse快捷键和使用技巧，可以在平常开发中节约出很多时间提高工作效率，下面我就结合自己开发中的使用和大家分享一下Eclipse中常用到的快捷键和技巧。1、alt+?或alt+/：自动补全代码或者提示代码这个是我最得意的快捷键组合了，尤其是当输入syso几个字符之后，2个手指轻松按下这2个键的时候...

2019-05-28 14:57:00 12715 2

原创 Spark-2.x 中文文档

Spark 概述编程指南快速入门 Spark 编程指南概述 Spark 依赖 Spark 的初始化 Shell 的使用弹性分布式数据集（RDDS）并行集合外部数据集 RDD 操作 RDD 持久化共享变量 Broadcast Variables （广播变量） Accumulators ...

2019-05-27 21:04:17 12984 1

博客是记录学习历程、分享经验的最佳平台，多年以来，各路技术大牛在ITeye网站上产生了大量优质的技术文章，并将系列文章集结成专栏，以便读者能够更便捷、更系统地浏览学习，这些可称之为“编程精华资源”。为了便于读者更好地查阅，本文将ITeye中的这些精华资源进行了整理分类，你可以通过文中链接跳转到相应的专栏，希望技术大牛们的这些不可多得的经验分享，能够为你的技术学习、开发之路带来一些帮助。在此首...

2019-05-12 18:58:23 14295

原创编程语言 IDE 对比

IDE是集成开发环境的英文缩写，所谓集成开发环境，就是将你在开发过程中所需要的工具或功能集成到了一起，比如代码编写、分析、编译、调试等功能，从而最大化地提高开发者的工作效率。每种编程语言都有一些特定的IDE，本文将简单为你介绍这些IDE之间的区别，希望能够为你选择IDE时提供一些帮助。本文转自这里：https://www.iteye.com/magazines/134-IDE-Compa...

2019-05-12 18:48:37 17094 8

原创一千行MySQL学习笔记（MySQL常见SQL语句全详解）

/* 启动MySQL */net start mysql/* 连接与断开服务器 */mysql -h 地址 -P 端口 -u 用户名 -p 密码/* 跳过权限验证登录MySQL */mysqld --skip-grant-tables-- 修改root密码密码加密函数password()update mysql.user set password=password('root...

2019-05-08 12:26:56 14155

原创 Hadoop-3.x新特性

相对于之前主要生产发布版本Hadoop 2，Apache Hadoop 3整合许多重要的增强功能。 Hadoop 3是一个可用版本，提供了稳定性和高质量的API，可以用于实际的产品开发。下面简要介绍一下Hadoop3的主要变化。1、最低Java版本要求从Java7变为Java8所有Hadoop的jar都是基于Java 8运行是版本进行编译执行的，仍在使用Java 7或更低Java版本...

2019-04-12 10:18:35 16050

原创 Spark面试精选题（06）

1、Operation category READ is not supported in state standby是什么原因导致的org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.ipc.StandbyException): Operation category READ is not supported in state st...

2019-04-11 10:22:34 18097

原创 Spark面试精选题（05）

1、简答说一下hadoop的map-reduce编程模型首先map task会从本地文件系统读取数据，转换成key-value形式的键值对集合使用的是hadoop内置的数据类型，比如longwritable、text等将键值对集合输入mapper进行业务处理过程，将其转换成需要的key-value在输出之后会进行一个partition分区操作，默认使用的是hashpartitioner，可以通...

2019-04-11 10:10:31 16351

原创 Spark面试精选题（04）

1、MRV1有哪些不足1) 可扩展性（对于变化的应付能力） a) JobTracker内存中保存用户作业的信息 b) JobTracker使用的是粗粒度的锁2) 可靠性和可用性 a) JobTracker失效会多事集群中所有的运行作业，用户需手动重新提交和恢复工作流3) 对不同编程模型的支持HadoopV1以MapReduce为中心的设计虽然能支持广泛的用例，但是...

2019-04-11 10:04:36 18306

原创 Spark面试精选题（03）

1、Spark master使用zookeeper进行HA的，有哪些元数据保存在Zookeeper？答：spark通过这个参数spark.deploy.zookeeper.dir指定master元数据在zookeeper中保存的位置，包括Worker，Driver和Application以及Executors。standby节点要从zk中，获得元数据信息，恢复集群运行状态，才能对外继续提供服务...

2019-04-11 09:49:59 17677

原创 Spark面试精选题（02）

1、driver的功能是什么？1）一个Spark作业运行时包括一个Driver进程，也是作业的主进程，具有main函数，并且有SparkContext的实例，是程序的人口点；2）功能：负责向集群申请资源，向master注册信息，负责了作业的调度，，负责作业的解析、生成Stage并调度Task到Executor上。包括DAGScheduler，TaskScheduler。2、spar...

2019-04-11 09:27:35 15939

原创 Spark面试精选题（01）

1、Spark中的RDD是什么，有哪些特性概念：RDD（Resilient Distributed Dataset）叫做弹性分布式数据集，是Spark中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合。Dataset：就是一个集合，用于存放数据的Distributed：分布式，可以并行在集群计算Resilient：表示弹性的弹性表示1、RDD中的数据可以存储在...

2019-04-11 09:21:57 16435 1

原创分布式之Redis精讲

引言为什么写这篇文章?考虑到绝大部分写业务的程序员，在实际开发中使用redis的时候，只会setvalue和getvalue两个操作，对redis整体缺乏一个认知。又恰逢博主某个同事下周要去培训redis，所以博主斗胆以redis为题材，对redis常见问题做一个总结，希望能够弥补大家的知识盲点。复习要点?本文围绕以下几点进行阐述1、为什么使用redis2、使用redis有什么...

2019-03-24 17:41:58 17282

原创谷歌三篇论文（GFS,MapReduce,BigTable）

Google引爆大数据时代的三篇论文谈到Hadoop的起源，就不得不提Google的三驾马车：Google FS、MapReduce、BigTable。虽然Google没有公布这三个产品的源码，但是他发布了这三个产品的详细设计论文，奠定了风靡全球的大数据算法的基础！一，GFS—-20032003年，Google发布Google File System论文，这是一个可扩展的分布式文件系统...

2019-03-21 10:35:55 23270 3

原创 Flink Window机制详解

Flink 认为 Batch 是 Streaming 的一个特例，所以 Flink 底层引擎是一个流式引擎，在上面实现了流处理和批处理。而窗口（window）就是从 Streaming 到 Batch 的一个桥梁。Flink 提供了非常完善的窗口机制，这是我认为的 Flink 最大的亮点之一（其他的亮点包括消息乱序处理，和 checkpoint 机制）。本文我们将介绍流式处理中的窗口概念，介绍 F...

2019-03-19 11:41:27 17964

转载 hbase-default.xml详解--注释

<?xml version="1.0"?> <?xml-stylesheet type="text/xsl" href="configuration.xsl"?> <configuration>  &lt

2019-03-08 16:47:46 19459

原创阿里巴巴为什么选择Apache Flink？

阿里妹导读：伴随着海量增长的数据，数字化时代的未来感扑面而至。不论是结绳记事的小数据时代，还是我们正在经历的大数据时代，计算的边界正在被无限拓宽，而数据的价值再也难以被计算。时下，谈及大数据，不得不提到热门的下一代大数据计算引擎Apache Flink（以下简称Flink）。本文将结合Flink的前世今生，从业务角度出发，向大家娓娓道来：为什么阿里选择了Flink？本文主要整理自阿里...

2019-02-20 14:48:43 17967 2

原创 IT大咖总结的面试真经

很多学员在学习过程中，经常会遇到面试困惑和难题，相信很多人会遇到面试同样的问题，特别是学生和转行人员，对于面试认识，认知这里做了下总结，相信对大家有所帮助，内容如下：1.面试流程2.面试常问问题3.入行新手该如何写项目经验4.面试注意问题5.把面试当成是提升6.总结一、面试流程对面试流程的了解，是我们做好面试的第一步。能够让我们心中有数，做好充分的准备，不至于面试的时候...

2019-01-02 09:18:06 21872

原创 Kafka配置参数详解

Kafka主要参数详解一、相关参数配置############################ System ##############################唯一标识在集群中的ID，要求是正数。broker.id=0#服务端口，默认9092port=9092#监听地址，不设为所有地址host.name=debugo01 # 处理网络请求的最...

2018-12-11 10:39:11 23313

原创常见Excel技巧表

EXCEL常见技巧锦集一、基础操作部分：001、Excel365基础工作界面介绍002、光标跳转设置、常用的录入技巧003、多个单元格内容复制到一个单元格中、CTRL+D填充、快速做序列号004、实时预览、双击格式刷、微调字体大小005、快速移动、复制、互换位置、凹凸边框制作、给文字添加拼音、斜对齐006、利用添加拼音调整单元格内内容的行高007、跨列居中、快速选定...

2018-12-09 16:31:39 24547

原创非常全的23种设计模式详解

基础知识设计模式概述从招式与内功谈起——设计模式概述（一）：设计模式从何而来？从招式与内功谈起——设计模式概述（二）：设计模式是什么？从招式与内功谈起——设计模式概述（三）：设计模式有什么用？附：个人观点面向对象设计原则面向对象设计原则概述面向对象设计原则之单一职责原则面向对象设计原则之开闭原则面向对象设计原则之里氏代换原则面向对象设计原则之依赖...

2018-12-08 11:28:31 25025 1

原创 Python并发编程之常用概念剖析：并行串行并发同步异步阻塞非阻塞进程线程协程

1 引言　　并发、并行、串行、同步、异步、阻塞、非阻塞、进程、线程、协程是并发编程中的常见概念，相似却也有却不尽相同，令人头痛，这一篇博文中我们来区分一下这些概念。2 并发与并行　　在解释并发与并行之前，我们必须先明确：单个处理器（一个单核CPU）在某一个时刻只能处理一个线程。　　并发是指在同一个处理器上通过时间片轮转的方式在多个线程之间频繁切换，由于切换速度极快，所以看似多个线程似...

2018-12-05 18:51:09 24161

原创 HBase数据模型和表设计思路

最近在网上找到一篇描述HBase的设计思路和使用要点的文章，觉得还不错，主要是基于HBase官网推荐的一篇博客，仔细阅读了这一片博客之后，总结一下关于HBase的数据模型和表设计思路。官方推荐的博客原文地址：http://0b4af6cdc2f0c5998459-c0245c5c937c5dedcca3f1764ecc9b2f.r43.cf2.rackcdn.com/9353-login121...

2018-12-05 07:48:13 24212

原创 Hive的分区和分桶详解

create database if not exists myhive1;use myhive1;drop table if exists student;create table student(id int, name string, sex string ,age int, department string) row format delimited fields terminat...

2018-11-29 07:22:41 26805 1

原创 Hive最全常用操作大全

1、建库 create database mydb; create database if no exists mydb; create database if no exists mydb location "/aa/bb";2、查询数据库查询库列表：show databases; 查询库详细信息：desc database [exten...

2018-11-29 07:18:48 24668

原创 ZooKeeper使用场景

ZooKeeper是一个高可用的分布式数据管理与系统协调框架。基于对Paxos算法的实现，使该框架保证了分布式环境中数据的强一致性，也正是基于这样的特性，使得ZooKeeper能够应用于很多场景。网上对ZooKeeper的使用场景也有不少介绍，本文将结合作者身边的项目例子，系统的对zk的使用场景进行归类介绍。值得注意的是，ZooKeeper并不是生来就为这些场景设计，都是后来众多开发者根据框架的...

2018-11-28 21:16:54 24596

原创分布式一致性算法基本阐述

1、问题Hadoop 集群当中 N 多的配置信息如何做到全局一致并且单点修改迅速响应到整个集群？ --- 集群配置管理Hadoop 集群中的 namonode 和 resourcemanager 的单点故障怎么解决？ --- 主从架构集群的主节点的单点故障2、计算机软件服务的发展1、从集中式到分布式：最大的特点就是部署简单。2、集中式：底层都是采用性能卓越的大型主...

2018-11-28 20:33:38 24682

原创 Quorum机制与NRW算法

1、Quorum机制Quorum，原指为了处理事务、拥有做出决定的权力而必须出席的众议员或参议员的数量（一般指半数以上）。 2、NRW算法NRW算法是基于Quorum机制的是一种CP(Consistency&Partion tolerance)算法。用于在数据一致性和可靠性之间达到一种平衡。为了保证系统的正常运行，能够提供可靠的服务，分布式系统中对于数据的存储采用多份数据副...

2018-11-28 20:16:39 24952

原创 GOF设计模式（概念、原则、场景、优点、缺点、应用）

设计模式是软件大师们根据多年来的软件开发经验，对软件开发领域包括合理复用、提高健壮性、减少BUG等各方面作的抽象总结，不同的设计模式方法适合于不同的应用场景，是汇结了他们最宝贵的经验总结。最早的开发模式是1994年GOF四人共同完成的《Design Patterns - Elements of Reusable Object-Oriented Software》一书提及的23种经典设计模式，至今仍...

2018-11-27 16:34:13 26638

原创设计模式

1、基本原则1、单一职责原则就一个类而言，应该仅有一个引起它变化的原因（如果你能够想到多于一个的动机去改变一个类，那么这个类就具有多一个的职责，就应该考虑类的职责分离） 2、开放-封闭原则对扩展是开放的。对更改是关闭的。简单来说，就是可以增加，不可以修改 3、依赖倒转原则抽象不应该依赖细节，细节应该依赖于抽象 ...

2018-11-27 15:25:08 24255

原创同步异步+阻塞非阻塞-三述

在IT圈混饭吃，不管你用什么编程语言、从事前端还是后端，阻塞、非阻塞、异步、同步这些概念，都需要清晰地掌握，否则，怎么与面试官谈笑风生（chui niu pi）？但是，掌握这些概念又不是非常容易，尤其对非科班出身的，更加困难。本文试图给出一个清晰简明但不失深刻的介绍，希望对大家有所帮助。1、从I/O说起这些概念之所以容易令人迷惑，在于很多人对I/O就没有清晰准确的理解，后面的理解自然不可...

2018-11-27 14:56:19 24376

原创查看linux版本信息

查看Linux版本信息1、查看内核版本命令2、查看Linux版本1、查看内核版本命令[root@localhost ~]# cat /proc/versionLinux查看当前操作系统版本信息[root@localhost ~]# uname -r[root@localhost ~]# uname -aLinux查看版本当前操作系统内核信息2、查看Linux版本[root@l...

2018-10-30 13:28:51 27630

原创 HDFS的垃圾回收站

HDFS的垃圾回收站首先需要明白一点，现在linux系统好像没有回收站的说法了，所以在删除别人的文件或文件夹之前一定要慎重，毕竟rm命令是高危命令，删除了就没有了，所以对于高危命令，我们要保持敬畏之心.hdfs在部署的时候默认垃圾回收站是禁用的，因此hdfs是可以开启垃圾回收站的。先看看官网对回收站的解释：第一个参数：fs.trash.interval=0 表示禁用Number of...

2018-10-14 18:39:07 29940

原创 Scala集合的mutable和immutable解释

文章目录

2018-10-07 12:58:24 39799

原创 CSDN的MarkDown使用手册

这是CSDN上的MarkDown编辑器的语法，给出原生指导的编辑手册。左边是文本编写表示方式，右边是效果 1、主标题：@[TOC](这里是标题) 2、一级标题# 这里是一级标题 3、二级标题：## 这里是二级标题 4、加粗**Markdown编辑器** 5、序号： ...

2018-10-07 12:18:35 30065

原创 Spark-submit工具参数说明

spark-submit工具参数说明执行时需要传入的参数说明Usage: spark-submit [options] <app jar | python file> [app options] 参数名称含义 --master MASTER_URL 可以是spark://host:port,...

2018-09-18 07:09:48 31289

原创从技术转管理，我做了什么来拯救自己？

我是一名新手项目经理，转项目管理岗1年半。在做管理之前，我是一名开发。也就是说，我是最常见的技术转管理了。最开始，我极度不适应这个岗位。很累，但是不见成效。经过一年多的摸索，我终于在工作中总结出了一些心得，一些套路。所以我想给技术转管理的同学们讲一讲：我做了什么，来拯救自己个人背景和公司背景1.目前为止工作4年半，也就是说，我做了3年开发，1年半管理2.我是一名野生程序员（就是非计...

2018-09-09 10:24:08 31310

原创 Spark的WordCount到底产生了多少个RDD

Spark的WordCount到底产生了多少个RDD不少的同学在面试中会被问到：这样的一句标准的sparkcore的wordcount的代码到底能要产生几个RDD呢。相信大家对于一个标准的WordCount的代码一定不陌生：sc.textFile("hdfs://myha01/wc/input/words.txt") .flatMap(_.split(" ")) .map((_,...

2018-09-05 08:43:23 36503 2

NIO 学习文档

hadoop-eclipse-plugin-2.7.4.jar

settings.xml

空空如也