中琦2513-CSDN博客

原创 MapReduce - 性能调优

Hadoop为用户作业提供了多种可配置的参数，以允许用户根据作业特点调整这些参数值使作业运行效率达到最优。一应用程序编写规范1.设置Combiner 对于一大批MapReduce程序，如果可以设置一个Combiner,那么对于提高作业性能是十分有帮助的。Combiner可减少Map Task中间输出的结果，从而减少各个Reduce Task的

2017-09-27 17:31:59 45448

原创 Hadoop - MapReduce MRAppMaster-剖析

一概述 MRv1主要由编程模型(MapReduce API)、资源管理与作业控制块(由JobTracker和TaskTracker组成)和数据处理引擎(由MapTask和ReduceTask组成)三部分组成。而YARN出现之后，资源管理模块则交由YARN实现，这样为了让MapReduce框架运行在YARN上，仅需要一个ApplicationMaster组件完成作业控制模

2017-09-27 17:29:30 45674

在做Shuffle阶段的优化过程中，遇到了数据倾斜的问题，造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和，优化是基于这些Counters得出的平均值，而由于数据倾斜的原因造成map处理数据量的差异过大，使得这些平均值能代表的价值降低。Hive的执行是分阶段的，map处理数据量的差异取决于上一个stage的reduce输出，所以如何将数据均匀的

2017-09-24 23:26:32 46296

原创 shell 快捷键超提高命令行，输入效率

根据功能进行归类。光标移动命令说明Alt + b后移一个单词Alt + f前移一个单词Ctrl + b后移一个字符Ctrl + f前移一个字符Ctrl + a把光标移到行首Ctrl + e把光标移到行尾

2017-09-24 10:53:23 45986

原创 hadoop 2.x常用端口及查看方法

hadoop 2.x常用端口及查看方法一、常用端口组件节点默认端口配置用途说明HDFSDataNode50010dfs.datanode.addressdatanode服务端口，用于数据传输HDFSDataNode50075dfs.datanode

2017-09-22 07:53:12 45553

原创 Java虚拟机详解——JVM常见问题总结

先把本文的目录画一个思维导图：一、Java引用的四种状态：强引用：　　用的最广。我们平时写代码时，new一个Object存放在堆内存，然后用一个引用指向它，这就是强引用。 *　　如果一个对象具有强引用，那垃圾回收器绝不会回收它*。当内存空间不足，Java虚拟机宁愿抛出OutOfMemoryError错误，使程序异常终止，也不会靠随意回收具有强引用的对象来解决内存不

2017-09-18 12:57:54 45855

转载深入解析Spark中的RPC

Spark是一个快速的、通用的分布式计算系统，而分布式的特性就意味着，必然存在节点间的通信。本文主要介绍不同的Spark组件之间是如何通过RPC（Remote Procedure Call) 进行点对点通信的，分为三个章节：Spark RPC的简单示例和实际应用；Spark RPC模块的设计原理；Spark RPC核心技术总结。一、Spark RPC的简单示例和实际应用Sp

2017-08-31 13:38:18 48815

原创基于python实现的抓取腾讯视频所有电影的爬虫

我搜集了国内10几个电影网站的数据，里面近几十W条记录，用文本没法存，mongodb学习成本非常低，安装、下载、运行起来不会花你5分钟时间。# -*- coding: utf-8 -*-# by mazh. my site: http://blog.csdn.net/zhongqi2513import reimport urllib2from bs4 import Beauti

2017-08-08 13:11:38 55027 2

原创 Linux查看、修改SELinux的状态

SELinux(Security-Enhanced Linux) 是美国国家安全局（NSA）对于强制访问控制的实现，是 linux历史上最杰出的新安全子系统。但是我们一般都不用它，因为它管的东西太多了，想做安全可以用防火墙等其他措施。我们可以通过查看配置文件的命令 cat /etc/selinux/config 来查看状态，[root@lill ~]# cat /etc/selinux/

2017-08-02 20:14:41 46156

原创 Hive学习之抽样（Sampling）

当数据量特别大时，对全体数据进行处理存在困难时，抽样就显得尤其重要了。抽样可以从被抽取的数据中估计和推断出整体的特性，是科学实验、质量检验、社会调查普遍采用的一种经济有效的工作和研究方法。 Hive支持桶表抽样和块抽样，下面分别学习。所谓桶表指的是在创建表时使用CLUSTERED BY子句创建了桶的表。桶表抽样的语法如下：[sql] view plai

2017-07-06 21:23:23 46693

原创 Maven POM.xml 标签详解

pom作为项目对象模型。通过xml表示maven项目，使用pom.xml来实现。主要描述了项目：包括配置文件；开发者需要遵循的规则，缺陷管理系统，组织和licenses，项目的url，项目的依赖性，以及其他所有的项目相关因素。<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www

2017-07-05 21:47:22 46002

原创 HDFS--机架感知

一、背景介绍Hadoop的设计目的：解决海量大文件的处理问题，主要指大数据的存储和计算问题，其中，HDFS解决数据的存储问题；MapReduce解决数据的计算问题 Hadoop的设计考虑：设计分布式的存储和计算解决方案架构在廉价的集群之上，所以，服务器节点出现宕机的情况是常态。数据的安全是重要考虑点。HDFS的核心设计思路就是对用户存进HDFS里的所有数据都做冗余备份，以此保证

2017-06-24 22:20:24 51337 8

原创 EditPlus技巧集锦

本人收集到的一些关于使用EditPlus的一些小技巧，怕忘记，所以记在博客啦，各位看官，如果有好用的技巧，麻烦推荐给我哈。1、去掉.bak文件2、讲文件中所有两个以上的空格替换成tab

2017-06-18 14:29:05 45921

原创简明VIM攻略

你想以最快的速度学习人类史上最好的文本编辑器VIM吗？你先得懂得如何在VIM幸存下来，然后一点一点地学习各种戏法。Vim the Six Billion Dollar editorBetter, Stronger, Faster.学习 vim 并且其会成为你最后一个使用的文本编辑器。没有比这个更好的文本编辑器了，非常地难学，但是却不可思议地好用。我建议下面这四个

2017-06-17 12:33:36 45764

原创《Hadoop Operations》读书笔记 - 4 - 第五章安装与配置

安装 Hadoop有无数种办法可以安装 Hadoop，这里给出的只是最佳实践的建议。对于 tarball 安装来说，拥有很大的灵活性，但同样也带来了很多不确定性。作为管理员需要为其额外的创建用户，以及准备各种目录，配置各种目录的权限。如果不确定自己应该使用哪种安装方式，应该先从软件源或者 RPM/Deb 软件包安装开始。Hadoop 的运行不需要使用 root 权限。但是安装的时候，需

2017-06-03 17:39:20 45920

原创《Hadoop Operations》读书笔记 - 3 - 第四章规划集群

选择 Hadoop 发布以及版本计划部署 Hadoop 集群的第一件事情就是选择 Hadoop 的发布和版本。需要开发人员、分析师、以及BI类其他系统共同来决定。一般提到 Hadoop 往往除了 Hadoop 核心外，还会需要其生态圈的其它组成部分。所有这些组成部分必须要考虑到兼容性的问题，包括二进制兼容和API兼容。Apache Hadoop在 1.0 以前，Apache 很久才

2017-06-03 17:38:28 45965

原创《Hadoop Operations》读书笔记 - 2 - 第三章 MapReduce

MapReduce，在这里实际上有两个含义，一个是一种分布式计算模型；另一个是某种特定实现，比如Apache Hadoop MapReduce。其设计目的是为了简化大规模、分布式、高容错性的数据处理应用的开发，目前MapReduce是首选方案。在MapReduce中，将任务拆分成了两部分，Map 函数和 Reduce 函数，开发人员只需要关注这二者实现即可，而底层构架则负责如何并行化、如何调度

2017-06-03 17:37:12 45466

原创《Hadoop Operations》读书笔记 - 1 - 第二章 HDFS

传统存储是 SAN 或者 NAS，提供了集中化、低延时的块存储或者文件系统，以支持TB级数据。在面对关系型数据库之类的服务时，这是很好的选择。但是面对上万台计算机同时提取几百TB的数据时，这种集中型存储就难以胜任了。HDFS的设计目标存储上百万的大文件，每个文件都大于几十TB的数量级；使用普通服务器，横向扩展，不必使用RAID；针对大规模、流式读写进行优化，而不考虑低延时或者小文件。批

2017-06-03 17:36:20 45343

原创大数据学习路线

最近有很多人问我如何学习大数据？我也是思考了很多时日才动笔写下此文。一方面我自己还只是大数据学习中的一个小学生，贸然动笔怕贻笑大方；另一方面大数据本身领域博大精深，其涵盖领域之广技术种类之多确实很难用一篇文章囊括。怎奈“下雨天打孩子，闲着也是闲着”，况笔者一直坚持写技术类的博客，今天也请允许我写一点务虚类的东西吧。本文的目的是希望给所有大数据初学者规划一条比较清晰的学习路线，帮助它

2017-06-03 16:35:58 51488 10

原创人工智能与机器学习速查表

机器学习和深度学习库速查表Numpy库PandasScipyMatplotlibScikit LearnKerasNeural Networks Zoo

2017-06-03 14:43:23 45654

原创最全面的 Spring 学习笔记

Spring致力于提供一种方法管理你的业务对象。在大量Java EE的应用中，随处可见Spring。今天我将简单的介绍一下Spring这个框架。本文适合读者：想学Spring的Java开发者刚用Spring不久的人Why为什么要使用Spring？Spring主要两个有功能为我们的业务对象管理提供了非常便捷的方法：DI（Dependency

2017-06-03 14:05:56 47470 1

原创 69个经典的Spring面试题和答案

1. 什么是spring?Spring 是个java企业级应用的开源开发框架。Spring主要用来开发Java应用，但是有些扩展是针对构建J2EE平台的web应用。Spring 框架目标是简化Java企业级应用开发，并通过POJO为基础的编程模型促进良好的编程习惯。 2. 使用Spring框架的好处是什么？轻量：Spring 是轻量的，基本的版本大约2M

2017-06-03 14:04:45 46066

原创新手必看的jQuery参考手册主要API

本文整理了一些主要的jQuery API，其中包括jQuery 核心函数和方法、jQuery属性参考手册、jQuery CSS操作、jQuery选择器、jQuery文档操作、jQuery筛选操作、jQuery事件方法、jQuery效果、jQuery Ajax操作、jQuery工具函数、jQuery事件对象、jQuery延迟对象、jQuery回调函数，欢迎收藏使用。jquery核心函数函

2017-05-11 17:48:36 46338

原创 scala习题精选100道

1、**[primary]**关于和Scala进行交互的基本方式REPL说法错误的是? CA、R 读取（read）B、E 求值（evaluate）C、P 解析（Parse）D、L 循环（Loop）2、**[primary]**不属于Scala7种数值类型的是? DA、CharB、IntC、FloatD、LongLong3、**[pri

2017-05-09 00:29:51 48334

原创阿里巴巴Java开发手册快速学习

善医者“未有形而除之”，提高工程健壮性最好的方式是在代码出现问题之前就排除掉，不给Bug出现的机会。一份好的开发规范就可以起到这样的作用，大大减少产品上线后的问题。《阿里巴巴Java开发手册》是阿里巴巴的内部编码规范，阿里官方的Java代码规范标准，这份开发手册不仅规范了一些开发细节，也提出了很多工程开发的哲学，值得好好阅读。

2017-04-14 09:04:38 46055

原创 Java字符串格式化详解

在 Java 的 String 类中，可以使用 format() 方法格式化字符串，该方法有两种重载形式： String.format(String format, Object… args) 和 String.format(Locale locale, String format, Object… args) 。两者的唯一区别是前者使用本地语言环境，后者使用指定语言环境查看源码可以发现，

2017-04-10 17:35:18 46153

原创 Hive基础知识介绍

Hive是基于Hadoop的数据仓库工具，可对存储在HDFS上的文件中的数据集进行数据整理、特殊查询和分析处理，提供了类似于SQL语言的查询语言–HiveQL，可通过HQL语句实现简单的MR统计，Hive将HQL语句转换成MR任务进行执行。一、概述1-1 数据仓库概念数据仓库（Data Warehouse）是一个面向主题的（Subject Oriented）、集成的（Int

2017-04-06 12:05:53 52445 2

原创 Hive 五种数据导入方式介绍

问题导读： 1、Hive五种数据导入方式有哪些？ 2、导入表命令中有无LOCAL关键字的区别？ 3、使用OVERWRITE或INTO关键字的作用及区别？ 4、INPATH路径的限制？ 5、什么是动态分区插入？ 6、动态分区插入需要做哪些设置？内容：既然Hive没有行级别

2017-04-06 11:47:21 52029

原创 Hive SQL的编译过程

Hive是基于Hadoop的一个数据仓库系统，在各大公司都有广泛的应用。美团数据仓库也是基于Hive搭建，每天执行近万次的Hive ETL计算流程，负责每天数百GB的数据存储和分析。Hive的稳定性和性能对我们的数据分析非常关键。在几次升级Hive的过程中，我们遇到了一些大大小小的问题。通过向社区的咨询和自己的努力，在解决这些问题的同时我们对Hive将SQL编译为MapReduce的过

2017-04-06 11:42:18 46261

原创 Linux 系统结构详解

Linux系统一般有4个主要部分：内核、shell、文件系统和应用程序。内核、shell和文件系统一起形成了基本的操作系统结构，它们使得用户可以运行程序、管理文件并使用系统。部分层次结构如图1-1所示。1. linux内核内核是操作系统的核心，具有很多最基本功能，它负责管理系统的进程、内存、设备驱动程序、文件和网络系统，决定着系统的性能和稳定性。Linu

2017-04-05 10:49:24 46217

原创 Linux命令find的35个实例

注：本文内容参考《35 Practical Examples of Linux Find Command》网址：http://www.tecmint.com/35-practical-examples-of-linux-find-command/ Linux 查找命令是Linux系统中最重要和最常用的命令之一。查找用于根据与参数匹配的文件指定的条件来搜索和查找文件和目录列表的命令。查找可

2017-04-05 08:39:55 46242

原创 Hibernate之底层原理的7点整理和总结

开心一笑【老婆想减肥，让老公帮她买减肥药，老公：吃药伤身，现在挺好，多有肉感啊。儿子：其实真有点胖，老公立刻瞪了儿子一眼：小孩子不知道别乱讲，你妈妈这身材我喜欢。然后，趁老婆不注意狠狠的教训了儿子：以后说话注意点，减肥药很贵的，你要告诉你妈，少吃点饭不就减下去了。都是套路啊……】提出问题关于hibernate，个人的7点简单整理和总结???解决问题1

2017-04-01 13:56:17 46193

原创史上最全最强大VIM操作

简评：Vim编辑器在程序员界可谓无人不知，无人不晓，它功能强大，扩展性极高。小编就经常看到高手可以使用Vim熟练地对文本进行各种操作，那可以比鼠标点来点去快得多了。但想成为Vim高手可没那么简单，摆在我们这些新手的第一关就是记忆Vim下各种快捷键的用法，为了方便大家学习小编特地整理大量的快捷键用法供大家参考，希望大家早日成为Vim大神！1. 关于Vimvim是我最喜欢的编辑器，

2017-03-28 14:14:25 54818 2

原创 HDFS SnapShot原理

【简介】HDFS中可以对目录创建Snapshot，创建之后不管后续目录发生什么变化，都可以通过snapshot找回原来的文件和目录结构。为了启用这种功能，首先需要启用目标目录的snapshot功能，可以通过下面的命令来执行：hdfs dfsadmin -allowSnapshot 启用snapshot功能后，并不会自动进行snapshot保存，还需要先创建snapshot, 通过下面的

2017-03-26 20:42:36 49169

原创 Storm原理剖析

为什么用Stormstorm是一个免费、开源的分布式实时计算框架。它让你更方便、可靠的处理实时发送的消息。如果你之前了解过hadoop，应该知道hadoop能很快速、方便的帮你完成批量数据处理，而storm可以认为是实时数据处理领域的hadoop。storm简单，虽然他是用jvm之上的clojure编写的，但是同样支持非jvm语言。如果你不知道是否该使用storm，你可以先看看你有没有过这

2017-03-22 21:32:34 46738

原创 Java 8 时间日期库的20个使用示例

除了lambda表达式，stream以及几个小的改进之外，Java 8还引入了一套全新的时间日期API，在本篇教程中我们将通过几个简单的任务示例来学习如何使用Java 8的这套API。Java对日期，日历及时间的处理一直以来都饱受诟病，尤其是它决定将java.util.Date定义为可修改的以及将SimpleDateFormat实现成非线程安全的。看来Java已经意识到需要为时间及日期功能提供更好

2017-03-21 23:05:44 47282 1

原创 Hive基础知识

Hive是基于Hadoop的数据仓库工具，可对存储在HDFS上的文件中的数据集进行数据整理、特殊查询和分析处理，提供了类似于SQL语言的查询语言–HiveQL，可通过HQL语句实现简单的MR统计，Hive将HQL语句转换成MR任务进行执行。一、概述1-1 数据仓库概念数据仓库（Data Warehouse）是一个面向主题的（Subject Oriented）、集成的（I

2017-03-17 10:56:25 46479

原创数据的酷炫可视化

看到一篇写的非常好的关于数据可视化的博客，转载给各位看官。1、数据可视化概述1.1、数据可视化的作用数据可视化是指将数据通过图表的方式传递出来，让用户能够快速、准确地理解信息所要表达的内容，从而提高沟通效率。数据可视化的作用主要有：1）传递更多的信息，一张图能够传递的信息可能需要长篇大论才能写清楚，如你要描述最近一年公司收入情况，那你就需要说明每个月收入是多少，同比

2017-03-16 15:45:54 47084 1

原创程序员--经典10道脑力题

挑选了10个比较精彩的智力题，并且把它们都整理到了一起，与大家一同分享。10个精彩的逻辑思维题：1. 给一个瞎子52张扑克牌，并告诉他里面恰好有10张牌是正面朝上的。要求这个瞎子把牌分成两堆，使得每堆牌里正面朝上的牌的张数一样多。瞎子应该怎么做？答案：把扑克牌分成两堆，一堆10张，一堆42张。然后，把小的那一堆里的所有牌全部翻过来。2. 如何用一枚硬币等概率地产生...

2017-03-16 11:30:32 50874 1

原创运维必须掌握的27道Linux面试题

1.解释下什么是GPL,GNU,自由软件？GPL：（通用公共许可证）：一种授权，任何人有权取得、修改、重新发布自由软件的权力。GNU:(革奴计划)：目标是创建一套完全自由、开放的的操作系统。自由软件：是一种可以不受限制地自由使用、复制、研究、修改和分发的软件。主要许可证有GPL和BSD许可证两种。 2.如何选择Linux操作系统版本?一般来讲，桌面用

2017-03-14 15:50:50 80475 2

settings.xml

NIO 学习文档

hadoop-eclipse-plugin-2.7.4.jar

空空如也