2016年01月_中琦2513

原创 20个高级Java面试题汇总

什么是可变参数？断言的用途？什么时候使用断言？什么是垃圾回收？用一个例子解释垃圾回收？什么时候运行垃圾回收？垃圾回收的最佳做法？什么是初始化数据块？什么是静态初始化器？什么是实例初始化块？什么是正则表达式？什么是令牌化？给出令牌化的例子？如何使用扫描器类（Scanner Class）令牌化？如何添加小时(hour)到一个日期对象（Date Objects）？如何格式化日期对象？Java中日历类（C

2016-01-29 13:05:43 45856

原创经典算法排行榜

在硬件越来越强悍的今天，算法还重要吗？答案是毋庸置疑的。要知道，如今软件正在统治世界，而算法又是软件的灵魂……当你每天在自己的电脑上听歌或办公或看电影时，你是否想知道自己每天会用到多少种算法？奥地利符号计算研究所的Christoph Koutschan博士做过一个面向计算机科学家的调查，请他们票选出最重要的算法。一起来看看调查的结果：A* 搜索算法—

2016-01-28 23:12:49 46755

转载逆波兰表达式

问题来由：读入一个字符串形式的四则运算表达式，输出对应的计算结果。如读入的是“6 * ( 5 + ( 2 + 3) * 8 + 3)”，那么解析后的输出结果应为288。思路：一般的计算过程是这样的，首先计算优先级最高的小括号里面的内容，即“( 5 + ( 2 + 3) * 8 + 3)”，将“2 + 3”的计算结果并存为A，接着用计算“A*8”，并存为B 计算“5+B+3”，结果...

2016-01-26 21:27:50 46215

原创 Linux 系统下查看硬件信息命令大全

有许多命令可以用来查看 Linux 系统上的硬件信息。有些命令只能够打印出像 CPU 和内存这一特定的硬件组件信息，另外一些命令可以查看多种硬件组件的信息。这个教程可以带大家快速了解一下查看各种硬件设备的信息和配置详情的最常用的命令。lscpulscpu命令能够查看 CPU 和处理单元的信息。该命令没有任何其他选项或者别的功能。lscpu运行该命令会看到

2016-01-26 21:07:23 46247

转载 Spark入门实战系列--10.分布式内存文件系统Tachyon介绍及安装部署

1 Tachyon介绍1.1 Tachyon简介随着实时计算的需求日益增多，分布式内存计算也持续升温，怎样将海量数据近乎实时地处理，或者说怎样把离线批处理的速度再提升到一个新的高度是当前研究的重点。近年来，内存的吞吐量成指数倍增长，而磁盘的吞吐量增长缓慢，那么将原有计算框架中文件落地磁盘替换为文件落地内存，也是提高效率的优化点。目前已经使用基于内存计算的分布式计算框架有：Sp

2016-01-25 14:47:52 46012

转载 Spark入门实战系列--9.Spark图计算GraphX介绍及实例

【注】该系列文章以及使用到安装包/测试数据可以在《倾情大奉送–Spark入门实战系列》获取1、GraphX介绍1.1 GraphX应用背景Spark GraphX是一个分布式图处理框架，它是基于Spark平台提供对图计算和图挖掘简洁易用的而丰富的接口，极大的方便了对分布式图处理的需求。众所周知•，社交网络中人与人之间有很多关系链，例如Twitter、Facebook

2016-01-25 14:46:20 48536

转载 Spark入门实战系列--8.Spark MLlib（下）--机器学习库SparkMLlib实战

1、MLlib实例1.1 聚类实例1.1.1 算法说明聚类（Cluster analysis）有时也被翻译为簇类，其核心任务是：将一组目标object划分为若干个簇，每个簇之间的object尽可能相似，簇与簇之间的object尽可能相异。聚类算法是机器学习（或者说是数据挖掘更合适）中重要的一部分，除了最为简单的K-Means聚类算法外，比较常见的还有层次法（CURE、CHAMELEON

2016-01-25 14:41:00 48269

转载 Spark入门实战系列--8.Spark MLlib（上）--机器学习及SparkMLlib简介

1、机器学习概念1.1 机器学习的定义在维基百科上对机器学习提出以下几种定义：l“机器学习是一门人工智能的科学，该领域的主要研究对象是人工智能，特别是如何在经验学习中改善具体算法的性能”。l“机器学习是对能通过经验自动改进的计算机算法的研究”。l“机器学习是用数据或以往的经验，以此优化计算机程序的性能标准。” 一种经常引用的英文定义是：A computer program is

2016-01-25 14:38:18 46272

转载 Spark入门实战系列--7.Spark Streaming（下）--实时流计算Spark Streaming实战

1、实例演示1.1 流数据模拟器1.1.1 流数据说明在实例演示中模拟实际情况，需要源源不断地接入流数据，为了在演示过程中更接近真实环境将定义流数据模拟器。该模拟器主要功能：通过Socket方式监听指定的端口号，当外部程序通过该端口连接并请求数据时，模拟器将定时将指定的文件数据随机获取发送给外部程序。1.1.2 模拟器代码import java.io.{PrintWriter}

2016-01-25 14:36:44 45669

转载 Spark入门实战系列--7.Spark Streaming（上）--实时流计算Spark Streaming原理介绍

1、Spark Streaming简介1.1 概述Spark Streaming 是Spark核心API的一个扩展，可以实现高吞吐量的、具备容错机制的实时流数据的处理。支持从多种数据源获取数据，包括Kafk、Flume、Twitter、ZeroMQ、Kinesis 以及TCP sockets，从数据源获取数据之后，可以使用诸如map、reduce、join和window等高级函数进行复杂算

2016-01-25 14:35:00 46737

转载 Spark入门实战系列--6.SparkSQL（下）--Spark实战应用

1、运行环境说明1.1 硬软件环境l 主机操作系统：Windows 64位，双核4线程，主频2.2G，10G内存l 虚拟软件：VMware® Workstation 9.0.0 build-812388l 虚拟机操作系统：CentOS 64位，单核l 虚拟机运行环境：Ø JDK：1.7.0_55 64位Ø Hadoop：2.2.0（需要编译为64位）Ø

2016-01-25 14:33:30 46018

转载 Spark入门实战系列--6.SparkSQL（中）--深入了解SparkSQL运行计划及调优

1.1 运行环境说明1.1.1 硬软件环境l 主机操作系统：Windows 64位，双核4线程，主频2.2G，10G内存l 虚拟软件：VMware® Workstation 9.0.0 build-812388l 虚拟机操作系统：CentOS6.5 64位，单核l 虚拟机运行环境：Ø JDK：1.7.0_55 64位Ø Hadoop：2.2.0（需要编译为

2016-01-25 14:31:54 46146

转载 Spark入门实战系列--6.SparkSQL（上）--SparkSQL简介

1、SparkSQL的发展历程1.1 Hive and SharkSparkSQL的前身是Shark，给熟悉RDBMS但又不理解MapReduce的技术人员提供快速上手的工具，Hive应运而生，它是当时唯一运行在Hadoop上的SQL-on-Hadoop工具。但是MapReduce计算过程中大量的中间磁盘落地过程消耗了大量的I/O，降低的运行效率，为了提高SQL-on-Hadoop的效率，

2016-01-25 14:28:59 45735

转载 Spark入门实战系列--5.Hive（下）--Hive实战

1、Hive操作演示1.1 内部表1.1.1 创建表并加载数据第一步启动HDFS、YARN和Hive，启动完毕后创建Hive数据库hive>create database hive;hive>show databases;hive>use hive;第二步创建内部表由于Hive使用了类似SQL的语法，所以创建内部表的语句相对SQL只增加了行和字段分隔

2016-01-25 14:26:37 46244

转载 Spark入门实战系列--5.Hive（上）--Hive介绍及部署

1、Hive介绍1.1 Hive介绍Hive是一个基于Hadoop的开源数据仓库工具，用于存储和处理海量结构化数据。它是Facebook 2008年8月开源的一个数据仓库框架，提供了类似于SQL语法的HQL语句作为数据访问接口，Hive有如下优缺点：l 优点：1.Hive 使用类SQL 查询语法, 最大限度的实现了和SQL标准的兼容，大大降低了传统数据分析人员学习

2016-01-25 14:21:49 45281

转载 Spark入门实战系列--4.Spark运行架构

1、 Spark运行架构1.1 术语定义lApplication：Spark Application的概念和Hadoop MapReduce中的类似，指的是用户编写的Spark应用程序，包含了一个Driver 功能的代码和分布在集群中多个节点上运行的Executor代码；lDriver：Spark中的Driver即运行上述Application的main()函数并且创建Sp

2016-01-25 14:20:18 46055

转载 Spark入门实战系列--3.Spark编程模型（上）--编程模型及SparkShell实战

1、Spark编程模型1.1 术语定义l应用程序（Application）：基于Spark的用户程序，包含了一个Driver Program 和集群中多个的Executor；l驱动程序（Driver Program）：运行Application的main()函数并且创建SparkContext，通常用SparkContext代表Driver Program；l执行

2016-01-25 14:17:26 45875

转载 Spark入门实战系列--2.Spark编译与部署（下）--Spark编译安装

1、编译SparkSpark可以通过SBT和Maven两种方式进行编译，再通过make-distribution.sh脚本生成部署包。SBT编译需要安装git工具，而Maven安装则需要maven工具，两种方式均需要在联网下进行，通过比较发现SBT编译速度较慢（原因有可能是1、时间不一样，SBT是白天编译，Maven是深夜进行的，获取依赖包速度不同 2、maven下载大文件是多线程进行，而

2016-01-25 14:15:55 45706

转载 Spark入门实战系列--2.Spark编译与部署（中）--Hadoop编译安装

实验相关的测试数据和安装包放在百度盘提提供下载，地址为http://pan.baidu.com/s/1pJyyB6j。原创地址为：http://www.cnblogs.com/shishanyuan1、编译Hadooop1.1 搭建环境1.1.1 安装并设置maven1. 下载maven安装包，建议安装3.0以上版本，本次安装选择的是maven3.0.5

2016-01-25 14:14:16 45288

转载 Spark入门实战系列--2.Spark编译与部署（上）--基础环境搭建

实验相关的测试数据和安装包放在百度盘提提供下载，地址为http://pan.baidu.com/s/1pJyyB6j。原创地址为：http://www.cnblogs.com/shishanyuan1、运行环境说明1.1 硬软件环境l 主机操作系统：Windows 64位，双核4线程，主频2.2G，10G内存l 虚拟软件：VMware

2016-01-25 14:12:32 45809

转载 Spark入门实战系列--1.Spark及其生态圈简介

1、简介1.1 Spark简介Spark是加州大学伯克利分校AMP实验室（Algorithms, Machines, and People Lab）开发通用内存并行计算框架。Spark在2013年6月进入Apache成为孵化项目，8个月后成为Apache顶级项目，速度之快足见过人之处，Spark以其先进的设计理念，迅速成为社区的热门项目，围绕着Spark推出了Spark SQL、S

2016-01-25 14:06:19 47573

转载程序员的那些事儿 -- 高级程序员买衣服

A是一个高级程序员，收入各方面在程序员队伍里属于是偏上上的，为此，A的自我感觉相当良好。一. 过程今天天气不错，心情也挺好的，冬天就要来了，A打算去买件衣服。于是，A进了一个名牌店，服务员B没有搭理A，而是不屑地看了A一眼。　　 A顿时感觉到被羞辱了，怒火中烧......。于是，A走出去，进了隔壁另一个卖衣服的店子。　　第二家店子服务员C的态度就好

2016-01-21 09:51:30 46498

转载程序员的那些事儿 -- 皆大欢喜的加薪

我的朋友A君是个典型的.NET开发人员，技术不错，人品也不错，在一家小公司（姑且称为甲公司）做项目开发，是技术骨干。 3个月前，他找到我说想跳槽，让我帮忙介绍工作。我说为什么想跳了？1. 为什么想离职？他简单说了一下他在甲公司当时的状况：A君在甲公司做了两年多，这两年多完成了一个大项目，作为开发的核心主力，开发压力很大，特别是项目上线前的几个月是非常辛苦，

2016-01-21 09:49:24 45485

转载八大排序算法的Python实现

1、插入排序描述插入排序的基本操作就是将一个数据插入到已经排好序的有序数据中，从而得到一个新的、个数加一的有序数据，算法适用于少量数据的排序，时间复杂度为O(n^2)。是稳定的排序方法。插入算法把要排序的数组分成两部分：第一部分包含了这个数组的所有元素，但将最后一个元素除外（让数组多一个空间才有插入的位置），而第二部分就只包含这一个元素（即待插入元素）。在第一部分排序完成后，再将这

2016-01-19 21:10:03 45551

原创 MySQL函数大全系列（日期时间）

MySQL日期函数大全作为一个程序猿，在日常生活生产中用到数据库是不可避免的，M有SQL作为一款开元的免费关系型数据库，用户基础还是非常庞大的。本人小猿一枚，在平常工作中还是碰到不少关于日期时间之类的处理，为方便自己随时查阅以及各位同门猿学习，遂在此贴出常用的和我碰到用到的一些MySQL数据库自带函数的使用。详细列表：1、DAYOFWEEK(date) SELECT DAYOFWEEK(

2016-01-16 15:26:01 48407

转载 Hive学习总结

一、Hive的基本概念1.1 hive是什么？（1）Hive是建立在hadoop数据仓库基础之上的一个基础架构；（2）相当于hadoop之上的一个客户端，可以用来存储、查询和分析存储在hadoop中的数据；（3）是一种SQL解析引擎，能够将SQL转换成Map/Reduce中的Job在hadoop上执行。1.2 hive的数据存储特点（1）数据存储是基

2016-01-14 13:23:17 46564 1

转载如何招聘：永远不要自负的人

编者注：原文是 eShare CEO Henry Ward 的文章，其背景是 eSHare 准备开始 “大规模” 招人，为了让面试人员能帮公司找到好的人才，他总结了招聘的 4 个原则和 6 点启发，也希望创业公司能从中获得经验。　　正文较长，不想看完的话，看下面几点就行了。　　招聘原则　　招聘意味着执行失败需要帮忙　　初创企业员工效能遵循幂次法则　　招错不要

2016-01-13 12:41:16 46053

转载 HBase学习总结

HBase的下载与安装 (HBase是一种数据库：Hadoop数据库，它是一种NoSQL存储系统，专门设计用来快速随机读写大规模数据。本文介绍HBase的下载与安装的整个过程。) 一、HBase的下载 1.登录HBase官网http://hbase.apache.org/，可看到如图1所示的页面：图1 登录HBase官网的页面2.点击图1中的红色小框中的“here

2016-01-08 22:58:19 46302

原创 Java日期时间处理

我的Java日期时间处理最近在公司做统计分析项目，经常碰见需要按天统计，按周统计，按月统计的需要，跟日期时间的处理就必不可少了。鉴于博主自己的水平有限，也对Joda-Time等之类的日期时间处理组件知之甚少，所幸Java自带API中Date和Calendar两个类还比较强大，基本能满足我现在的需求。贴代码之前，我先讲解一下我的命名规则，以方便各位看官理解，基于方便处理的目的

2016-01-08 18:34:56 46301

转载十大算法，让你轻松进阶高手

算法一：快速排序算法快速排序是由东尼·霍尔所发展的一种排序算法。在平均状况下，排序n个项目要Ο(nlogn)次比较。在最坏状况下则需要Ο(n2)次比较，但这种状况并不常见。事实上，快速排序通常明显比其他Ο(nlogn)算法更快，因为它的内部循环（innerloop）可以在大部分的架构上很有效率地被实现出来。快速排序使用分治法（Divideandconquer...

2016-01-07 23:12:42 46036

转载互联网协议入门

我们每天使用互联网，你是否想过，它是如何实现的？全世界几十亿台电脑，连接在一起，两两通信。上海的某一块网卡送出信号，洛杉矶的另一块网卡居然就收到了，两者实际上根本不知道对方的物理位置，你不觉得这是很神奇的事情吗？互联网的核心是一系列协议，总称为"互联网协议"（Internet Protocol Suite）。它们对电脑如何连接和组网，做出了详尽的规定。理解了这些协议，就理解了互联网的原理。下面就是我的学习笔记。因为这些协议实在太复杂、太庞大，我想整理一个简洁的框架，帮助自己从总体上把握它们。为了保证简单易懂

2016-01-06 23:29:55 45647

转载程序员的最高境界：呆若木鸡

成语“呆若木鸡”来自于《庄子》中的一则小故事。《庄子·外篇·达生》纪渻子为王养斗鸡。十日而问：“鸡已乎？”曰：“未也，方虚憍而恃气。”十日又问，曰：“未也，犹应向景。”十日又问，曰：“未也，犹疾视而盛气。”十日又问，曰：“几矣。鸡虽有鸣者，已无变矣，望之似木鸡矣，其德全矣，异鸡无敢应者，反走矣。” 按照庄子的说法，斗鸡的成长要经历四个阶段，“呆若木鸡”是

2016-01-06 22:50:43 45655

转载我的VIM入门

我的VIM入门刚工作时搞过一段时间的VIM和EMACS，不过作为一个JAVA程序猿，用VIM来写JAVA代码还是不大现实（现在用IDEA），后面也就不了了之。最近在写前端代码和写博客时感觉VIM还是不错的，于是决定再把VIM拾起来。裸的VIM并不是太好用，需要安装需要的插件，之前的玩法是下载对应的压缩包并修改配置，这个过程极其考验耐心和人品！使用vundle管理插件

2016-01-05 22:00:03 45702

好学若饥，谦卑若愚