2013年11月_yongjian_luo

原创好记性不如烂笔头-总结一下手动打jar包

上次手动打包还是上大学的时候。今天闲来无事再手动搞了一下打包。记录一下，怕以后忘了，浪费时间。手动执行.class文件：源文件：HelloWorld.java,目录是D:\workspace\DataWorks\working\src\AntTest\src\com\ant\test手动生成.class文件很简单，命令：javac HelloWorld.java即可，默认生成在

2013-11-28 18:06:48 774

转载好记性不如烂笔头-手动编译jar包<转>

如果想用java编写一个可视化小程序，碰巧手头没有IDE的话，可以用命令行来完成编译、打包等工作。拿自己编写的“java记事本”为例，介绍一下这个过程：1.编写源代码。编写源文件：NotePad.java并保存，例如：E:\myApp\NotePad.java。程序结构如下：package test;import java.awt.*;import javax.sw

2013-11-28 17:10:36 895

原创好记性不如烂笔头-.bash_profile配置hadoop，hive，hbase环境变量

留个备份，以后用着方便~~JAVA_HOME=/usr/java/latestHADOOP_HOME=/usr/local/hadoopHIVE_HOME=/usr/local/hiveHBASE_HOME=/usr/local/hbasePATH=$PATH:$HOME/bin:/home/bin:/usr/local/hadoop/bin:/usr/java/jdk

2013-11-28 16:01:44 2419

转载 Java Ant build.xml详解<转>

1,什么是antant是构建工具2,什么是构建概念到处可查到，形象来说，你要把代码从某个地方拿来，编译，再拷贝到某个地方去等等操作，当然不仅与此，但是主要用来干这个3,ant的好处跨平台 --因为ant是使用java实现的，所以它跨平台使用简单--与ant的兄弟make比起来语法清晰--同样是和make相比功能强大--ant能做的事情很多，可能你用了很久，你仍然

2013-11-28 15:59:40 540

转载好记性不如烂笔头- linux 下rpm软件的安装和卸载 rpm --force -ivh ...

命令总忘-好记性不如烂笔头，留着以后查找~~RPM包：1.如何安装rpm软件包rmp软件包的安装可以使用程序rpm来完成。执行下面的命令 rpm -i your-package.rpm 其中your-package.rpm是你要安装的rpm包的文件名，一般置于当前目录下。安装过程中可能出现下面的警告或者提示： ... conflict with ... 可

2013-11-25 17:13:22 2323

转载 Presto简介<转>

背景Facebook是一家数据驱动的公司。数据处理和分析是Facebook为10亿多活跃用户开发和交付产品的核心所在。我门拥有世界上最大的数据仓库之一，存储了大约 300PB 以上的数据。这些数据被一系列不同种类的程序所使用，包括传统的数据批处理程序、基于图论的数据分析［1］、机器学习、和实时性的数据分析。分析人员、数据科学家和工程师需要处理数据、分析数据、不断地改善我们的

2013-11-25 15:17:11 1238

转载进程之间通信的几种方式<转>

# 管道( pipe )：管道是一种半双工的通信方式，数据只能单向流动，而且只能在具有亲缘关系的进程间使用。进程的亲缘关系通常是指父子进程关系。# 有名管道 (named pipe) ：有名管道也是半双工的通信方式，但是它允许无亲缘关系进程间的通信。# 信号量( semophore ) ：信号量是一个计数器，可以用来控制多个进程对共享资源的访问。它常作为一种锁机制，防止某进程正在访问共

2013-11-22 16:55:40 778

转载 Java多线程编程总结<转>

下面是Java线程系列博文的一个编目： Java线程：概念与原理Java线程：创建与启动Java线程：线程栈模型与线程的变量Java线程：线程状态的转换 Java线程：线程的同步与锁Java线程：线程的交互Java线程：线程的调度-休眠 Java线程：线程的调度-优先级Java线程：线程的调度-让步Java线程：线程的调度-合并Java线程：线程的调

2013-11-22 15:25:29 790

原创 Java守护线程实例

源自JDK1.6setDaemonpublic final void setDaemon(boolean on)将该线程标记为守护线程或用户线程。当正在运行的线程都是守护线程时，Java 虚拟机退出。该方法必须在启动线程前调用。该方法首先调用该线程的 checkAccess 方法，且不带任何参数。这可能抛出 SecurityException（在当前线程中）。

2013-11-21 15:18:31 1152

转载 Java多线程实例<转>

在java中要想实现多线程，有两种手段，一种是继续Thread类，另外一种是实现Runable接口。对于直接继承Thread的类来说，代码大致框架是：?123456789101112class 类名 extendsThread{方法1;方法2；…public void run

2013-11-21 13:59:43 700

转载 Hadoop-数据库发送和接收相关实现-DataXceiver解析<转>

DataNode上数据块的接受/发送并没有采用我们前面介绍的RPC机制，原因很简单，RPC是一个命令式的接口，而DataNode处理数据部分，往往是一种流式机制。DataXceiverServer和DataXceiver就是这个机制的实现。其中，DataXceiver还依赖于两个辅助类：BlockSender和BlockReceiver。如下是类图 DataXceiverSer

2013-11-19 16:53:48 879

转载 Hadoop-datanode-FSDataset解析<转>

与块相关的操作由Dataset相关的类处理，存储结构由大到小是卷（FSVolume）、目录（FSDir）和文件（Block和元数据等） block相关block类有三个属性private long blockId;//blockidprivate long numBytes;//block大小private long generat

2013-11-19 16:41:31 1089

转载 Hadoop-datanode存储结构及源码分析<转>

datanode的存储大体上可以分为两部分：1.与Storage相关的类从宏观上刻画了每个存储目录的组织结构，管理由HDFS属性dfs.data.dir指定的目录，如current、previous、detach、tmp、storage等目录和文件，并定义了对整个存储的相关操作；2.与Dataset相关的类描述了块文件及其元数据文件的组织方式，如current目录中的文件组织结构，以及

2013-11-19 15:56:57 1122

转载 Hadoop-进程端通信org.apache.hadoop.ipc-server端解析<转>

1. nio的reactor模式具体的处理方式：· 1.一个线程来处理所有连接（使用一个Selector）· 2.一组线程来读取已经建立连接的数据（多个Selector，这里的线程数一般和cpu的核数相当）；· 3.一个线程池（这个线程池大小可以根据业务需求进行设置）· 4.一个线程处理所有的连接的数据的写操作（一个Selec

2013-11-19 15:30:27 1574

转载 Hadoop-client端ipc解析<转>

1.client运行的流程1）创建代理对象；2）代理对象调用相应方法（invoke()）；3）invoke调用client对象的call方法，向服务器发送请求（参数、方法）；4）再等待call方法的完成；5）返回请求结果。 2.client主要的内部类主要的几个类说明： 1. Call，表示一次rpc的调用请求2. Connection，

2013-11-19 14:40:27 950

转载 Hadoop-org.apache.hadoop.ipc-ipc进程之间通信总体结构和RPC<转>

1.前言Hadoop的RPC主要是通过Java的动态代理（Dynamic Proxy）与反射（Reflect）实现，源代码在org.apache.hadoop.ipc下，有以下几个主要类：Client：RPC服务的客户端RPC：实现了一个简单的RPC模型Server：服务端的抽象类RPC.Server：服务端的具体类VersionedProtocol：所有的使用RP

2013-11-19 10:33:39 1017

转载 Java NIO原理图文分析及代码实现<转>

前言: 最近在分析hadoop的RPC(Remote Procedure Call Protocol ，远程过程调用协议，它是一种通过网络从远程计算机程序上请求服务，而不需要了解底层网络技术的协议。可以参考：http://baike.baidu.com/view/32726.htm ）机制时，发现hadoop的RPC机制的实现主要用到了两个技术：动态代理（动态代理可以参考博客：http:/

2013-11-19 10:05:17 679

转载 Java动态代理学习笔记<转>

没事的时候翻看lang.reflect包下的代码，发现有两部分内容:涉及反射和动态代理。很多地方都可以看到动态代理的影子，只是一直没仔细看下。在学习之前，先提出几个问题，带着问题来看代码: 1.什么是动态代理? 2.为什么使用动态代理? 3.使用它有哪些好处? 4.哪些地方需要动态代理? --------------------分隔线----------

2013-11-18 21:00:05 682

转载 hive优化之--控制hive任务中的map数和reduce数<转>

一、控制hive任务中的map数: 1. 通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有： input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到，该参数不能自定义修改)；2. 举例： a) 假设input目录下有

2013-11-18 20:57:02 718

转载 Hadoop中counter的使用和默认counter的含义<转>

1.在0.20.x版本中使用counter很简单,直接定义即可，如无此counter，hadoop会自动添加此counter.Counter ct = context.getCounter("INPUT_WORDS", "count");ct.increment(1); 2.在0.19.x版本中,需要定义enumenum MyCounter {INPUT_WORD

2013-11-18 20:03:03 2184

转载 Hadoop本地压缩库<转>

考虑到性能，最好使用一个本地库（native library）来压缩和解压。例如，在一个测试中，使用本地gzip压缩库减少了解压时间50%，压缩时间大约减少了10%(与内置的Java实现相比较)。表4-4展示了Java和本地提供的每个压缩格式的实现。井不是所有的格式都有本地实现(例如bzip2压缩)，而另一些则仅有本地实现（例如 LZO）。压缩格式 Java实现

2013-11-18 19:57:17 835

转载 Hadoop的MapFile, SetFile, ArrayFile 及 BloomMapFile文件格式<转>

SequenceFile 是Hadoop 的一个基础数据文件格式，后续讲的 MapFile, SetFile, ArrayFile 及 BloomMapFile 都是基于它来实现的。MapFile – 一个key-value 对应的查找数据结构，由数据文件/data 和索引文件 /index 组成，数据文件中包含所有需要存储的key-value对，按key的顺序排列。索引文件包含一部分

2013-11-18 19:49:22 1174

转载 Hadoop的SequenceFile文件<转>

文件的压缩态标识在文件开头的header数据中。在header数据之后是一个Metadata数据，他是简单的属性/值对，标识文件的一些其他信息。Metadata 在文件创建时就写好了，所以也是不能更改的。

2013-11-18 19:41:55 1267

原创 Hadoop的Text类型实现

Hadoop的Text类型是将字符串用UTF-8编码转换成bytes位数组。 /** * Converts the provided String to bytes using the * UTF-8 encoding. If replace is true, then * malformed input is replaced with the *

2013-11-18 18:14:08 2032

原创 Hadoop压缩算法不支持自定义的压缩和解压接口

Hadoop目前还不支持自定义的压缩和解压的接口，但是提供了一个扩展的方法，不久的将来，这个方法肯定会实现的~~ public CompressionOutputStream createOutputStream(OutputStream out) throws IOException { return new BZip2CompressionOutputSt

2013-11-18 14:37:21 1241

转载 Hadoop新旧API区别2<转>

The new Java MapReduce APIRelease 0.20.0 of Hadoop included a new Java MapReduce API, sometimes referred to as “Context Objects,” designed to make the API easier to evolve in the future. The new API

2013-11-18 14:27:28 797

转载 Hadoop源码包结构<转>

PackageDependencestool提供一些命令行工具，如DistCp，archivemapreduceHadoop的Map/Reduce实现filecache提供HDFS文件的本地缓存，用于加快Map/Reduce的数据访问速度fs文件系统的

2013-11-18 14:23:11 787

转载 Hadoop源码目录结构<转>

首先我们需要对hadoop解压包的目录结构有个大概了解，解压下载的hadoop1.0.3版本压缩包到文件系统，目录如下：bin：此目录下为进行hadoop配置、运行以及管理的shell命令集合c++：此目录下为linux下amd64-64位系统以及i386-32位系统提供的库文件集合conf：此目录下为运行与配置hadoop环境需要的配置文件以及示例文件集合，实际运行时可

2013-11-18 14:20:21 982

转载 Hadoop生态系统与Google的关系<转>

Google的核心竞争技术是它的计算平台。Google的大牛们用了下面5篇文章，介绍了它们的计算设施。 GoogleCluster： http://research.google.com/archive/googlecluster.html Chubby：http://labs.google.com/papers/chubby.html GFS：http://labs.google.c

2013-11-18 14:17:10 3102

转载 [Hadoop源码解读]（六）MapReduce篇之MapTask类<转>

MapTask类继承于Task类，它最主要的方法就是run()，用来执行这个Map任务。 run()首先设置一个TaskReporter并启动，然后调用JobConf的getUseNewAPI()判断是否使用New API，使用New API的设置在前面[Hadoop源码解读]（三）MapReduce篇之Job类讲到过，再调用Task继承来的initialize()方法初始化这个tas

2013-11-18 11:36:24 768

转载 [Hadoop源码解读]（五）MapReduce篇之Writable相关类<转>

前面讲了InputFormat，就顺便讲一下Writable的东西吧，本来应当是放在HDFS中的。当要在进程间传递对象或持久化对象的时候，就需要序列化对象成字节流，反之当要将接收到或从磁盘读取的字节流转换为对象，就要进行反序列化。Writable是Hadoop的序列化格式，Hadoop定义了这样一个Writable接口。[html] view plainco

2013-11-18 11:35:43 805

转载 [Hadoop源码解读]（四）MapReduce篇之Counter相关类<转>

当我们定义一个Counter时，我们首先要定义一枚举类型：[html] view plaincopyprint?public static enum MY_COUNTER{ CORRUPTED_DATA_COUNTER, NORMAL_DATA_COUNTER }; 然后，我们就可以在mapper或

2013-11-18 11:34:49 878

转载 [Hadoop源码解读]（三）MapReduce篇之Job类<转>

下面，我们只涉及MapReduce 1，而不涉及YARN。当我们在写MapReduce程序的时候，通常，在main函数里，我们会像下面这样做。建立一个Job对象，设置它的JobName，然后配置输入输出路径，设置我们的Mapper类和Reducer类，设置InputF

2013-11-18 11:32:56 738

转载 [Hadoop源码解读]（二）MapReduce篇之Mapper类<转>

前面在讲InputFormat的时候，讲到了Mapper类是如何利用RecordReader来读取InputSplit中的K-V对的。这一篇里，开始对Mapper.class的子类进行解读。先回忆一下。Mapper有setup()，map()，cleanup()和run()四个方法。其中setup()一般是用来进行一些map()前的准备工作，map()则一般承担

2013-11-18 11:32:10 797

转载 [Hadoop源码解读]（一）MapReduce篇之InputFormat<转>

平时我们写MapReduce程序的时候，在设置输入格式的时候，总会调用形如job.setInputFormatClass(KeyValueTextInputFormat.class);来保证输入文件按照我们想要的格式被读取。所有的输入格式都继承于InputFormat，这是一个抽象类，其子类有专门用于读取普通文件的FileInputFormat，用来读取数据库的DBInputFormat等等。

2013-11-18 11:28:02 720

转载 SPSS Clementine 数据挖掘入门<转>

这篇文章是从网上找到的，非常非常好，特别适合入门的人，里面有实际的一个挖掘例子，非常实用。推荐给大家。SPSS Clementine是Spss公司收购ISL获得的数据挖掘工具。在Gartner的客户数据挖掘工具评估中，仅有两家厂商被列为领导者：SAS和SPSS。SAS获得了最高ability to execute评分，代表着SAS在市场执行、推广、认知方面有最佳表现；而SPSS获得了最高的

2013-11-15 14:22:07 1860

转载关于android导入工程时出现的@Override错误问题的解决<转>

有时候导入android工程的时候，明明是刚刚用过的没有问题的工程，但重新导入的时候就报错。提示The method ... must override a sperclass method，然后eclipse给我们提示让我们把@Override删除。这个错误的原因源于java compiler, Java1.5 中是没有@Override的，1.6 中才有。因此解决

2013-11-15 11:01:36 793

转载 Linux 安装SVN Server<转>

linux下svn+ssh server安装操作系统：CentOs 5.41.安装服务yum install -y subversion mod_dav_svn2.创建数据目录mkdir /svnsvnadmin create /svn/qd_svn3.启动服务svnserve -d -r /svnnetstat -tlnp|grep svn

2013-11-12 10:16:40 733

转载仿迅雷播放器教程<转>

代码下载：http://download.csdn.net/detail/qq316293804/6502879

2013-11-11 17:02:57 932

转载几个有意思的算法题<转>

java算法目录(?)[-]题目标题高斯日记题目标题排它平方数标题振兴中华标题颠倒的价牌1.题目标题: 高斯日记大数学家高斯有个好习惯：无论如何都要记日记。他的日记有个与众不同的地方，他从不注明年月日，而是用一个整数代替，比如：4210 后来人们知道，那个整数就是日期，它表示那一天是高斯出生后的第几天。这或许也是个好

2013-11-11 16:57:34 790

clementine的中文教程

clementine基础培训一

Hbase入门与使用

Hadoop_eclipse-plugin编译方法

空空如也