自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(47)
  • 资源 (5)
  • 收藏
  • 关注

原创 好记性不如烂笔头-总结一下手动打jar包

上次手动打包还是上大学的时候。今天闲来无事再手动搞了一下打包。记录一下,怕以后忘了,浪费时间。手动执行.class文件:源文件:HelloWorld.java,目录是D:\workspace\DataWorks\working\src\AntTest\src\com\ant\test手动生成.class文件很简单,命令:javac HelloWorld.java即可,默认生成在

2013-11-28 18:06:48 774

转载 好记性不如烂笔头-手动编译jar包<转>

如果想用java编写一个可视化小程序,碰巧手头没有IDE的话,可以用命令行来完成编译、打包等工作。拿自己编写的“java记事本”为例,介绍一下这个过程:1.编写源代码。编写源文件:NotePad.java并保存,例如:E:\myApp\NotePad.java。程序结构如下:package test;import java.awt.*;import javax.sw

2013-11-28 17:10:36 895

原创 好记性不如烂笔头-.bash_profile配置hadoop,hive,hbase环境变量

留个备份,以后用着方便~~JAVA_HOME=/usr/java/latestHADOOP_HOME=/usr/local/hadoopHIVE_HOME=/usr/local/hiveHBASE_HOME=/usr/local/hbasePATH=$PATH:$HOME/bin:/home/bin:/usr/local/hadoop/bin:/usr/java/jdk

2013-11-28 16:01:44 2419

转载 Java Ant build.xml详解<转>

1,什么是antant是构建工具2,什么是构建概念到处可查到,形象来说,你要把代码从某个地方拿来,编译,再拷贝到某个地方去等等操作,当然不仅与此,但是主要用来干这个3,ant的好处跨平台   --因为ant是使用java实现的,所以它跨平台使用简单--与ant的兄弟make比起来语法清晰--同样是和make相比功能强大--ant能做的事情很多,可能你用了很久,你仍然

2013-11-28 15:59:40 540

转载 好记性不如烂笔头- linux 下rpm软件的安装和卸载 rpm --force -ivh ...

命令总忘-好记性不如烂笔头,留着以后查找~~RPM包:1.如何安装rpm软件包rmp软件包的安装可以使用程序rpm来完成。执行下面的命令 rpm -i your-package.rpm 其中your-package.rpm是你要安装的rpm包的文件名,一般置于当前目录下。 安装过程中可能出现下面的警告或者提示: ... conflict with ... 可

2013-11-25 17:13:22 2323

转载 Presto简介<转>

背景Facebook是一家数据驱动的公司。 数据处理和分析是Facebook为10亿多活跃用户开发和交付产品的核心所在。 我门拥有世界上最大的数据仓库之一,存储了大约 300PB 以上的数据。 这些数据被一系列不同种类的程序所使用, 包括传统的数据批处理程序、基于图论的数据分析[1]、机器学习、和实时性的数据分析。分析人员、数据科学家和工程师需要处理数据、分析数据、不断地改善我们的

2013-11-25 15:17:11 1238

转载 进程之间通信的几种方式<转>

# 管道( pipe ):管道是一种半双工的通信方式,数据只能单向流动,而且只能在具有亲缘关系的进程间使用。进程的亲缘关系通常是指父子进程关系。# 有名管道 (named pipe) : 有名管道也是半双工的通信方式,但是它允许无亲缘关系进程间的通信。# 信号量( semophore ) : 信号量是一个计数器,可以用来控制多个进程对共享资源的访问。它常作为一种锁机制,防止某进程正在访问共

2013-11-22 16:55:40 778

转载 Java多线程编程总结<转>

下面是Java线程系列博文的一个编目: Java线程:概念与原理Java线程:创建与启动Java线程:线程栈模型与线程的变量Java线程:线程状态的转换 Java线程:线程的同步与锁Java线程:线程的交互Java线程:线程的调度-休眠 Java线程:线程的调度-优先级Java线程:线程的调度-让步Java线程:线程的调度-合并Java线程:线程的调

2013-11-22 15:25:29 790

原创 Java守护线程实例

源自JDK1.6setDaemonpublic final void setDaemon(boolean on)将该线程标记为守护线程或用户线程。当正在运行的线程都是守护线程时,Java 虚拟机退出。该方法必须在启动线程前调用。 该方法首先调用该线程的 checkAccess 方法,且不带任何参数。这可能抛出 SecurityException(在当前线程中)。

2013-11-21 15:18:31 1152

转载 Java多线程实例<转>

在java中要想实现多线程,有两种手段,一种是继续Thread类,另外一种是实现Runable接口。对于直接继承Thread的类来说,代码大致框架是:?123456789101112class 类名 extendsThread{方法1;方法2;…public void run

2013-11-21 13:59:43 700

转载 Hadoop-数据库发送和接收相关实现-DataXceiver解析<转>

DataNode上数据块的接受/发送并没有采用我们前面介绍的RPC机制,原因很简单,RPC是一个命令式的接口,而DataNode处理数据部分,往往是一种流式机制。DataXceiverServer和DataXceiver就是这个机制的实现。其中,DataXceiver还依赖于两个辅助类:BlockSender和BlockReceiver。如下是类图 DataXceiverSer

2013-11-19 16:53:48 879

转载 Hadoop-datanode-FSDataset解析<转>

与块相关的操作由Dataset相关的类处理,存储结构由大到小是卷(FSVolume)、目录(FSDir)和文件(Block和元数据等)  block相关block类有三个属性private long blockId;//blockidprivate long numBytes;//block大小private long generat

2013-11-19 16:41:31 1089

转载 Hadoop-datanode存储结构及源码分析<转>

datanode的存储大体上可以分为两部分:1.与Storage相关的类从宏观上刻画了每个存储目录的组织结构,管理由HDFS属性dfs.data.dir指定的目录,如current、previous、detach、tmp、storage等目录和文件,并定义了对整个存储的相关操作;2.与Dataset相关的类描述了块文件及其元数据文件的组织方式,如current目录中的文件组织结构,以及

2013-11-19 15:56:57 1122

转载 Hadoop-进程端通信org.apache.hadoop.ipc-server端解析<转>

1.      nio的reactor模式 具体的处理方式:·     1.一个线程来处理所有连接(使用一个Selector)·     2.一组线程来读取已经建立连接的数据(多个Selector,这里的线程数一般和cpu的核数相当);·     3.一个线程池(这个线程池大小可以根据业务需求进行设置)·     4.一个线程处理所有的连接的数据的写操作(一个Selec

2013-11-19 15:30:27 1574

转载 Hadoop-client端ipc解析<转>

1.client运行的流程1)创建代理对象;2)代理对象调用相应方法(invoke());3)invoke调用client对象的call方法,向服务器发送请求(参数、方法);4)再等待call方法的完成;5)返回请求结果。 2.client主要的内部类主要的几个类说明: 1. Call,表示一次rpc的调用请求2. Connection,

2013-11-19 14:40:27 950

转载 Hadoop-org.apache.hadoop.ipc-ipc进程之间通信总体结构和RPC<转>

1.前言Hadoop的RPC主要是通过Java的动态代理(Dynamic Proxy)与反射(Reflect)实现,源代码在org.apache.hadoop.ipc下,有以下几个主要类:Client:RPC服务的客户端RPC:实现了一个简单的RPC模型Server:服务端的抽象类RPC.Server:服务端的具体类VersionedProtocol:所有的使用RP

2013-11-19 10:33:39 1017

转载 Java NIO原理图文分析及代码实现<转>

前言: 最近在分析hadoop的RPC(Remote Procedure Call Protocol ,远程过程调用协议,它是一种通过网络从远程计算机程序上请求服务,而不需要了解底层网络技术的协议。可以参考:http://baike.baidu.com/view/32726.htm )机制时,发现hadoop的RPC机制的实现主要用到了两个技术:动态代理(动态代理可以参考博客:http:/

2013-11-19 10:05:17 679

转载 Java动态代理学习笔记<转>

没事的时候翻看lang.reflect包下的代码,发现有两部分内容:涉及反射和动态代理。 很多地方都可以看到动态代理的影子,只是一直没仔细看下。 在学习之前,先提出几个问题,带着问题来看代码: 1.什么是动态代理? 2.为什么使用动态代理? 3.使用它有哪些好处? 4.哪些地方需要动态代理? --------------------分隔线----------

2013-11-18 21:00:05 682

转载 hive优化之--控制hive任务中的map数和reduce数<转>

一、    控制hive任务中的map数: 1.    通常情况下,作业会通过input的目录产生一个或者多个map任务。 主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到,该参数不能自定义修改);2.    举例: a)    假设input目录下有

2013-11-18 20:57:02 718

转载 Hadoop中counter的使用和默认counter的含义<转>

1.在0.20.x版本中使用counter很简单,直接定义即可,如无此counter,hadoop会自动添加此counter.Counter ct = context.getCounter("INPUT_WORDS", "count");ct.increment(1);  2.在0.19.x版本中,需要定义enumenum MyCounter {INPUT_WORD

2013-11-18 20:03:03 2184

转载 Hadoop本地压缩库<转>

考虑到性能,最好使用一个本地库(native library)来压缩和解压。例如,在一个测试中,使用本地gzip压缩库减少了解压时间50%,压缩时间大约减少了10%(与内置的Java实现相比 较)。表4-4展示了Java和本地提供的每个压缩格式的实现。井不是所有的格式都有本地实现(例如bzip2压缩),而另一些则仅有本地实现(例如 LZO)。 压缩格式 Java实现

2013-11-18 19:57:17 835

转载 Hadoop的MapFile, SetFile, ArrayFile 及 BloomMapFile文件格式<转>

SequenceFile 是Hadoop 的一个基础数据文件格式,后续讲的 MapFile, SetFile, ArrayFile 及 BloomMapFile 都是基于它来实现的。MapFile – 一个key-value 对应的查找数据结构,由数据文件/data 和索引文件 /index 组成,数据文件中包含所有需要存储的key-value对,按key的顺序排列。索引文件包含一部分

2013-11-18 19:49:22 1174

转载 Hadoop的SequenceFile文件<转>

文件的压缩态标识在文件开头的header数据中。在header数据之后是一个Metadata数据,他是简单的属性/值对,标识文件的一些其他信息。Metadata 在文件创建时就写好了,所以也是不能更改的。

2013-11-18 19:41:55 1267

原创 Hadoop的Text类型实现

Hadoop的Text类型是将字符串用UTF-8编码转换成bytes位数组。  /**   * Converts the provided String to bytes using the   * UTF-8 encoding. If replace is true, then   * malformed input is replaced with the   *

2013-11-18 18:14:08 2032

原创 Hadoop压缩算法不支持自定义的压缩和解压接口

Hadoop目前还不支持自定义的压缩和解压的接口,但是提供了一个扩展的方法,不久的将来,这个方法肯定会实现的~~  public CompressionOutputStream createOutputStream(OutputStream out)      throws IOException {    return new BZip2CompressionOutputSt

2013-11-18 14:37:21 1241

转载 Hadoop新旧API区别2<转>

The new Java MapReduce APIRelease 0.20.0 of Hadoop included a new Java MapReduce API, sometimes referred to as “Context Objects,” designed to make the API easier to evolve in the future. The new API

2013-11-18 14:27:28 797

转载 Hadoop源码包结构<转>

PackageDependencestool提供一些命令行工具,如DistCp,archivemapreduceHadoop的Map/Reduce实现filecache提供HDFS文件的本地缓存,用于加快Map/Reduce的数据访问速度fs文件系统的

2013-11-18 14:23:11 787

转载 Hadoop源码目录结构<转>

首先我们需要对hadoop解压包的目录结构有个大概了解,解压下载的hadoop1.0.3版本压缩包到文件系统,目录如下:bin: 此目录下为进行hadoop配置、运行以及管理的shell命令集合c++:此目录下为linux下amd64-64位系统以及i386-32位系统提供的库文件集合conf:此目录下为运行与配置hadoop环境需要的配置文件以及示例文件集合,实际运行时可

2013-11-18 14:20:21 982

转载 Hadoop生态系统与Google的关系<转>

Google的核心竞争技术是它的计算平台。Google的大牛们用了下面5篇文章,介绍了它们的计算设施。 GoogleCluster: http://research.google.com/archive/googlecluster.html Chubby:http://labs.google.com/papers/chubby.html GFS:http://labs.google.c

2013-11-18 14:17:10 3102

转载 [Hadoop源码解读](六)MapReduce篇之MapTask类<转>

MapTask类继承于Task类,它最主要的方法就是run(),用来执行这个Map任务。  run()首先设置一个TaskReporter并启动,然后调用JobConf的getUseNewAPI()判断是否使用New API,使用New API的设置在前面[Hadoop源码解读](三)MapReduce篇之Job类 讲到过,再调用Task继承来的initialize()方法初始化这个tas

2013-11-18 11:36:24 768

转载 [Hadoop源码解读](五)MapReduce篇之Writable相关类<转>

前面讲了InputFormat,就顺便讲一下Writable的东西吧,本来应当是放在HDFS中的。  当要在进程间传递对象或持久化对象的时候,就需要序列化对象成字节流,反之当要将接收到或从磁盘读取的字节流转换为对象,就要进行反序列化。Writable是Hadoop的序列化格式,Hadoop定义了这样一个Writable接口。[html] view plainco

2013-11-18 11:35:43 805

转载 [Hadoop源码解读](四)MapReduce篇之Counter相关类<转>

当我们定义一个Counter时,我们首先要定义一枚举类型:[html] view plaincopyprint?public static enum MY_COUNTER{    CORRUPTED_DATA_COUNTER,    NORMAL_DATA_COUNTER  };    然后,我们就可以在mapper或

2013-11-18 11:34:49 878

转载 [Hadoop源码解读](三)MapReduce篇之Job类<转>

下面,我们只涉及MapReduce 1,而不涉及YARN。                                            当我们在写MapReduce程序的时候,通常,在main函数里,我们会像下面这样做。建立一个Job对象,设置它的JobName,然后配置输入输出路径,设置我们的Mapper类和Reducer类,设置InputF

2013-11-18 11:32:56 738

转载 [Hadoop源码解读](二)MapReduce篇之Mapper类<转>

前面在讲InputFormat的时候,讲到了Mapper类是如何利用RecordReader来读取InputSplit中的K-V对的。  这一篇里,开始对Mapper.class的子类进行解读。  先回忆一下。Mapper有setup(),map(),cleanup()和run()四个方法。其中setup()一般是用来进行一些map()前的准备工作,map()则一般承担

2013-11-18 11:32:10 797

转载 [Hadoop源码解读](一)MapReduce篇之InputFormat<转>

平时我们写MapReduce程序的时候,在设置输入格式的时候,总会调用形如job.setInputFormatClass(KeyValueTextInputFormat.class);来保证输入文件按照我们想要的格式被读取。所有的输入格式都继承于InputFormat,这是一个抽象类,其子类有专门用于读取普通文件的FileInputFormat,用来读取数据库的DBInputFormat等等。

2013-11-18 11:28:02 720

转载 SPSS Clementine 数据挖掘入门<转>

这篇文章是从网上找到的,非常非常好,特别适合入门的人,里面有实际的一个挖掘例子,非常实用。推荐给大家。SPSS Clementine是Spss公司收购ISL获得的数据挖掘工具。在Gartner的客户数据挖掘工具评估中,仅有两家厂商被列为领导者:SAS和SPSS。SAS获得了最高ability to execute评分,代表着SAS在市场执行、推广、认知方面有最佳表现;而SPSS获得了最高的

2013-11-15 14:22:07 1860

转载 关于android导入工程时出现的@Override错误问题的解决<转>

有时候导入android工程的时候,明明是刚刚用过的没有问题的工程,但重新导入的时候就报错。 提示The method ... must override a sperclass method,然后eclipse给我们提示让我们把@Override删除。 这个错误的原因源于java compiler, Java1.5 中是没有@Override的,1.6 中才有。 因此解决

2013-11-15 11:01:36 793

转载 Linux 安装SVN Server<转>

linux下svn+ssh server安装操作系统:CentOs 5.41.安装服务yum install -y subversion mod_dav_svn2.创建数据目录mkdir /svnsvnadmin create /svn/qd_svn3.启动服务svnserve -d -r /svnnetstat -tlnp|grep svn

2013-11-12 10:16:40 733

转载 仿迅雷播放器教程<转>

代码下载:http://download.csdn.net/detail/qq316293804/6502879    

2013-11-11 17:02:57 932

转载 几个有意思的算法题<转>

java算法目录(?)[-]题目标题 高斯日记题目标题 排它平方数标题 振兴中华标题 颠倒的价牌1.题目标题: 高斯日记    大数学家高斯有个好习惯:无论如何都要记日记。    他的日记有个与众不同的地方,他从不注明年月日,而是用一个整数代替,比如:4210    后来人们知道,那个整数就是日期,它表示那一天是高斯出生后的第几天。这或许也是个好

2013-11-11 16:57:34 790

clementine的中文教程

clementine的中文教程clementine的中文教程clementine的中文教程clementine的中文教程clementine的中文教程

2013-11-18

clementine基础培训一

clementine基础培训一

2013-11-18

Hbase入门与使用

Hbase入门与使用

2013-07-23

Hadoop_eclipse-plugin编译方法

Hadoop_eclipse-plugin编译方法

2012-12-27

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除