新世界的海贼-CSDN博客

转载 ETL中的数据增量抽取机制

增量抽取是数据仓库ETL(extraction，transformation，loading，数据的抽取、转换和装载)实施过程中需要重点考虑的问题。在ETL过程中，增量更新的效率和可行性是决定ETL实施成败的关键问题之一，ETL中的增量更新机制比较复杂，采用何种机制往往取决于源数据系统的类型以及对增量更新性能的要求。1 ETL概述ETL包括数据的抽取、转换、加载。①数据抽取：从源数据源系统

2017-04-05 16:42:36 1859

转载 AKKA FSM

啰嗦几句有限状态机本身不是啥新鲜东西，在GoF的设计模式一书中就有状态模式，也给出了实现的建议。各种语言对状态机模式都有很多种实现的方式。我自己曾经用C++和Java实现过，也曾经把 apache mina 源码中的一个状态机实现抠出来单独使用。但Akka的状态机是我见过的最简洁漂亮实现，充分利用了Scala的许多先进的语言机制让代码更加简洁清晰，利用了Akka Actor实现并发，用户

2017-01-10 14:33:25 1594

转载 Spark-streaming-2.0-Kafka数据接收并行度源码解析

Streaming从kafka接收数据有Receiver和direct两种方式。下面我们看一下这两种方式的源码。Direct approach这种方式是使用kafka的低阶API从kafka消费数据。一般如果需要自行维护partition的offset，实现自定义checkpoint文件，或者exactlyOnce场景下就会用到这一方式。首先需要看一下DirectKafkaInputD

2016-12-23 11:07:01 2871

转载 Kafka 如何读取offset topic内容 (__consumer_offsets)

众所周知，由于Zookeeper并不适合大批量的频繁写入操作，新版Kafka已推荐将consumer的位移信息保存在Kafka内部的topic中，即__consumer_offsets topic，并且默认提供了kafka_consumer_groups.sh脚本供用户查看consumer信息。　　不过依然有很多用户希望了解__consumer_offsets topic内部到底保存了什么信息

2016-12-19 15:14:13 8415

原创修改kafka topic的offset几种方法

查询topic的offset的范围用下面命令可以查询到topic:test broker:suna:9092的offset的最小值：bin/kafka-run-class.sh kafka.tools.GetOffsetShell --broker-list suna:9092 -topic test --time -2输出test:0:1288查询offset

2016-12-15 10:44:11 44887

原创 wget命令下载时down下来的是html文件解决办法

wget --no-check-certificate --no-cookies --header "Cookie: oraclelicense=accept-securebackup-cookie" http://www.scala-lang.org/files/archive/scala-2.10.4.tgz

2015-09-17 17:49:05 13214 8

原创 Ubuntu下安装Docker，及Docker的一些常用命令操作

1.什么是 Docker Docker 是一个开源项目，Docker 项目的目标是实现轻量级的操作系统虚拟化解决方案。 Docker 的基础是 Linux 容器（LXC）等技术。在 LXC 的基础上 Docker 进行了进一步的封装，让用户不需要去关心容器的管理，使得操作更为简便。用户操作 Docker 的容器就像操作一个快速轻量级的虚拟机一样简单。

2015-09-16 15:10:42 13161 1

原创 ubuntu下mysql中文乱码问题完美解决

MySQL中文乱码 character-server-set load data

2015-06-04 21:15:36 2569

原创编译mahout使其支持hadoop2.6

Mahout0.9的版本只支持hadoop1.x版本，现在hadoop2.x比1.x更灵活、功能更强大、应用更广，支持2.x那是必然的。在mahout的主干代码上已经是支持hadoop2.2的了，下面就编译源代码用于支持hadoop2.6，因为自己搭建的环境是这个版本。1、从github上clone一份源代码 2、修改pom.xml文件找到hadoop.version一项

2015-03-19 17:32:48 4561

转载 ssh框架编程范例（转，用做参考）

经过几天的折腾，总算把J2EE的SSH框架搭建起来了。第一步：安装 Jdk , MyEcplise , Tomcat 下载Struts2.3.14， Spring3.2.2 ，Hibernate4.2.0 如果使用proxool数据连接池技术必须加入proxool-0.9.1.jar和proxool-cglib.jar 除了proxool之外，还有DBCP和C3

2015-03-18 10:29:16 689

原创本地eclipse连接远程hadoop集群运行wordcount实例，实现远程调试

条件：1.远程hadoop集群能正常运行 2.将hadoop-eclipse-plugin-x.x.x.jar加入到eclipse的plugins中 3.在eclipse中配置好mapreduce location，确保eclipse能脸上hdfs 4.在创建的mapreduce工程中加入hadoop的所有配置文件，即etc/had

2015-03-12 16:18:21 837

原创 spark1.2.0+hadoop2.4.0集群环境搭建

spark1.2.0+hadoop2.4.0集群环境搭建1.首先介绍一下整个过程中需要用到的一些软件Jdk jdk-7u21-linux-i586.tar.gzspark-1.2.0-bin-hadoop2.4 这是编译好了的spark,当然你也可以自己编译,详情将官网http://spark.apache.org/docs/latest/building-spark.h

2014-12-31 10:37:32 1427

转载 SparkRDDAPIExamples

The RDD API By ExampleRDD is short for Resilient Distributed Dataset.RDDsare the workhorse of the Spark system. As a user, one can consider aRDD as a handle for a collection of individual data par

2014-12-19 11:35:06 1192

转载 No suitable driver found for jdbc

今天出现编码出现了No suitable driver found for jdbc，又是找遍了网上的资料，基本上都说是三个问题：一是：连接URL格式出现了问题(Connection conn=DriverManager.getConnection("jdbc:mysql://localhost:3306/XX","root","XXXX") 二是：驱动字符串出错(com.m

2014-10-13 14:49:02 733

书上说的不清晰透彻，下面是在StackOverflow上的一个方案，我觉得很好：(1) Cascading jobsCreate the JobConf object "job1" for the first job and set all the parameters with "input" as inputdirectory and "temp" as output directory. E

2014-10-10 11:33:30 1253

转载 pig中各种sql语句的实现

我这里以Mysql 5.1.x为例,Pig的版本是0.8 同时我将数据放在了两个文件,存放在/tmp/data_file_1和/tmp/data_file_2中.文件内容如下: tmp_file_1:Txt代码 zhangsan 23 1 lisi 24 1 wangmazi 30 1 meinv

2014-09-02 18:01:42 569

转载使用PIG Latin 进行编程，Pig Latin语言详解

使用PIG Latin 进行编程在这篇文章中，我们将介绍以下几点：安装、配置PIG LatinPIG Latin关键字及数据类型上载及下载数据至HDFS载入文本数据存储数据排序逐行排序过滤分组剔除重复项Cross JoinJoin其他安装、配置PIG LatinPIG 并不依赖安装路径，换句话说你可以将 PIG 安装在任意路径。但需要注意一点，正如 Apache 的项目是运

2014-09-02 17:03:51 6803

转载使用 Apache Pig 处理数据

Hadoop 的普及和其生态系统的不断壮大并不令人感到意外。Hadoop 不断进步的一个特殊领域是 Hadoop 应用程序的编写。虽然编写 Map 和 Reduce 应用程序并不十分复杂，但这些编程确实需要一些软件开发经验。Apache Pig 改变了这种状况，它在 MapReduce 的基础上创建了更简单的过程语言抽象，为 Hadoop 应用程序提供了一种更加接近结构化查询语言 (SQL) 的接

2014-09-02 16:39:26 651

原创 Linux下Pig的安装和配置

一.Pig简介Apache Pig 是一个高级过程语言，适合于使用 Hadoop 和 MapReduce 平台来查询大型半结构化数据集。通过允许对分布式数据集进行类似 SQL 的查询，Pig 可以简化 Hadoop 的使用

2014-09-02 15:08:11 3761

原创 Linux下Hbase在eclipse上的hadoop环境配置

一.环境配置

2014-08-29 17:19:13 837

原创 Linux下HBase-0.98.5安装配置之伪分布模式

HBase安装模式有三种：单机模式、分布式（伪分布式和完全分布式）。本教程介绍了HBase的伪分布式模式安装配置的过程，伪分布式模式是把进程运行在一台机器上，但不是同一个JVM（单机模式），分布式模式的安装配置需要依赖于HDFS

2014-08-29 15:07:25 563

原创 Linux下hive-0.13.1安装教程

Hive可以视为在Hadoop和HDFS之上为用户封装

2014-08-28 18:41:47 2867

奔向新世界