zisheng_wang_DATA的博客

王子胜_DT大数据

排序:
默认
按更新时间
按访问量

Kettle 7.0 怎么连数据库资源库

1.为什么使用资源库如果我们是团队开发项目,除了使用SVN等版本控制软件,还可以使用Kettle的资源库,他会将转换、作业直接保存在数据库中,而且,连接资源库的话,我们就不需要每一次都新建数据库连接了,用起来还是蛮方便的。2.链接资源库Kettle7.0里面,是在右上角这个Connect来连接的2...

2017-05-17 09:40:08

阅读数:6016

评论数:8

数据仓库-BI商业智能

简介商业智能(BI,Business Intelligence)。BI(Business Intelligence)即商务智能,它是一套完整的解决方案,用来将企业中现有的数据进行有效的整合,快速准确的提供报表并提出决策依据,帮助企业做出明智的业务经营决策。商业智能的概念最早在1996年提出。当时将...

2017-05-13 15:33:13

阅读数:529

评论数:0

《hive编程指南》学习文档(二)

3.MapReduce的输入输出

2017-05-13 12:55:36

阅读数:334

评论数:0

《hive编程指南》学习文档(一)

第一章 基础知识Hive定义1.hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的Ma...

2017-05-13 10:22:28

阅读数:571

评论数:0

kafka数据可靠性深度解读

Kafka起初是由LinkedIn公司开发的一个分布式的消息系统,后成为Apache的一部分,它使用Scala编写,以可水平扩展和高吞吐率而被广泛使用。目前越来越多的开源分布式处理系统如Cloudera、Apache Storm、Spark等都支持与Kafka集成。

2017-05-13 09:39:24

阅读数:598

评论数:0

Kettle-7.0增量抽取订单数据

原文来自:http://www.ukettle.org/thread-594-1-1.html业务需求:从mysql数据库中,抽取订单和订单明细数据,做一定的轻度清洗,并将清洗后的数据存放到指定目录下,清洗出来的错误数据存到另一个存error data的目录。 实现步骤: 1....

2017-05-11 15:27:39

阅读数:3051

评论数:0

Apache Kylin介绍

Kylin是ebay开发的一套OLAP系统,主要是对hive中的数据进行预计算,利用hadoop的mapreduce框架实现。通过设计维度、度量,我们可以构建星型模型或雪花模型,生成数据多维立方体Cube,基于Cube可以做钻取、切片、旋转等多维分析操作。Apache Kylin核心思想简单来说,...

2017-05-04 19:33:36

阅读数:989

评论数:0

ODS与数据仓库的区别

数据仓库是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策(Decision Making Support)。**ODS是一个面向主题的、集成的、可变的、...

2017-05-02 09:50:20

阅读数:1740

评论数:0

Windows下Kettle-7.0集群安装

1 配置子服务器 打开ketlle目录,找到pwd目录,里面有4个XML文件,分别是子服务器的配置文件和密码文件: Carte-config-master-8080.xml是主服务器的配置文件。编辑该文件,根据情况修改其中的name\hostname\port\master等属性。Name是...

2017-04-06 16:18:20

阅读数:1138

评论数:3

怎么在MySQL官网下载java连接MySQL数据库的驱动jar包

MySQL官网下载地址:http://dev.mysql.com/downloads/connector/点击打开链接根据自己的需要选择驱动jar包,如果是Java链接数据库的操作,选择Connector/J可以选择Platform Independent,直接下载zip文件就可以了。 也可以选...

2017-04-06 14:52:52

阅读数:717

评论数:0

解决Maven下载依赖慢的问题

使用Maven构建项目时,项目中有的依赖包可能下载的非常慢,我们可以通过配置镜像来解决这个问题。 之前开源中国的那个好像已经关闭了,于是我找到了一个阿里的来解决。 在Maven的配置文件(%MAVEN%/conf/setting.xml)中的< mirrors> 标签中加入 &...

2017-03-27 13:55:31

阅读数:398

评论数:0

CDH5.10.x安装

1.CDH (Cloudera’s Distribution, including Apache Hadoop),是Hadoop众多分支中的一种,由Cloudera维护,基于稳定版本的Apache Hadoop构建,并集成了很多补丁,可直接用于生产环境。 Cloudera Manager则是为了便...

2017-03-26 00:11:33

阅读数:2997

评论数:0

Centos7安装并配置mysql5.7完美教程

1、配置YUM源下载mysql源安装包shell> wget http://dev.mysql.com/get/mysql57-community-release-el7-8.noarch.rpm安装mysql源shell> yum localinstall mysql57-commu...

2017-03-25 20:12:46

阅读数:305

评论数:0

CentOS7环境搭建

1.安装 VirtualBox 5.1.14软件 推荐官方下载最新版,下载地址: https://www.virtualbox.org/wiki/Downloads 2.运行VirtualBox 5.1.14,新建3台虚拟机,并安装CentOS7操作系统 CentOS7下载地址: http...

2017-03-25 20:02:11

阅读数:334

评论数:0

Kettle-7.0使用举例

1.使用举例 1.1建立转换 选中列表中的的“表输入”、“表输出”、“插入/更新”,拖拽到右侧工作区。鼠标选中节点键盘按shift键,拖拽即可连线。下图是一个转换,有两个动作,一是直接从数据源表同步数据到目标表,一是检查源表的插入和更新,同步到目标表。黑色线为生效,灰色线为失效,节点和连接可双...

2017-03-10 16:59:53

阅读数:7129

评论数:2

Win7下Kettle-7.0安装部署

1、Kettle概念 Kettle是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,绿色无需安装,数据抽取高效稳定。 Kettle 中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出。 Kettle这个ET...

2017-03-10 13:36:52

阅读数:18087

评论数:2

什么是Elasticsearch?

一、Elasticsearch简介Elasticsearch是一个分布式的搜索引擎,可以实时分析。可以扩展到数百台服务器,检索巨大的数据。集成在一个独立的服务器,你可以通过REST风格的API来访问。Elasticsearch是建立在Lucene之上,Lucene是一个全文搜索引擎库,最先进的,丰...

2017-03-06 14:28:09

阅读数:483

评论数:0

Spark 定制版:018~Spark Streaming中空RDD处理及流处理程序优雅的停止

本讲内容:a. Spark Streaming中的空RDD处理 b. Spark Streaming程序的停止注:本讲内容基于Spark 1.6.1版本(在2016年5月来说是Spark最新版本)讲解上节回顾上一讲中,我们要给大家解密park Streaming两个比较高级的特性,资源动态申请...

2016-06-28 21:52:27

阅读数:896

评论数:0

Spark 定制版:017~Spark Streaming资源动态申请和动态控制消费速率原理剖析

本讲内容:a. Spark Streaming资源动态分配 b. Spark Streaming动态控制消费速率注:本讲内容基于Spark 1.6.1版本(在2016年5月来说是Spark最新版本)讲解上节回顾上一讲中,我们要给大家解密park Streaming中数据清理的流程,主要从背景、S...

2016-06-22 21:29:37

阅读数:2353

评论数:0

Spark 定制版:016~Spark Streaming源码解读之数据清理内幕彻底解密

本讲内容:a. Spark Streaming数据清理原因和现象 b. Spark Streaming数据清理代码解析注:本讲内容基于Spark 1.6.1版本(在2016年5月来说是Spark最新版本)讲解。上节回顾上一讲中,我们之所以用一节课来讲No Receivers,是因为企业级Spar...

2016-06-21 21:02:03

阅读数:6780

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭