wzy0623的专栏

数据库、数据仓库、大数据

kylin 安装配置实验

一、实验环境 3台CentOS release 6.4虚拟机,IP地址为 192.168.56.101 master 192.168.56.102 slave1 192.168.56.103 slave2 hadoop 2.7.2 hbase 1.1.4 hive 2.0.0 zookeeper...

2016-04-29 17:43:19

阅读数:20861

评论数:5

基于独立Zookeeper集群的Hbase 安装配置实验

前面做了基于Hbase自带Zookeeper的安装配置(参考http://blog.csdn.net/wzy0623/article/details/51241641),今天做了个基于独立Zookeeper集群的。 一、实验环境 3台CentOS release 6.4虚拟机,IP地址为 ...

2016-04-28 18:00:26

阅读数:2230

评论数:0

重新编译Hadoop 2.7.2 native以支持snappy

问题提出: 在运行kylin sample时出现以下错误: org.apache.hadoop.hive.ql.metadata.HiveException: native snappy library not available: this version of libhadoop was bu...

2016-04-27 17:43:02

阅读数:5387

评论数:0

Hbase 安装配置实验

一、实验环境 3台CentOS release 6.4虚拟机,IP地址为 192.168.56.101 master 192.168.56.102 slave1 192.168.56.103 slave2 hadoop 2.7.2 hbase 1.2.1 hbase与hadoop的版本兼容性,...

2016-04-25 13:38:27

阅读数:2339

评论数:0

Zeppelin 安装部署实验

一、实验目的 1. 使用Zeppelin运行SparkSQL访问Hive表 2. 动态表单SQL 二、实验环境: 12个节点的Spark集群,以standalone方式部署,各个节点运行的进程如表1所示。 主机名 运行进程 nbidc-agent-03 Hadoop N...

2016-04-20 16:02:27

阅读数:5790

评论数:0

Pentaho Work with Big Data(八)—— kettle集群

一、简介         集群技术可以用来水平扩展转换,使它们能以并行的方式运行在多台服务器上。转换的工作可以平均分到不同的服务器上。         一个集群模式包括一个主服务器和多个子服务器,主服务器作为集群的控制器。简单地说,作为控制器的Carte服务器就是主服务器,其他的Carte服务器就...

2016-04-18 22:14:07

阅读数:2278

评论数:0

Pentaho Work with Big Data(七)—— 从Hadoop集群抽取数据

一、把数据从HDFS抽取到RDBMS 1. 从下面的地址下载示例文件。  http://wiki.pentaho.com/download/attachments/23530622/weblogs_aggregate.txt.zip?version=1&modificationDate...

2016-04-15 13:30:59

阅读数:5924

评论数:0

Pentaho Work with Big Data(六)—— 使用Pentaho MapReduce生成聚合数据集

本示例说明如何使用Pentaho MapReduce把细节数据转换和汇总成一个聚合数据集。当给一个关系型数据仓库或数据集市准备待抽取的数据时,这是一个常见使用场景。我们使用格式化的web日志数据作为细节数据,并且建立一个聚合文件,包含按IP和年月分组的PV数。 关于如何使用Pentaho M...

2016-04-14 16:22:48

阅读数:2564

评论数:0

Pentaho Work with Big Data(五)—— 格式化原始web日志

本示例说明如何使用Pentaho MapReduce把原始web日志解析成格式化的记录。 一、向HDFS导入示例数据文件 将weblogs_rebuild.txt文件放到HDFS的/user/grid/raw/目录下(因资源有限,本示例只取了这个文件的前10行数据) 参考:http://blog...

2016-04-13 18:17:52

阅读数:4080

评论数:0

Pentaho Work with Big Data(四)—— 转换Hive里的数据

1. 建立hive表,导入原始数据,过程参考 http://blog.csdn.net/wzy0623/article/details/51133760 2. 建立一个作业,查询hive表,并将聚合数据写入一个hive表 (1)打开PDI,新建一个作业,如图1所示。 图1 (...

2016-04-13 10:44:50

阅读数:1269

评论数:0

Pentaho Work with Big Data(三)—— 向Hadoop集群导入数据

1. 向HDFS导入数据 . 从下面的地址下载web日志示例文件,解压缩后的weblogs_rebuild.txt文件放到/home/grid/data-integration/test目录下。 http://wiki.pentaho.com/download/attachments/23...

2016-04-12 15:22:47

阅读数:1854

评论数:0

Spark on YARN 部署实验

以前的Spark部署都是使用的standalone方式,集群中的每台机器都安装部署Spark,然后启动Master和Worker进程运行Spark。今天尝试一下Spark on YARN的部署方式。 一、实验目的 1. 只在一台机器上安装Spark,基于已有的Hadoop集群,使用YARN调度资...

2016-04-11 12:40:07

阅读数:2584

评论数:0

Pentaho Work with Big Data(二)—— Kettle提交Spark作业

实验目的: 配置Kettle向Spark集群提交作业。 实验环境: 4台CentOS release 6.4虚拟机,IP地址为 192.168.56.101 192.168.56.102 192.168.56.103 192.168.56.104 192.168.56.10...

2016-04-08 16:09:37

阅读数:5203

评论数:0

Pentaho Work with Big Data(一)—— Kettle连接Hadoop集群

准备研究一下Pentaho的产品如何同Hadoop协同工作。从简单的开始,今天实验了一下Kettle连接Hadoop集群。 实验目的: 配置Kettle连接Hadoop集群的HDFS。 实验环境: 4台CentOS release 6.4虚拟机,IP地址为 192.168.56....

2016-04-07 16:10:49

阅读数:11629

评论数:14

提示
确定要删除当前文章?
取消 删除
关闭
关闭