自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

wzy0623的专栏

数据库、数据仓库、大数据

  • 博客(14)
  • 论坛 (3)

原创 kylin 安装配置实验

一、实验环境3台CentOS release 6.4虚拟机,IP地址为192.168.56.101 master192.168.56.102 slave1192.168.56.103 slave2hadoop 2.7.2hbase 1.1.4hive 2.0.0zookeeper 3.4.8kylin 1.5.1(一定要apache-kylin-1.5.1-

2016-04-29 17:43:19 24658 6

原创 基于独立Zookeeper集群的Hbase 安装配置实验

前面做了基于Hbase自带Zookeeper的安装配置(参考http://blog.csdn.net/wzy0623/article/details/51241641),今天做了个基于独立Zookeeper集群的。一、实验环境3台CentOS release 6.4虚拟机,IP地址为192.168.56.101 master192.168.56.102 slave1192.

2016-04-28 18:00:26 3498 1

原创 重新编译Hadoop 2.7.2 native以支持snappy

问题提出:在运行kylin sample时出现以下错误:org.apache.hadoop.hive.ql.metadata.HiveException: native snappy library not available: this version of libhadoop was built without snappy support.造成以上错误的原因是Hadoop的二进制

2016-04-27 17:43:02 8390 1

原创 Hbase 安装配置实验

一、实验环境3台CentOS release 6.4虚拟机,IP地址为192.168.56.101 master192.168.56.102 slave1192.168.56.103 slave2hadoop 2.7.2hbase 1.2.1hbase与hadoop的版本兼容性,参考http://hbase.apache.org/book.html#basic.

2016-04-25 13:38:27 3028

原创 Zeppelin 安装部署实验

一、实验目的1. 使用Zeppelin运行SparkSQL访问Hive表2. 动态表单SQL二、实验环境:12个节点的Spark集群,以standalone方式部署,各个节点运行的进程如表1所示。主机名运行进程nbidc-agent-03Hadoop NameNodeSpark Master

2016-04-20 16:02:27 6935

原创 Pentaho Work with Big Data(八)—— kettle集群

一、简介        集群技术可以用来水平扩展转换,使它们能以并行的方式运行在多台服务器上。转换的工作可以平均分到不同的服务器上。        一个集群模式包括一个主服务器和多个子服务器,主服务器作为集群的控制器。简单地说,作为控制器的Carte服务器就是主服务器,其他的Carte服务器就是子服务器。        一个集群模式也包含元数据,元数据描述了主服务器和子服务器之间怎样传

2016-04-18 22:14:07 3480

原创 Pentaho Work with Big Data(七)—— 从Hadoop集群抽取数据

一、把数据从HDFS抽取到RDBMS1. 从下面的地址下载示例文件。 http://wiki.pentaho.com/download/attachments/23530622/weblogs_aggregate.txt.zip?version=1&modificationDate=13270678580002. 用下面的命令把解压缩后的weblogs_aggregate.txt文

2016-04-15 13:30:59 6707

原创 Pentaho Work with Big Data(六)—— 使用Pentaho MapReduce生成聚合数据集

本示例说明如何使用Pentaho MapReduce把细节数据转换和汇总成一个聚合数据集。当给一个关系型数据仓库或数据集市准备待抽取的数据时,这是一个常见使用场景。我们使用格式化的web日志数据作为细节数据,并且建立一个聚合文件,包含按IP和年月分组的PV数。关于如何使用Pentaho MapReduce把原始web日志解析成格式化的记录,参考http://blog.csdn.net/wz

2016-04-14 16:22:48 3059

原创 Pentaho Work with Big Data(五)—— 格式化原始web日志

本示例说明如何使用Pentaho MapReduce把原始web日志解析成格式化的记录。一、向HDFS导入示例数据文件将weblogs_rebuild.txt文件放到HDFS的/user/grid/raw/目录下(因资源有限,本示例只取了这个文件的前10行数据)参考:http://blog.csdn.net/wzy0623/article/details/51133760二

2016-04-13 18:17:52 4588

原创 Pentaho Work with Big Data(四)—— 转换Hive里的数据

1. 建立hive表,导入原始数据,过程参考http://blog.csdn.net/wzy0623/article/details/511337602. 建立一个作业,查询hive表,并将聚合数据写入一个hive表(1)打开PDI,新建一个作业,如图1所示。图1(2)建立一个hive的数据库连接,如图2所示。图2说明: kettle连接hive的相

2016-04-13 10:44:50 1648

原创 Pentaho Work with Big Data(三)—— 向Hadoop集群导入数据

1. 向HDFS导入数据. 从下面的地址下载web日志示例文件,解压缩后的weblogs_rebuild.txt文件放到/home/grid/data-integration/test目录下。http://wiki.pentaho.com/download/attachments/23530622/weblogs_rebuild.txt.zip?version=1&modificati

2016-04-12 15:22:47 2423

原创 Spark on YARN 部署实验

以前的Spark部署都是使用的standalone方式,集群中的每台机器都安装部署Spark,然后启动Master和Worker进程运行Spark。今天尝试一下Spark on YARN的部署方式。一、实验目的1. 只在一台机器上安装Spark,基于已有的Hadoop集群,使用YARN调度资源。2. 不启动Master和Worker进程提交Spark作业。3. 通过YARN的W

2016-04-11 12:40:07 3859

原创 Pentaho Work with Big Data(二)—— Kettle提交Spark作业

实验目的:配置Kettle向Spark集群提交作业。实验环境:4台CentOS release 6.4虚拟机,IP地址为192.168.56.101192.168.56.102192.168.56.103192.168.56.104192.168.56.101是Spark集群的主,运行Master进程。192.168.56.102、192.168.56.

2016-04-08 16:09:37 8597

原创 Pentaho Work with Big Data(一)—— Kettle连接Hadoop集群

准备研究一下Pentaho的产品如何同Hadoop协同工作。从简单的开始,今天实验了一下Kettle连接Hadoop集群。实验目的:配置Kettle连接Hadoop集群的HDFS。实验环境:4台CentOS release 6.4虚拟机,IP地址为192.168.56.101192.168.56.102192.168.56.103192.168.56.104

2016-04-07 16:10:49 16913 14

空空如也

wzy0623的留言板

发表于 2020-01-02 最后回复 2020-01-02

如何查看mysql使用的是哪个配置文件

发表于 2008-12-30 最后回复 2015-09-09

CSDN审核荣誉专家需要多长时间啊?

发表于 2007-07-03 最后回复 2007-07-04

空空如也
提示
确定要删除当前文章?
取消 删除