自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

wzy0623的专栏

数据库、数据仓库、大数据

  • 博客(5)
  • 论坛 (3)

原创 在Hive上实现SCD

一、问题提出        官方一直称Hive是Hadoop数据仓库解决方案。既然是数据仓库就离不开多维、CDC、SCD这些概念,于是尝试了一把在Hive上实现SCD1和SCD2。这有两个关键点,一个是行级更新,一个是生成代理键。行级更新hive本身就是支持的,但需要一些配置,还有一些限制。具体可参考http://blog.csdn.net/wzy0623/article/details/51

2016-05-26 17:18:34 4117

原创 让Hive支持行级insert、update、delete

Hive从0.14版本开始支持事务和行级更新,但缺省是不支持的,需要一些附加的配置。要想支持行级insert、update、delete,需要配置Hive支持事务。一、Hive具有ACID语义事务的使用场景1. 流式接收数据。许多用户使用诸如Apache Flume、Apache Storm或Apache Kafka这样的工具将流数据灌入Hadoop集群。当这些工具以每秒数百行的频

2016-05-23 18:12:01 59180

转载 spark应用程序的运行架构

转自:spark应用程序的运行架构几个基本概念:(1)job:包含多个task组成的并行计算,往往由action催生。(2)stage:job的调度单位。(3)task:被送到某个executor上的工作单元。(4)taskSet:一组关联的,相互之间没有shuffle依赖关系的任务组成的任务集。一个应用程序由一个driver program和多个job构成。一个job由多

2016-05-18 09:32:02 971

原创 PageRank算法在spark上的简单实现

在《Spark快速大数据分析》里有一段不明觉厉的Scala代码,只用了区区几行即实现了Google的PageRank算法,于是照猫画虎做了个小实验验证了一下。一、实验环境spark 1.5.0二、PageRank算法简介(摘自《Spark快速大数据分析》)        PageRank是执行多次连接的一个迭代算法,因此它是RDD分区操作的一个很好的用例。算法会维护两个数据

2016-05-12 13:02:30 13622 1

原创 为已存在的Hadoop集群配置HDFS Federation

一、实验目的1. 现有Hadoop集群只有一个NameNode,现在要增加一个NameNode。2. 两个NameNode构成HDFS Federation。3. 不重启现有集群,不影响数据访问。二、实验环境4台CentOS release 6.4虚拟机,IP地址为192.168.56.101 master192.168.56.102 slave1192.168

2016-05-06 09:59:08 5659

空空如也

wzy0623的留言板

发表于 2020-01-02 最后回复 2020-01-02

如何查看mysql使用的是哪个配置文件

发表于 2008-12-30 最后回复 2015-09-09

CSDN审核荣誉专家需要多长时间啊?

发表于 2007-07-03 最后回复 2007-07-04

空空如也
提示
确定要删除当前文章?
取消 删除