自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

wer0735的博客

专注于大数据数据仓库

  • 博客(10)
  • 问答 (1)
  • 收藏
  • 关注

原创 互联网数据仓库数据模型

互联网数据仓库的现实状况模型方法选择在我们的数据仓库中,除了各个主题域下的维度模型,还存在一些宽表模型。所谓宽表模型,是基于维度模型的扩展,采用退化维度的方式,将不同维度的度量放入数据表的不同的列中;它更易于理解,具有更高的查询效率;易于模型扩展;事实证明,在海量数据环境下,对业务查询的支撑,宽表在性能和易用性方面,都达到了比较理想的效果。...

2018-03-28 14:40:02 1916

转载 数据仓库中历史拉链表的更新方法

转载:http://lxw1234.com/archives/2015/08/473.htm本文中假设:数据仓库中订单历史表的刷新频率为一天,当天更新前一天的增量数据;如果一个订单在一天内有多次状态变化,则只会记录最后一个状态的历史;订单状态包括三个:创建、支付、完成;创建时间和修改时间只取到天,如果源订单表中没有状态修改时间,那么抽取增量就比较麻烦,需要有个机制来确保能抽取到每天的增量数据;本文...

2018-03-28 14:00:16 1762

转载 数据仓库之 ETL

转载:http://lxw1234.com/archives/2015/04/31.htmETL,Extraction-Transformation-Loading的缩写,中文名称为数据抽取、转换和加载。 大多数据仓库的数据架构可以概括为:数据源–>ODS(操作型数据存储)–>DW–>DM(data mart)ETL贯穿其各个环节。 ​一、数据抽取:可以理解为是把源数据的数据抽取...

2018-03-27 17:05:35 414

转载 一个母婴电子商务网站贝贝网的大数据平台及机器学习实践

转载:http://lxw1234.com/archives/2016/02/609.htm贝贝网的主要产品是垂直的母婴类,母婴相对一般的电子商务网站有一些特点:第一个特点是商品周期短,在母婴网站上的商品,在线的时间不会超过5-7天,第二个是用户需求的变化快,在母婴行业,可能是用户的需求变化最快的领域,比如是用户处在怀孕当中,关心的是孕妈的一些问题,几个月以后,随着宝宝的落地,就会准备一些纸尿裤和...

2018-03-27 16:22:36 2437

原创 hive知识点

1 外部表和内部表的使用场景Hive中的表分为内部表(MANAGED_TABLE)和外部表(EXTERNAL_TABLE)。内部表和外部表最大的区别内部表DROP时候会删除HDFS上的数据;外部表DROP时候不会删除HDFS上的数据;内部表适用场景:Hive中间表、结果表、一般不需要从外部(如本地文件、HDFS上load数据)的情况。外部表适用场景:源表,需要定期将外部数据映射到表中。我们的使用场...

2018-03-27 16:20:38 213

转载 hive元数据

转载:http://lxw1234.com/archives/2015/07/378.htm1 存储Hive版本的元数据表(VERSION)该表比较简单,但很重要。VER_IDSCHEMA_VERSIONVERSION_COMMENTID主键Hive版本版本说明10.13.0Set by MetaStore如果该表出现问题,根本进入不了Hive-Cli。比如该表不存在,当启动Hive-Cli时候,...

2018-03-27 15:22:27 383

原创 敏捷开发

    敏捷开发以用户的需求进化为核心,采用迭代、循序渐进的方法进行软件开发。在敏捷开发中,软件项目在构建初期被切分成多个子项目,各个子项目的成果都经过测试,具备可视、可集成和可运行使用的特征。换言之,就是把一个大项目分为多个相互联系,但也可独立运行的小项目,并分别完成,在此过程中软件一直处于可使用状态。原则编辑敏捷建模(AM)定义了一系列的核心原则和辅助原则,它们为软件开发项目中的建模实践奠定了...

2018-03-18 10:46:00 379

原创 快速原型模型

    快速原型模型需要迅速建造一个可以运行的软件原型 ,以便理解和澄清问题,使开发人员与用户达成共识,最终在确定的客户需求基础上开发客户满意的软件产品。 快速原型模型允许在需求分析阶段对软件的需求进行初步而非完全的分析和定义,快速设计开发出软件系统的原型,该原型向用户展示待开发软件的全部或部分功能和性能;用户对该原型进行测试评定,给出具体改进意见以丰富细化软件需求;开发人员据此对软件进行修改完善...

2018-03-18 10:44:41 3764

原创 瀑布模型

    瀑布模型(Waterfall Model) 是一个项目开发架构,开发过程是通过设计一系列阶段顺序展开的,从系统需求分析开始直到产品发布和维护,每个阶段都会产生循环反馈,因此,如果有信息未被覆盖或者发现了问题,那么最好 “返回”上一个阶段并进行适当的修改,项目开发进程从一个阶段“流动”到下一个阶段,这也是瀑布模型名称的由来。包括软件工程开发、企业项目开发、产品生产以及市场销售等构造瀑布模型。...

2018-03-18 10:43:01 4485

原创 螺旋式开发模式

螺旋模型是一种演化软件开发过程模型,它兼顾了快速原型的迭代的特征以及瀑布模型的系统化与严格监控。螺旋模型最大的特点在于引入了其他模型不具备的风险分析,使软件在无法排除重大风险时有机会停止,以减小损失。同时,在每个迭代阶段构建原型是螺旋模型用以减小风险的途径。螺旋模型更适合大型的昂贵的系统级的软件应用。[1] 1988年,巴利·玻姆(Barry Boehm)正式发表了软件系统开发的“螺旋模型”,它将...

2018-03-18 10:41:45 7176

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除