wer0735的博客

专注于大数据数据仓库

Hive.GROUPING SETS的“陷阱”

转载:https://blog.csdn.net/mashroomxl/article/details/23022123之前整理了一下Hive 0.10版引进的GROUPING SETS子句特性,并作了简单的句法使用体验和数据验证。但是当时没有注意到稍微复杂一点的情况,然后,在实际使用过程中,妥妥...

2018-07-16 00:17:10

阅读数 265

评论数 0

Hive.GROUPING SETS

如果说聚合函数(Simple UDAF / Generic UDAF)是HQL聚合数据查询或分析的中枢处理器,那GROUP BY可以说是聚合函数的神经了,GROUP BY收集和传递材料,然后交给聚合函数们去处理。这些材料的组织形式显得尤为重要,它们表达着分析者想要的观察维度或视角,管理着聚合函数们...

2018-07-16 00:13:58

阅读数 119

评论数 0

Hive.LEFT SEMI JOIN子句

转载:https://blog.csdn.net/mashroomxl/article/details/20845279公司的数据仓库和离线数据分析是建立在Hadoop + Hive基础上的,现在的工作主要是数据分析,自然也就跟HQL查询经常打交道了。刚来公司几乎完全不懂数据库知识,神马结构化查询...

2018-07-16 00:12:47

阅读数 263

评论数 0

Hive.分组排序和TOP

转载:https://blog.csdn.net/mashroomxl/article/details/23864685HQL作为类SQL的查询分析语言,到目前为止,应该也还未能达到其它流行的SQL(如Transact-SQL, MySQL)实现那样完善。而在公司的生产环境中,我想应该也不会紧贴H...

2018-07-16 00:11:19

阅读数 764

评论数 0

干货合集】项目管理、需求快速迭代如何实现?17篇文章搞懂敏捷开发!

转载:https://yq.aliyun.com/articles/591419?utm_content=m_49379为了让大家get到研发效能有关的敏捷开发和架构的相关知识,现将云栖社区2017年度与之相关的前沿技术理念及实践技术成果资料整理出来,供大家学习。【敏捷开发】敏捷个人和敏捷开发敏捷...

2018-07-15 10:35:22

阅读数 269

评论数 0

从瀑布模型、极限编程到敏捷开发

软件开发是一种对人类智慧的管理,对人大脑思维的“工厂化”管理。人是有感情的、有情绪的、变化的、相对独立的工作单元,这与冰冷的机器是不可比的,所以在中国的历史上,管理人是最难的工作;“学而优则仕”的观点就是让最聪明的人应该选出来做官,做官就是管理人的。软件开发不仅是代码编程,而是人员的有效组织,如何...

2018-07-15 10:26:18

阅读数 338

评论数 0

谈谈变味的敏捷开发

转载:https://yq.aliyun.com/articles/130605敏捷开发(Agile Development) 随着“敏捷”一词出现在越来越多的项目中,于是,敏捷开发本身也被赋与了越来越多的意义,而敏捷的真正内涵反而变得越来越模糊。如何迈出敏捷开发第一步?是按照敏捷宝典、操作指南或...

2018-07-15 10:25:21

阅读数 427

评论数 0

敏捷个人和敏捷开发

转载:https://yq.aliyun.com/articles/408737自2001初成立了敏捷联盟到现在10年的推广,敏捷开发已日渐成为当前IT行业软件开 发的一种主流方法。没有银弹,任何方法都不可能解决所有问题,反而方法应用本身还会带来新的问题。我在今年6月份上海举办的ScrumGath...

2018-07-15 10:19:21

阅读数 428

评论数 0

Agile敏捷开发管理Salesforce项目(第一篇)- 4大核心价值观+12条原则

转载:https://blog.csdn.net/itsme_web/article/details/80719796【什么是敏捷开发?】资深程序员之路(5)--agile开发敏捷开发(scrum, agile)相对于瀑布流开发(waterfull)更适合现在快节奏的商业模式需求,它将一整个项目拆...

2018-07-15 10:15:54

阅读数 301

评论数 0

敏捷开发

转载:https://blog.csdn.net/yue31313/article/details/51889399敏捷开发以用户的需求进化为核心,采用迭代、循序渐进的方法进行软件开发。在敏捷开发中,软件项目在构建初期被切分成多个子项目,各个子项目的成果都经过测试,具备可视、可集成和可运行使用的特...

2018-07-15 10:14:12

阅读数 121

评论数 0

关于敏捷开发的一点总结与感悟

敏捷开发的主旨:  一:个体及交互比流程与工具更具价值  二:可用的软件比冗长的文档更有价值  三:与客户的协作比合同谈判更有价值  四:对变化的响应比遵循计划更有价值直接聊宗旨有些抽象了,举些栗子就会发现这个宗旨极恰当。以下内容为转载:http://www.lanceyan.com/catego...

2018-07-15 10:10:45

阅读数 445

评论数 0

聊一聊数据仓库中的元数据管理系统

转载:https://yq.aliyun.com/articles/174269?utm_content=m_28755相信很多朋友都是第一次听说元数据管理系统这个名词,当然,从事非数据仓库工作的人,很少会接触到这个系统,即使是正在从事这方面工作的朋友,可能仍然对它不是很了解,那么今天我来聊一聊元...

2018-07-15 09:52:58

阅读数 487

评论数 0

Hive优化—-控制hive任务的reduce数

转载:http://www.superwu.cn/?p=21231. Hive自己如何确定reduce数:reduce个数的设定极大影响任务执行效率,不指定reduce个数的情况下,Hive会猜...

2018-07-14 18:40:52

阅读数 113

评论数 0

主机资源

1 查看主机内存free -m14793:已使用   33472:未使用

2018-07-14 18:39:50

阅读数 189

评论数 0

Hive分析窗口函数

分析窗口函数应用场景:(1)用于分区排序(2)动态Group By(3)Top N(4)累计计算(5)层次查询Hive分析窗口函数(一) SUM,AVG,MIN,MAXHive中提供了越来越多的分析函数,用于完成负责的统计分析。抽时间将所有的分析窗口函数理一遍,将陆续发布。今天先看几个基础的,SU...

2018-07-13 14:14:07

阅读数 627

评论数 0

Lambda架构

转载:https://blog.csdn.net/brucesea/article/details/459378751.Lambda架构背景介绍Lambda架构是由Storm的作者Nathan Marz提出的一个实时大数据处理框架。Marz在Twitter工作期间开发了著名的实时大数据处理框架St...

2018-07-11 21:15:04

阅读数 5059

评论数 2

浅谈数据仓库建设中的数据建模方法

周三保(zhousb@cn.ibm.com) IBM 软件部信息技术专家.简介: 本文的主要内容不是介绍现有的比较流行的主要行业的一些数据模型,而是将笔者在数据仓库建设项目中的一些经验,在这里分享给大家。希望帮助大家在数据仓库项目建设中总结出一套能够合乎目前业界规范的,满足大部分行业数据仓库建设标...

2018-06-29 13:11:15

阅读数 2270

评论数 1

美团旅行数据质量监管平台实践

转载:https://blog.csdn.net/meituantech/article/details/79668330背景数据,已经成为互联网企业非常依赖的新型重要资产。数据质量的好坏直接关系到信息的精准度,也影响到企业的生存和竞争力。Michael Hammer(《Reengineering...

2018-06-27 21:07:46

阅读数 1332

评论数 0

使用开源项目的正确姿势,都是血和泪的总结!

转载:https://blog.csdn.net/b0Q8cpra539haFS7/article/details/79890997阿里妹导读:开源精神是技术发展的源动力之一,受到工程师们的热烈欢迎。但是开源项目如此之多,哪一个最适合自己?如何更好利用开源项目,甚至做二次开发?今天,阿里资深无线开...

2018-05-23 16:57:58

阅读数 91

评论数 0

AB测试

AB测试是为Web或App界面或流程制作两个(A/B)或多个(A/B/n)版本,在同一时间维度,分别让组成成分相同(相似)的访客群组随机的访问这些版本,收集各群组的用户体验数据和业务数据,最后分析评估出最好版本正式采用。中文名A/B测试外文名A/B Testing别    名分组测试,分桶测试英文...

2018-05-09 10:46:26

阅读数 670

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭