wer0735-CSDN博客

转载 Hive.GROUPING SETS的“陷阱”

转载：https://blog.csdn.net/mashroomxl/article/details/23022123之前整理了一下Hive 0.10版引进的GROUPING SETS子句特性，并作了简单的句法使用体验和数据验证。但是当时没有注意到稍微复杂一点的情况，然后，在实际使用过程中，妥妥地就中了一枪。这一枪发生在有JOIN操作的时候，情况是这样的：我要对Hive表data_...

2018-07-16 00:17:10 2886

转载 Hive.GROUPING SETS

如果说聚合函数（Simple UDAF / Generic UDAF）是HQL聚合数据查询或分析的中枢处理器，那GROUP BY可以说是聚合函数的神经了，GROUP BY收集和传递材料，然后交给聚合函数们去处理。这些材料的组织形式显得尤为重要，它们表达着分析者想要的观察维度或视角，管理着聚合函数们的操作对象。而分析者经常想要在一次分析中从多个维度去获得分析数据，对包含多个维度或多级层...

2018-07-16 00:13:58 442

转载 Hive.LEFT SEMI JOIN子句

转载：https://blog.csdn.net/mashroomxl/article/details/20845279公司的数据仓库和离线数据分析是建立在Hadoop + Hive基础上的，现在的工作主要是数据分析，自然也就跟HQL查询经常打交道了。刚来公司几乎完全不懂数据库知识，神马结构化查询语言也只是听说而已，不过，这没关系，实际工作一来，学习起来还是很快~~ 年前有一个同事叫...

2018-07-16 00:12:47 871

转载：https://blog.csdn.net/mashroomxl/article/details/23864685HQL作为类SQL的查询分析语言，到目前为止，应该也还未能达到其它流行的SQL（如Transact-SQL, MySQL）实现那样完善。而在公司的生产环境中，我想应该也不会紧贴Hive版本更新的步伐，始终部署最新版的Hive；可能会滞后一两个大版本神马的；毕竟，虽然开源工具的透明...

2018-07-16 00:11:19 1876

转载干货合集】项目管理、需求快速迭代如何实现？17篇文章搞懂敏捷开发！

转载：https://yq.aliyun.com/articles/591419?utm_content=m_49379为了让大家get到研发效能有关的敏捷开发和架构的相关知识，现将云栖社区2017年度与之相关的前沿技术理念及实践技术成果资料整理出来，供大家学习。【敏捷开发】敏捷个人和敏捷开发敏捷开发实践总结（一）：敏捷开发的核心思想。谈谈软件项目管理——敏捷开发从瀑布模型、极限编程到敏捷开发敏捷...

2018-07-15 10:35:22 1044

转载从瀑布模型、极限编程到敏捷开发

软件开发是一种对人类智慧的管理，对人大脑思维的“工厂化”管理。人是有感情的、有情绪的、变化的、相对独立的工作单元，这与冰冷的机器是不可比的，所以在中国的历史上，管理人是最难的工作；“学而优则仕”的观点就是让最聪明的人应该选出来做官，做官就是管理人的。软件开发不仅是代码编程，而是人员的有效组织，如何既发挥人的主观能动性，避免情绪变化对工作的影响，又可以让大家有效的交流，让多个大脑的思路统一，快速完成...

2018-07-15 10:26:18 888

转载谈谈变味的敏捷开发

转载：https://yq.aliyun.com/articles/130605敏捷开发（Agile Development）随着“敏捷”一词出现在越来越多的项目中，于是，敏捷开发本身也被赋与了越来越多的意义，而敏捷的真正内涵反而变得越来越模糊。如何迈出敏捷开发第一步？是按照敏捷宝典、操作指南或是教父语录，还是因地制宜、因项目定方法？完成所有这些工作后，我们就真的“敏捷”了吗？　　一、前言　　A...

2018-07-15 10:25:21 760

转载敏捷个人和敏捷开发

转载：https://yq.aliyun.com/articles/408737自2001初成立了敏捷联盟到现在10年的推广，敏捷开发已日渐成为当前IT行业软件开发的一种主流方法。没有银弹，任何方法都不可能解决所有问题，反而方法应用本身还会带来新的问题。我在今年6月份上海举办的ScrumGathering 中进行了一场敏捷个人话题的分享，我说到，想要Doing敏捷并不难，只要花上几天功夫学习敏捷...

2018-07-15 10:19:21 960

转载 Agile敏捷开发管理Salesforce项目（第一篇）- 4大核心价值观+12条原则

转载：https://blog.csdn.net/itsme_web/article/details/80719796【什么是敏捷开发？】资深程序员之路(5)--agile开发敏捷开发（scrum, agile）相对于瀑布流开发（waterfull）更适合现在快节奏的商业模式需求，它将一整个项目拆分为相互独立的小块，我们成为sprint（冲刺）,每个sprint都包含前期的需求分析，开发测试，客户...

2018-07-15 10:15:54 1830

转载敏捷开发

转载：https://blog.csdn.net/yue31313/article/details/51889399敏捷开发以用户的需求进化为核心，采用迭代、循序渐进的方法进行软件开发。在敏捷开发中，软件项目在构建初期被切分成多个子项目，各个子项目的成果都经过测试，具备可视、可集成和可运行使用的特征。换言之，就是把一个大项目分为多个相互联系，但也可独立运行的小项目，并分别完成，在此过程中软件一直处...

2018-07-15 10:14:12 330

转载关于敏捷开发的一点总结与感悟

敏捷开发的主旨：　　一：个体及交互比流程与工具更具价值　　二：可用的软件比冗长的文档更有价值　　三：与客户的协作比合同谈判更有价值　　四：对变化的响应比遵循计划更有价值直接聊宗旨有些抽象了，举些栗子就会发现这个宗旨极恰当。以下内容为转载：http://www.lanceyan.com/category/tech/agile我们技术团队人员是这样的配置：1名技术总监、2名资深开发工程师、1名高级开发...

2018-07-15 10:10:45 1676

转载聊一聊数据仓库中的元数据管理系统

转载：https://yq.aliyun.com/articles/174269?utm_content=m_28755相信很多朋友都是第一次听说元数据管理系统这个名词，当然，从事非数据仓库工作的人，很少会接触到这个系统，即使是正在从事这方面工作的朋友，可能仍然对它不是很了解，那么今天我来聊一聊元数据管理系统。本文大部分观点与图片汇总字网络，如有不同观点，欢迎留言交流～～ .一、元数据的定义按照传...

2018-07-15 09:52:58 1343

转载 Hive优化—-控制hive任务的reduce数

转载：http://www.superwu.cn/?p=21231. Hive自己如何确定reduce数：reduce个数的设定极大影响任务执行效率，不指定reduce个数的情况下，Hive会猜测确定一个reduce个数，基于以下两个设定：hive.exec.reducers.bytes.per...

2018-07-14 18:40:52 354

原创主机资源

1 查看主机内存free -m14793:已使用 33472：未使用

2018-07-14 18:39:50 585

转载 Hive分析窗口函数

分析窗口函数应用场景：（1）用于分区排序（2）动态Group By（3）Top N（4）累计计算（5）层次查询Hive分析窗口函数(一) SUM,AVG,MIN,MAXHive中提供了越来越多的分析函数，用于完成负责的统计分析。抽时间将所有的分析窗口函数理一遍，将陆续发布。今天先看几个基础的，SUM、AVG、MIN、MAX。用于实现分组内所有和连续累积的统计。数据准备： CREATE EXT...

2018-07-13 14:14:07 1384

转载 Lambda架构

转载：https://blog.csdn.net/brucesea/article/details/459378751.Lambda架构背景介绍Lambda架构是由Storm的作者Nathan Marz提出的一个实时大数据处理框架。Marz在Twitter工作期间开发了著名的实时大数据处理框架Storm，Lambda架构是其根据多年进行分布式大数据系统的经验总结提炼而成。Lambda架构的目标是设...

2018-07-11 21:15:04 24199 5

转载浅谈数据仓库建设中的数据建模方法

周三保(zhousb@cn.ibm.com) IBM 软件部信息技术专家.简介：本文的主要内容不是介绍现有的比较流行的主要行业的一些数据模型，而是将笔者在数据仓库建设项目中的一些经验，在这里分享给大家。希望帮助大家在数据仓库项目建设中总结出一套能够合乎目前业界规范的，满足大部分行业数据仓库建设标准的一种方法。所谓水无定势，兵无常法。不同的行业，有不同行业的特点，因此，从业务角度看，其相应的数据模...

2018-06-29 13:11:15 9298 2

转载美团旅行数据质量监管平台实践

转载：https://blog.csdn.net/meituantech/article/details/79668330背景数据，已经成为互联网企业非常依赖的新型重要资产。数据质量的好坏直接关系到信息的精准度，也影响到企业的生存和竞争力。Michael Hammer（《Reengineering the Corporation》一书的作者）曾说过，看起来不起眼的数据质量问题，实际上是拆散业务流程...

2018-06-27 21:07:46 2696

转载使用开源项目的正确姿势，都是血和泪的总结！

转载：https://blog.csdn.net/b0Q8cpra539haFS7/article/details/79890997阿里妹导读：开源精神是技术发展的源动力之一，受到工程师们的热烈欢迎。但是开源项目如此之多，哪一个最适合自己？如何更好利用开源项目，甚至做二次开发？今天，阿里资深无线开发专家李运华，总结多年与开源项目打交道的经验，讲述如何正确利用开源项目，希望对大家有所启发。软件开发领...

2018-05-23 16:57:58 266

原创 AB测试

AB测试是为Web或App界面或流程制作两个（A/B）或多个（A/B/n）版本，在同一时间维度，分别让组成成分相同（相似）的访客群组随机的访问这些版本，收集各群组的用户体验数据和业务数据，最后分析评估出最好版本正式采用。中文名A/B测试外文名A/B Testing别名分组测试，分桶测试英文名Split Testing, Bucketing Tests一、A/B测试的好处消除客户体验（UX）...

2018-05-09 10:46:26 1534

转载 SHELL查看文件内容的多种命令

转载：https://blog.csdn.net/piaoxuan1987/article/details/51647617cat 由第一行开始显示档案内容 tac 从最后一行开始显示，可以看出 tac 是 cat 的倒着写！ more 一页一页的显示档案内容 less 与 more 类似，但是比 more 更好的是，他可以往前翻页！ head 只看头几行 tail 只看尾巴几行 nl 显...

2018-05-07 07:57:32 7082

转载 B-Tree索引和hash索引

转载：https://www.cnblogs.com/yimixiong/p/7401527.html

2018-05-06 20:09:19 414

原创数据分析中有哪些常见的数据模型？

转摘：https://www.zhihu.com/question/36360374

2018-05-06 11:43:43 28353

原创推荐数据分析书籍

1 《数据驱动：从方法到实践》 --神策数据创始人&CEO 桑文锋所著2 《精益数据分析》内容简介 · · · · · ·本书展示了如何验证自己的设想、找到真正的客户、打造能赚钱的产品，以及提升企业知名度。30多个案例分析，全球100多位知名企业家的真知灼见，为你呈现来之不易、经过实践检验的创业心得和宝贵经验，值得每位创业家和企业家一读。深入理解精益创业、数据分析基础，和数据驱动的思...

2018-05-06 11:41:18 2999

原创 mysql导数小技巧

2018-04-25 11:16:47 1759

转载机器学习算法实践-支持向量机(SVM)算法原理

转载：https://zhuanlan.zhihu.com/p/28660098前言关于SVM的算法实践我打算分成多个部分进行总结。本文为第一部分主要介绍SVM的原理以及相关算法的简单推导，其中包括SVM原理，最初表达式，标准形式以及对偶形式(二次规划问题)，形式变化过程中涉及到求解有约束优化问题的拉格朗日乘子法以及KKT条件等。什么是支持向量机对于线性可分两类数据，支持向量机就是条直线(对于高维...

2018-04-21 18:23:42 594

原创人工智能-阿尔法狗背后的简单原理：贝叶斯公式

AlphaGo为代表的人工智能，彻底的战胜了人类的围棋大师，震撼了全世界，那么人工智能的背后，有着怎样的科技在支撑？本文要介绍的就是人工智能背后的简单原理——贝叶斯公式。人工智能、无人驾驶、语音图片识别与大数据有什么关系？海难空难如何搜救？垃圾短信、垃圾邮件如何识别？这些看起来彼此不相关的领域之间会有什么联系吗？答案是，它们都会用到同一个数学公式——贝叶斯公式。它虽然看起来很简单、很不起眼，但却有...

2018-04-21 16:53:16 10840

原创数据仓库所思

1 设计表的时候，需要考虑到存储能量和数据沉淀，减少计算。比如说，计算近3个月的指标，可以通过上一次的近3个月数、上一日的数和当前日的数想计算得出，而不需要对三个月的数做sum操作。当日的近3月累计数 = 上日的近3月累计数 + 当日的近1日的增量数 - 上日的近1日的增量数以此类推，近3日、近7日、近一月等等都可以通过这个方式计算，这样节省大量计算资源。2 关于如何构建数据仓库的构...

2018-04-16 17:58:20 353

转载 Hive中reduce个数设定

转载：https://blog.csdn.net/wisgood/article/details/42125367我们每次执行hive的hql时，shell里都会提示一段话：[python] view plaincopy... Number of reduce tasks not specified. Estimated from input data size: 500 In order t...

2018-04-16 15:48:01 757

转载 YARN/MRv2 Node Manager深入剖析—Container状态机分析

转载董的博客：http://dongxicheng.org/mapreduce-nextgen/yarnmrv2-node-manager-container-state-machine/阅读本文之前，请先阅读这篇博文：“YARN/MRv2 Node Manager深入剖析—NM整体架构”。本文的分析基于Hadoop trunk上的“Revision 1452188”版本，具体可参考：http:/...

2018-04-13 19:08:46 641

原创 python3常见错误

1 unindent does not match any outer indentation level错误日志：File "d:\ProgramFilesWer\python3.6\MachineLeaning\kNN.py", line 80, in ? return returnMat,classLabelVectorbuiltins.IndentationError: unindent...

2018-04-06 14:07:26 431

原创互联网数据仓库数据模型

互联网数据仓库的现实状况模型方法选择在我们的数据仓库中，除了各个主题域下的维度模型，还存在一些宽表模型。所谓宽表模型，是基于维度模型的扩展，采用退化维度的方式，将不同维度的度量放入数据表的不同的列中；它更易于理解，具有更高的查询效率；易于模型扩展；事实证明，在海量数据环境下，对业务查询的支撑，宽表在性能和易用性方面，都达到了比较理想的效果。...

2018-03-28 14:40:02 1986

转载数据仓库中历史拉链表的更新方法

转载：http://lxw1234.com/archives/2015/08/473.htm本文中假设：数据仓库中订单历史表的刷新频率为一天，当天更新前一天的增量数据；如果一个订单在一天内有多次状态变化，则只会记录最后一个状态的历史；订单状态包括三个：创建、支付、完成；创建时间和修改时间只取到天，如果源订单表中没有状态修改时间，那么抽取增量就比较麻烦，需要有个机制来确保能抽取到每天的增量数据；本文...

2018-03-28 14:00:16 1832

转载数据仓库之 ETL

转载：http://lxw1234.com/archives/2015/04/31.htmETL，Extraction-Transformation-Loading的缩写，中文名称为数据抽取、转换和加载。大多数据仓库的数据架构可以概括为：数据源–>ODS(操作型数据存储)–>DW–>DM(data mart)ETL贯穿其各个环节。一、数据抽取：可以理解为是把源数据的数据抽取...

2018-03-27 17:05:35 458

转载一个母婴电子商务网站贝贝网的大数据平台及机器学习实践

转载：http://lxw1234.com/archives/2016/02/609.htm贝贝网的主要产品是垂直的母婴类，母婴相对一般的电子商务网站有一些特点：第一个特点是商品周期短，在母婴网站上的商品，在线的时间不会超过5-7天，第二个是用户需求的变化快，在母婴行业，可能是用户的需求变化最快的领域，比如是用户处在怀孕当中，关心的是孕妈的一些问题，几个月以后，随着宝宝的落地，就会准备一些纸尿裤和...

2018-03-27 16:22:36 2545

原创 hive知识点

1 外部表和内部表的使用场景Hive中的表分为内部表(MANAGED_TABLE)和外部表(EXTERNAL_TABLE)。内部表和外部表最大的区别内部表DROP时候会删除HDFS上的数据;外部表DROP时候不会删除HDFS上的数据;内部表适用场景：Hive中间表、结果表、一般不需要从外部（如本地文件、HDFS上load数据）的情况。外部表适用场景：源表，需要定期将外部数据映射到表中。我们的使用场...

2018-03-27 16:20:38 272

转载 hive元数据

转载：http://lxw1234.com/archives/2015/07/378.htm1 存储Hive版本的元数据表（VERSION）该表比较简单，但很重要。VER_IDSCHEMA_VERSIONVERSION_COMMENTID主键Hive版本版本说明10.13.0Set by MetaStore如果该表出现问题，根本进入不了Hive-Cli。比如该表不存在，当启动Hive-Cli时候，...

2018-03-27 15:22:27 434

原创敏捷开发

敏捷开发以用户的需求进化为核心，采用迭代、循序渐进的方法进行软件开发。在敏捷开发中，软件项目在构建初期被切分成多个子项目，各个子项目的成果都经过测试，具备可视、可集成和可运行使用的特征。换言之，就是把一个大项目分为多个相互联系，但也可独立运行的小项目，并分别完成，在此过程中软件一直处于可使用状态。原则编辑敏捷建模（AM）定义了一系列的核心原则和辅助原则，它们为软件开发项目中的建模实践奠定了...

2018-03-18 10:46:00 433

原创快速原型模型

快速原型模型需要迅速建造一个可以运行的软件原型，以便理解和澄清问题，使开发人员与用户达成共识，最终在确定的客户需求基础上开发客户满意的软件产品。快速原型模型允许在需求分析阶段对软件的需求进行初步而非完全的分析和定义，快速设计开发出软件系统的原型，该原型向用户展示待开发软件的全部或部分功能和性能；用户对该原型进行测试评定，给出具体改进意见以丰富细化软件需求；开发人员据此对软件进行修改完善...

2018-03-18 10:44:41 3893

原创瀑布模型

瀑布模型（Waterfall Model）是一个项目开发架构，开发过程是通过设计一系列阶段顺序展开的，从系统需求分析开始直到产品发布和维护，每个阶段都会产生循环反馈，因此，如果有信息未被覆盖或者发现了问题，那么最好 “返回”上一个阶段并进行适当的修改，项目开发进程从一个阶段“流动”到下一个阶段，这也是瀑布模型名称的由来。包括软件工程开发、企业项目开发、产品生产以及市场销售等构造瀑布模型。...

2018-03-18 10:43:01 4670

空空如也

sqoop export to mysql