数据分析
打怪的蚂蚁
这个作者很懒,什么都没留下…
展开
-
数据仓库与数据集市建模
数据仓库建模包含了几种数据建模技术,除了之前在数据库系列文章中介绍过的ER建模和关系建模,还包括专门针对数据仓库的维度建模技术。本文将详细介绍数据仓库维度建模技术,并重点讨论三种基于ER建模/关系建模/维度建模的数据仓库总体建模体系:规范化数据仓库,维度建模数据仓库,以及独立数据集市。维度建模的基本概念维度建模(dimensional modeling)是专转载 2016-10-12 10:50:12 · 2161 阅读 · 0 评论 -
十三个鲜为人知的大数据学习网站
数据分析重要性越来越多的管理者意识到数据分析对经济发展、企业运营的重要意义现在,得大数据者得天下我总结的数据分析五步走:1、锁定分析目标,梳理思路,叫纸上谈兵;2、把杂乱的数据整理出图表报表,用数据探业务,叫自问数答;3、锁定核心抓重点,设定最终算法,叫挟天子以令诸侯;4、梳理重点发现,准备剧本开拍,接受PK,叫才辨无双;5、效果梳理转载 2017-06-12 19:39:41 · 485 阅读 · 0 评论 -
十步完全理解 SQL
很多程序员视 SQL 为洪水猛兽。SQL 是一种为数不多的声明性语言,它的运行方式完全不同于我们所熟知的命令行语言、面向对象的程序语言、甚至是函数语言(尽管有些人认为 SQL 语言也是一种函数式语言)。我们每天都在写 SQL 并且应用在开源软件 jOOQ 中。于是我想把 SQL 之美介绍给那些仍然对它头疼不已的朋友,所以本文是为了以下读者而特地编写的:1、 在工作中会用到 SQL转载 2017-04-25 17:24:28 · 353 阅读 · 0 评论 -
Presto实现原理和美团的使用实践
Facebook的数据仓库存储在少量大型Hadoop/HDFS集群。Hive是Facebook在几年前专为Hadoop打造的一款数据仓库工具。在以前,Facebook的科学家和分析师一直依靠Hive来做数据分析。但Hive使用MapReduce作为底层计算框架,是专为批处理设计的。但随着数据越来越多,使用Hive进行一个简单的数据查询可能要花费几分到几小时,显然不能满足交互式查询的需求。Faceb转载 2017-04-12 10:07:34 · 309 阅读 · 0 评论 -
百度内部培训资料PPT:数据分析的道与术
这是一个来自百度内部培训关于数据分析的、阅读类的PPT,文字说明非常充分,适合刚入门数据分析的朋友进行学习。转载 2017-04-01 16:10:35 · 958 阅读 · 0 评论 -
2016年大数据80篇爆款文章:这一年你追过的那些技术
2016年即将过去,各位大数据的程序员们,是否觉得这一年都不断的追着新技术跑?这个大数据公众号是今年一月底创立的,一年过去,我们积累了不少好内容。回过头来我们看看这一年的脚印,这里我按照文章内容做了一次汇总,分为:流处理、机器学习、用户画像、数据驱动、Hadoop、Apache Spark、Apache Kylin、Druid、推荐系统和大数据平台架构。流处理2016年流式数据处理转载 2017-04-01 15:05:03 · 1074 阅读 · 0 评论 -
如何建立数据分析的思维框架
曾经有人问过我,什么是数据分析思维?如果分析思维是一种结构化的体现,那么数据分析思维在它的基础上再加一个准则:不是我觉得,而是数据证明。这是一道分水岭,“我觉得”是一种直觉化经验化的思维,工作不可能处处依赖自己的直觉,公司发展更不可能依赖于此。数据证明则是数据分析的最直接体现,它依托于数据导向型的思维,而不是技巧,前者是指导,后者只是应用。转载 2017-04-07 11:25:15 · 667 阅读 · 0 评论 -
数据驱动决策的13种思维方式
第一、信度与效度思维这部分也许是全文最难理解的部分,但我觉得也最为重要。没有这个思维,决策者很有可能在数据中迷失。信度与效度信度与效度的概念最早来源于调查分析,但现在我觉得可以引申到数据分析工作的各方面。所谓信度,是指一个数据或指标自身的可靠程度,包括准确性和稳定性取数逻辑是否正确?有没有计算错误?这属于准确性;每次计算的算法是否稳定?口径是否一致?以相同的转载 2017-03-10 16:57:38 · 3516 阅读 · 0 评论 -
Hive自定义函数(UDF、UDAF)
当Hive提供的内置函数无法满足你的业务处理需要时,此时就可以考虑使用用户自定义函数。UDF用户自定义函数(user defined function)–针对单条记录。 创建函数流程 1、自定义一个Java类 2、继承UDF类 3、重写evaluate方法 4、打成jar包 6、在hive执行add jar方法 7、在hive执行创建模板函数 8、h转载 2017-01-19 14:51:44 · 679 阅读 · 0 评论 -
分布式大数据多维分析(OLAP)引擎Apache Kylin安装配置及使用示例
Apache Kylin是一个开源的分布式分析引擎,提供Hadoop之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由eBay 开发并贡献至开源社区。它能在亚秒内查询巨大的Hive表。Kylin OLAP引擎基础框架,包括元数据(Metadata)引擎,查询引擎,Job引擎及存储引擎等,同时包括REST服务器以响应客户端请求;支持额外功能和特性的插件;转载 2016-11-22 18:54:23 · 3451 阅读 · 0 评论 -
Qunar用户画像构建策略及应用实践
用户画像的构建原则我们做用户画像的目的有两个:必须从业务场景出发,解决实际的业务问题,之所以进行用户画像要么是获取新用户,或者是提升用户体验,或者是挽回流失用户等有明确的业务目标 。根据用户画像的信息做产品设计,必须要清楚知道用户长什么样子,有什么行为特征和属性,这样才能为用户设计产品或开展营销活动。一般常见的错误想法是画像维度的数据转载 2016-11-15 14:06:26 · 1189 阅读 · 1 评论 -
基础的数据分析
什么是数据分析? 数据分析是指用适当的统计分析对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。在实用中,数据分析可帮助人们作出判断,以便采取适当行动。 数据分析的目的是什么? 数据分析的目的是把隐没在一大批看来杂乱无章的数据中的信息集中、萃取和提炼出来,以找出所研究对象的内在规律。 在实用中,数据分析可帮助人们作出判断,以便采取适当行转载 2016-11-30 14:36:35 · 592 阅读 · 0 评论 -
如何快速全面建立自己的大数据知识体系?
作者经过研发多个大数据产品,将自己形成关于大数据知识体系的干货分享出来,希望给大家能够快速建立起大数据产品的体系思路,让大家系统性学习和了解有关大数据的设计架构。很多人都看过不同类型的书,也接触过很多有关大数据方面的文章,但都是很零散不成系统,对自己也没有起到多大的作用,所以作者第一时间,带大家从整体体系思路上,了解大数据产品设计架构和技术策略。大数据产转载 2017-08-03 11:58:42 · 306 阅读 · 0 评论