大数据
文章平均质量分 68
显天
江湖人士
展开
-
Hadoop生态系统介绍(大数据基础系列一)
Hadoop生态简图数据存储大数据,首先你要能存的下大数据。传统的文件系统是单机的,不能横跨不同的机器。HDFS(Hadoop Distributed FileSystem)的设计本质上是为了大量的数据能横跨成百上千台机器,但是你看到的是一个文件系统而不是很多文件系统。比如你说我要获取/hdfs/tmp/file1的数据,你引用的是一个文件路径,但是实际的数据存放在很多不同的机原创 2016-05-15 15:08:27 · 851 阅读 · 0 评论 -
[数据采集]APP启动时长统计
先列出了友盟平台的统计方式Android平台:sdk版本v5.2.0及之后:app的单次使用时长=本次启动的结束时间减去本次启动的开始时间,即end_time减去start_time。如果在本次启动过程中,应用退到后台运行(例如启动应用的过程中接了个电话,接电话的时候应用会退到后台运行),后台运行时间不超过30s,则此时间会被计算到应用的单次使用时长中;后台运行时间超过原创 2017-10-23 13:46:41 · 4474 阅读 · 0 评论 -
电商基础概念-商品
spu 属性(不会影响到库存和价格的属性, 又叫关键属性) >>毛重: 420.00 g产地: 中国大陆sku 属性(会影响到库存和价格的属性, 又叫销售属性) >>容量: 16G, 64G, 128G颜色: 银, 白, 玫瑰金sku 在生成时, 会根据 属性生成 相应的 笛卡尔积.想像一下扑克牌的黑红梅方和 A-K, 扑克牌是这样的 sku 属原创 2017-07-26 10:40:01 · 859 阅读 · 0 评论 -
大数据系统数据采集产品的架构分
任何完整的大数据平台,一般包括以下的几个过程:数据采集数据存储数据处理数据展现(可视化,报表和监控)其中,数据采集是所有数据系统必不可少的,随着大数据越来越被重视,数据采集的挑战也变的尤为突出。这其中包括:数据源多种多样数据量大,变化快如何保证数据采集的可靠性的性能如何避免重复数据如何保证数据的质量我们今天就来看看当前可用的一些数据采集的产品,重点关注一些它转载 2017-06-07 14:31:33 · 5771 阅读 · 0 评论 -
大数据技术-数据仓库
nice的博客:http://webdataanalysis.net数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持(Decision Support)。其实数据仓库本身并不“生产”任何数据,同时自身也不需要“消费”任何的数据,数据来源于外部,并且开放给外部应用,这也是为什么叫“仓库”,而不叫“工厂”的原因。因此数据仓库的基本架构主要包含的是数据流入流出的过程,可以分为三层转载 2017-04-06 16:20:49 · 4194 阅读 · 0 评论 -
大数据技术-数据采集-Flume.logstash等
随着大数据越来越被重视,数据采集的挑战变的尤为突出。今天为大家介绍几款数据采集平台:Apache FlumeFluentdLogstashChukwaScribeSplunk Forwarder大数据平台与数据采集任何完整的大数据平台,一般包括以下的几个过程:数据采集-->数据存储-->数据处理-->数据展现(可视化,报表和监控)其中,数据采集是转载 2017-04-06 11:26:33 · 4897 阅读 · 1 评论 -
大数据技术-消息队列-Kafka
背景假设你意气风发,要开发新一代的互联网应用,以期在互联网事业中一展宏图。借助云计算,很容易开发出如下原型系统:Web应用:部署在云服务器上,为个人电脑或者移动用户提供的访问体验。SQL数据库:为Web应用提供数据持久化以及数据查询。这套架构简洁而高效,很快便能够部署到百度云等云计算平台,以便快速推向市场。互联网不就是讲究小步快跑嘛!好景不长。随着用户的迅速增长,所有的访问转载 2017-04-06 11:22:40 · 3826 阅读 · 0 评论 -
Hive对应MapReduce操作
转载自:http://tech.meituan.com/hive-sql-to-mapreduce.htmlMapReduce实现基本SQL操作的原理详细讲解SQL编译为MapReduce之前,我们先来看看MapReduce框架实现SQL基本操作的原理Join的实现原理select u.name, o.orderid from order o join转载 2016-11-15 11:58:17 · 10480 阅读 · 0 评论 -
【基础理论】数据仓库
数据仓库的基本架构 数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持(Decision Support)。其实数据仓库本身并不“生产”任何数据,同时自身也不需要“消费”任何的数据,数据来源于外部,并且开放给外部应用,这也是为什么叫“仓库”,而不叫“工厂”的原因。因此数据仓库的基本架构主要包含的是数据流入流出的过程,可以分为三层——源数据、数据仓库、数据应用:转载 2016-06-06 17:21:27 · 953 阅读 · 0 评论 -
【性能优化】Hive优化
1.概述 继续《那些年使用Hive踩过的坑》一文中的剩余部分,本篇博客赘述了在工作中总结Hive的常用优化手段和在工作中使用Hive出现的问题。下面开始本篇文章的优化介绍。2.介绍 首先,我们来看看Hadoop的计算框架特性,在此特性下会衍生哪些问题?数据量大不是问题,数据倾斜是个问题。jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联转载 2016-06-06 16:56:50 · 7676 阅读 · 2 评论 -
【可视化】表格的设计
由于工作原因,经常接触到表格。我们发现,表格不但广泛的运用在各类数据收集和分析,同时通过表格这样一种二维矩阵来整理和陈列信息时(即便最后的展示方式并非一个典型的表格样式),能够很好的表达信息之间的逻辑关系,易于帮助理解横纵信息之间的关系。在实际的网页设计应用中,表格横纵相互独立又相互关联的模式尤其适用于:1.组织和展示大量的信息表格简单的结构不但能包含大量的信息,且同时保证转载 2016-06-06 14:50:45 · 3588 阅读 · 0 评论 -
【可视化】数据图表可视化
可视化原则图表可视化转载 2016-06-03 17:34:29 · 1272 阅读 · 0 评论 -
[hive]hive大数据倾斜总结
在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平均值,而由于数据倾斜的原因造成map处理数据量的差异过大,使得这些平均值能代表的价值降低。Hive的执行是分阶段的,map处理数据量的差异取决于上一个stage的reduce输出,所以如何将数据均匀的转载 2016-06-24 19:10:32 · 505 阅读 · 0 评论 -
什么是Hadoop(大数据基础系列二)
MapReduce 是适合海量数据处理的编程模型。Hadoop是能够运行在使用各种语言编写的MapReduce程序: Java, Ruby, Python, and C++. MapReduce程序是平行性的,因此可使用多台机器集群执行大规模的数据分析非常有用的。MapReduce程序的工作分两个阶段进行:Map阶段Reduce 阶段输入到每一个阶段均是键 - 值对。此外,每一转载 2016-05-17 14:38:41 · 392 阅读 · 0 评论 -
【数据采集】-目前比较流行的几种数据采集方式
总的来说目前互联网常用的数据采集分为APP采集和web端采集对于APP采集最常用的方式就是通过集成SDK,进行埋点采集对于这种方式,目前分为有无埋点采集,可视化埋点采集,手工埋点采集大类分别针对于:日志的全量收集,日志的可编辑收集,和自定义埋点收集对于web目前比常见的可以参考:Tony_老七 总结的文章在这里需要细分一下目前用户访问的平台,根据目前以及短期内技术发展,可以分为三种APP|PC|W...原创 2018-02-12 11:31:08 · 39770 阅读 · 0 评论