big-data
chun_soft
再忙也不要忘记学习!
展开
-
MapReduce的工作机制
我要这天,再遮不住我眼, 要这地,再埋不了我心, 要这众生,都明白我意, 要那诸佛,都烟消云散! ——《悟空传》1、概述1.1 定义Mapreduce是一个分布式运算程序的编程框架,是用户开发“基于hadoop的数据分析应用”的核心框架; Mapreduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发原创 2017-12-21 21:36:17 · 662 阅读 · 0 评论 -
Hadoop、Storm和Spark主流分布式系统特点和应用场景
最初我们来到这个世界,是因为不得不来;最终我们离开这个世界,是因为不得不走。——《余华作品集》1、概述 大数据现在是业内炙手可热的话题,随着技术的发展,如HDFS,大数据存储技术已经不在是难点,但是对大数据如何做好存储后的下一步处理将是未来竞争的焦点,目前比较受欢迎的Storm, Spark, Hadoop三个大数据处理工具都是JVM上的语言写成的。 由于Google没有开源Goo原创 2017-12-25 18:32:59 · 14764 阅读 · 1 评论 -
大数据推荐系统实时架构和离线架构
生活中无论有什么闪失,统统是自己的错,与人无尤,从错处学习改过,精益求精,直至不犯同一错误,从不把过失推诿到他人肩膀上去,免得失去学乖的机会。——《阿修罗》 1、概述 推荐系统是大数据中最常见和最容易理解的应用之一,比如说淘宝的猜你喜欢和京东等网站的用户提供个性化的内容。但是不仅仅只有电商会用推荐引擎为用户提供额外的商品,推荐系统也可以被用在其他行业,以及具有不同的应用中使用,如网易原创 2017-12-16 16:17:04 · 19154 阅读 · 0 评论 -
HDFS的工作机制
只要你是天鹅蛋,就是生在养鸡场里也没有什么关系。——《安徒生童话》1、概述1.1 设计思想分而治之:将大文件、大批量文件,分布式存放在大量服务器上,以便于采取分而治之的方式对海量数据进行运算分析;1.2 在大数据系统中作用为各类分布式运算框架(如:mapreduce,spark,tez,……)提供数据存储服务重点概念:文件切块,副本存放,元数据1.3 HDFS的概念和特性1.3.1 概念(1)首先原创 2017-12-19 01:51:42 · 779 阅读 · 0 评论 -
Hive安装与配置及其问题
当人们无法解释某些事情的时候,就用命运一带而过,而不去管那当中有多少苦痛。——《梦回大清》1、概述1.1 什么是HiveHive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。1.2 为什么使用Hive直接使用hadoop所面临的问题 人员学习成本太高 项目周期要求太短 MapReduce实现复杂查询逻辑开发难度太大 为原创 2018-01-01 09:20:54 · 618 阅读 · 0 评论 -
Hive经典面试题——级联求和(访客访问统计报表)
在大数据面试中,Hive知识的考察大部分会问级联求和,业务场景虽然有很多种,比如说,年收入,月收入统计;访客访问次数年统计,月统计。等等。但是基本根源知识是级联求和,本文就以访客访问统计为例。1、基本需求根据访客的每日访问信息,进行累计访问:输入数据:有如下访客访问次数统计表 t_access_times为了减轻计算复杂度,去掉了天的信息只留下了年月。 输出数据:原创 2018-01-13 23:45:49 · 3403 阅读 · 0 评论