当前搜索:

B+Tree原理及mysql的索引分析

转载:http://www.cnblogs.com/xiaoxi/p/6894610.html点击打开链接一、索引的本质     MySQL官方对索引的定义为:索引(Index)是帮助MySQL高效获取数据的数据结构。提取句子主干,就可以得到索引的本质:索引是数据结构。     我们知道,数据库查...
阅读(6) 评论(0)

几种设计模式

一、概况总体来说设计模式分为三大类:(1)创建型模式,共五种:工厂方法模式、抽象工厂模式、单例模式、建造者模式、原型模式。(2)结构型模式,共七种:适配器模式、装饰器模式、代理模式、外观模式、桥接模式、组合模式、享元模式。(3)行为型模式,共十一种:策略模式、模板方法模式、观察者模式、迭代子模式、...
阅读(9) 评论(0)

使用scala实现简单的rpc案例

题目:使用scala的actor构建一个简单的RPC调用实例模仿ResourceManager和NodeManager之间的交互,1、NodeManager向ResourceManager进行注册(传递的参数是:主机名、内存、CPU、端口)2、ResourceManager将接收到的消息进行消息匹...
阅读(18) 评论(0)

Sqoop操作文档

导入:--connect 指定数据库链接url--username 指定数据库的用户名--password 指定数据库的密码--table 指定要导出数据的mysql数据库表-m 指定MapTask的个数--target-dir 指定导出数据在HDFS上的存储目录--...
阅读(17) 评论(0)

MapReduce练习-----倒排索引

数据1: huangbo love xuzheng huangxiaoming love baby huangxiaoming love mimi liangchaowei love liujialing 数据2: hello huangbo hello xuzheng hello huangx...
阅读(36) 评论(0)

MapReduce基础回顾题目

week1,A0001,10,20 week1,A0002,8.5,15 week1,A0003,9.2,30 week1,B0001,10.5,50 week2,A0001,11,30 week2,A0002,8,20 week2,A0003,9.2,20 week2,B0001,10,55 w...
阅读(16) 评论(0)

MapReduce练习-----数字排序并加序号

数字排序并加序号:源数据: 最后结果: 2 1 2 32 2 6 654 3 15 32 ...
阅读(33) 评论(0)

MapReduce练习-----版本变动

题目要求:在所有有版本变动的记录后面追加一条字段信息:该信息就是上一个版本的版本号,只限同用户例如:20170308,黄渤,光环斗地主,10,360手机助手,0.2版本,北京20170308,黄渤,光环斗地主,13,360手机助手,0.3版本,北京,0.2版本20170308,徐峥,光环斗地主,1...
阅读(36) 评论(0)

MapReduce练习-----学生成绩相关题目

统计需求:1、统计每门课程的参考人数和课程平均分2、统计每门课程参考学生的平均分,并且按课程存入不同的结果文件,要求一门课程一个结果文件,并且按平均分从高到低排序,分数保留一位小数。3、求出每门课程参考学生成绩最高的学生的信息:课程,姓名和平均分。数据及字段说明:computer,huangxia...
阅读(92) 评论(0)

Hive 优化

1、介绍首先,我们来看看Hadoop的计算框架特性,在此特性下会衍生哪些问题?数据量大不是问题,数据倾斜是个问题。jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次汇总,产生十几个jobs,耗时很长。原因是map reduce作业初始化的时间是比较长的。sum,cou...
阅读(19) 评论(0)

Hive UDTF 函数的编写

在这篇文章中,我们将深入了解用户定义表函数(UDTF),该函数的实现是通过继承org.apache.hadoop.hive.ql.udf.generic.GenericUDTF这个抽象通用类,UDTF相对UDF更为复杂,但是通过它,我们读入一个数据域,输出多行多列,而UDF只能输出单行单列。如果你...
阅读(16) 评论(0)

Hive UDAF 函数的编写

UDAF是Hive中用户自定义的聚集函数,Hive内置UDAF函数包括有sum()与count(),UDAF实现有简单与通用两种方式,简单UDAF因为使用Java反射导致性能损失,而且有些特性不能使用,已经被弃用了;在这篇博文中我们将关注Hive中自定义聚类函数-GenericUDAF,UDAF开...
阅读(20) 评论(0)

Hive UDF 函数的编写

编写Apache Hive用户自定义函数(UDF)有两个不同的接口,一个非常简单,另一个...就相对复杂点。如果你的函数读和返回都是基础数据类型(Hadoop&Hive基本writable类型,如Text,IntWritable,LongWriable,DoubleWrit...
阅读(12) 评论(0)

Hive影评案例二

现有如此三份数据:1、users.dat    数据格式为:  2::M::56::16::70072对应字段为:UserID BigInt, Gender String, Age Int, Occupation String, Zipcode String对应字段中文解释:用户id,性别,年龄,...
阅读(10) 评论(0)

Hive影评案例一

现有如此三份数据:1、users.dat    数据格式为:  2::M::56::16::70072对应字段为:UserID BigInt, Gender String, Age Int, Occupation String, Zipcode String对应字段中文解释:用户id,性别,年龄,...
阅读(30) 评论(0)

Hive面试题四

现有一份以下格式的数据: 表示有id为1,2,3的学生选修了课程a,b,c,d,e,f中其中几门: id course 1,a 1,b 1,c 1,e 2,a 2,c 2,d 2,f 3,a 3,b 3,c 3,e 编写Hive的HQL语句来实现以下结果: 表中的1表示选修,表中的0表示未...
阅读(10) 评论(0)

Hive面试题三

2014010114 2014010216 2014010317 2014010410 2014010506 2012010609 2012010732 2012010812 2012010919 2012011023 2001010116 2001010212 2001010310 200101...
阅读(11) 评论(0)

Hive面试题二

// 建表语句: CREATE TABLE `course` ( `id` int(11) NOT NULL AUTO_INCREMENT PRIMARY KEY, `sid` int(11) DEFAULT NULL, `course` varchar(255) DEFAULT NU...
阅读(10) 评论(0)

Hive面试题一

现有这么一批数据,现要求出:每个用户截止到每月为止的最大单月访问次数和累计到该月的总访问次数三个字段的意思:用户名,月份,访问次数 A,2015-01,5 A,2015-01,15 B,2015-01,5 A,2015-01,8 B,2015-01,25 A,2015-01,5 A,2015-02...
阅读(16) 评论(0)

Hive的原理架构一

一、首先是概念:大体可以划分为七个方面,这样有利于理解记忆:1、由FaceBook实现并开源;2、基于Hadoop的开源数据仓库工具,用于存储结构化的数据;3、可以将结构化的数据映射为一张数据库表;4、底层数据存储在HDFS文件系统上,描述数据的数据(元数据)存储在derby或者是远程数据库中,如...
阅读(51) 评论(0)
    个人资料
    持之以恒
    等级:
    访问量: 2560
    积分: 456
    排名: 11万+
    文章存档
    最新评论