自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

_a_0_

Who am

  • 博客(26)
  • 资源 (17)
  • 收藏
  • 关注

转载 B+Tree原理及mysql的索引分析

转载:http://www.cnblogs.com/xiaoxi/p/6894610.html点击打开链接一、索引的本质     MySQL官方对索引的定义为:索引(Index)是帮助MySQL高效获取数据的数据结构。提取句子主干,就可以得到索引的本质:索引是数据结构。     我们知道,数据库查询是数据库的最主要功能之一。我们都希望查询数据的速度能尽可能的快,因此数据库系统的设计者会从查询算法的...

2018-04-24 22:27:00 944

转载 几种设计模式

一、概况总体来说设计模式分为三大类:(1)创建型模式,共五种:工厂方法模式、抽象工厂模式、单例模式、建造者模式、原型模式。(2)结构型模式,共七种:适配器模式、装饰器模式、代理模式、外观模式、桥接模式、组合模式、享元模式。(3)行为型模式,共十一种:策略模式、模板方法模式、观察者模式、迭代子模式、责任链模式、命令模式、备忘录模式、状态模式、访问者模式、中介者模式、解释器模式。二、设计模式的六大原则...

2018-04-24 22:24:43 197

原创 使用scala实现简单的rpc案例

题目:使用scala的actor构建一个简单的RPC调用实例模仿ResourceManager和NodeManager之间的交互,1、NodeManager向ResourceManager进行注册(传递的参数是:主机名、内存、CPU、端口)2、ResourceManager将接收到的消息进行消息匹配,如果是注册消息,将消息保存3、发送注册请求的response给NodeManager(传递host...

2018-04-19 23:06:44 592

原创 Sqoop操作文档

导入:--connect 指定数据库链接url--username 指定数据库的用户名--password 指定数据库的密码--table 指定要导出数据的mysql数据库表-m 指定MapTask的个数--target-dir 指定导出数据在HDFS上的存储目录--fields-terminated-by 指定每条记录中字段之间的分隔符--where 指定查询...

2018-04-19 20:35:50 259

原创 MapReduce练习-----倒排索引

数据1:huangbo love xuzhenghuangxiaoming love baby huangxiaoming love mimiliangchaowei love liujialing数据2:hello huangbohello xuzhenghello huangxiaoming题目一:编写 MapReduce 求出以下格式的结果数据:统计每个关键词在每个文档中当中...

2018-04-15 15:45:45 1204

原创 MapReduce基础回顾题目

week1,A0001,10,20week1,A0002,8.5,15week1,A0003,9.2,30week1,B0001,10.5,50week2,A0001,11,30week2,A0002,8,20week2,A0003,9.2,20week2,B0001,10,55week3,A0001,9.5,10week3,A0002,8.8,30week3,A0003,9....

2018-04-15 10:43:30 1490 2

原创 MapReduce练习-----数字排序并加序号

数字排序并加序号:源数据: 最后结果:2 1 232 2 6654 3 1532 4 2215 5 26756 ...

2018-04-14 19:47:29 1974

原创 MapReduce练习-----版本变动

题目要求:在所有有版本变动的记录后面追加一条字段信息:该信息就是上一个版本的版本号,只限同用户例如:20170308,黄渤,光环斗地主,10,360手机助手,0.2版本,北京20170308,黄渤,光环斗地主,13,360手机助手,0.3版本,北京,0.2版本20170308,徐峥,光环斗地主,14,360手机助手,0.3版本,北京20170308,徐峥,光环斗地主,15,360手机助手,0.4版...

2018-04-14 14:02:55 369

原创 MapReduce练习-----学生成绩相关题目

统计需求:1、统计每门课程的参考人数和课程平均分2、统计每门课程参考学生的平均分,并且按课程存入不同的结果文件,要求一门课程一个结果文件,并且按平均分从高到低排序,分数保留一位小数。3、求出每门课程参考学生成绩最高的学生的信息:课程,姓名和平均分。数据及字段说明:computer,huangxiaoming,85,86,41,75,93,42,85computer,xuzheng,54,52,8...

2018-04-14 12:43:14 10889 3

转载 Hive 优化

1、介绍首先,我们来看看Hadoop的计算框架特性,在此特性下会衍生哪些问题?数据量大不是问题,数据倾斜是个问题。jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次汇总,产生十几个jobs,耗时很长。原因是map reduce作业初始化的时间是比较长的。sum,count,max,min等UDAF,不怕数据倾斜问题,hadoop在map端的汇总合并优化,使数据倾斜不成...

2018-04-11 13:06:17 178

转载 Hive UDTF 函数的编写

在这篇文章中,我们将深入了解用户定义表函数(UDTF),该函数的实现是通过继承org.apache.hadoop.hive.ql.udf.generic.GenericUDTF这个抽象通用类,UDTF相对UDF更为复杂,但是通过它,我们读入一个数据域,输出多行多列,而UDF只能输出单行单列。如果你想浏览代码:fork it on Github:https://github.com/rathboma...

2018-04-10 23:23:39 866

转载 Hive UDAF 函数的编写

UDAF是Hive中用户自定义的聚集函数,Hive内置UDAF函数包括有sum()与count(),UDAF实现有简单与通用两种方式,简单UDAF因为使用Java反射导致性能损失,而且有些特性不能使用,已经被弃用了;在这篇博文中我们将关注Hive中自定义聚类函数-GenericUDAF,UDAF开发主要涉及到以下两个抽象类:org.apache.hadoop.hive.ql.udf.generic...

2018-04-10 23:14:23 18080 4

转载 Hive UDF 函数的编写

编写Apache Hive用户自定义函数(UDF)有两个不同的接口,一个非常简单,另一个...就相对复杂点。如果你的函数读和返回都是基础数据类型(Hadoop&Hive基本writable类型,如Text,IntWritable,LongWriable,DoubleWritable等等),那么简单的API(org.apache.hadoop.hive.ql.exec.UDF)可以胜任。但是...

2018-04-10 22:54:37 684

原创 Hive影评案例二

现有如此三份数据:1、users.dat    数据格式为:  2::M::56::16::70072对应字段为:UserID BigInt, Gender String, Age Int, Occupation String, Zipcode String对应字段中文解释:用户id,性别,年龄,职业,邮政编码2、movies.dat 数据格式为: 2::Jumanji (1995)::Adve...

2018-04-10 22:06:28 863

原创 Hive影评案例一

现有如此三份数据:1、users.dat    数据格式为:  2::M::56::16::70072对应字段为:UserID BigInt, Gender String, Age Int, Occupation String, Zipcode String对应字段中文解释:用户id,性别,年龄,职业,邮政编码2、movies.dat 数据格式为: 2::Jumanji (1995)::Adve...

2018-04-10 20:56:25 1593

原创 Hive面试题四

现有一份以下格式的数据:表示有id为1,2,3的学生选修了课程a,b,c,d,e,f中其中几门:id course 1,a1,b1,c1,e2,a2,c2,d2,f3,a3,b3,c3,e编写Hive的HQL语句来实现以下结果:表中的1表示选修,表中的0表示未选修id a b c d e f1 1 1 1 0 1 02 1 0 1 1 0 13 1 ...

2018-04-10 16:46:40 650

原创 Hive面试题三

20140101142014010216201401031720140104102014010506201201060920120107322012010812201201091920120110232001010116200101021220010103102001010411200101052920130106192013010722201301081220...

2018-04-10 16:37:08 440

原创 Hive面试题二

// 建表语句:CREATE TABLE `course` ( `id` int(11) NOT NULL AUTO_INCREMENT PRIMARY KEY, `sid` int(11) DEFAULT NULL, `course` varchar(255) DEFAULT NULL, `score` int(11) DEFAULT NULL ) ENGINE=InnoDB...

2018-04-10 16:27:52 378 1

原创 Hive面试题一

现有这么一批数据,现要求出:每个用户截止到每月为止的最大单月访问次数和累计到该月的总访问次数三个字段的意思:用户名,月份,访问次数A,2015-01,5A,2015-01,15B,2015-01,5A,2015-01,8B,2015-01,25A,2015-01,5A,2015-02,4A,2015-02,6B,2015-02,10B,2015-02,5A,2015-03,1...

2018-04-10 16:21:03 1594

原创 Hive的原理架构一

一、首先是概念:大体可以划分为七个方面,这样有利于理解记忆:1、由FaceBook实现并开源;2、基于Hadoop的开源数据仓库工具,用于存储结构化的数据;3、可以将结构化的数据映射为一张数据库表;4、底层数据存储在HDFS文件系统上,描述数据的数据(元数据)存储在derby或者是远程数据库中,如:mysql;5、提供一套类数据库的处理机制,HQL查询功能;6、本质是将SQL语句转换为MapRed...

2018-04-10 13:57:04 5292

原创 awk详解

简介awk是一个强大的文本分析工具,相对于grep的查找,sed的编辑,awk在其对数据分析并生成报告时,显得尤为强大。简单来说awk就是把文件逐行的读入,以空格为默认分隔符将每行切片,切开的部分再进行各种分析处理。awk有3个不同版本: awk、nawk和gawk,未作特别说明,一般指gawk,gawk 是 AWK 的 GNU 版本。awk其名称得自于它的创始人 Alfred Aho 、Pete...

2018-04-07 21:40:49 188

原创 Sed详解

1. Sed简介sed 是一种在线编辑器,它一次处理一行内容。处理时,把当前处理的行存储在临时缓冲区中,称为“模式空间”(pattern space),接着用sed命令处理缓冲区中的内容,处理完成后,把缓冲区的内容送往屏幕。接着处理下一行,这样不断重复,直到文件末尾。文件内容并没有 改变,除非你使用重定向存储输出。Sed主要用来自动编辑一个或多个文件;简化对文件的反复操作;编写转换程序等。以下介绍...

2018-04-07 21:29:11 313

原创 计算HBase指定表中所有用户的平均年龄写入到HDFS中

HBase表中的数据是通过上一篇博客导入的:从HDFS读取文件中的数据写入到HBase的表中import java.io.IOException;import java.util.List;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.conf.Configured;import org.apa...

2018-04-01 18:07:55 398

原创 读取HDFS文件中的数据写入到HBase的表中

核心:Our_Reducer继承TableReducer.准备工作:将数据文件上传到HDFS :hadoop fs -mkdir -p /student/inputhadoop fs -put /student.txt /student/input在HBase中创建相关的表(可以通过命令也可以通过代码):create 'users', 'info'MR代码:import java.io.IOE...

2018-04-01 18:00:46 11016 4

原创 Python爬虫学习---------根据分类爬取豆瓣电影的电影信息

代码的入口:if __name__ == '__main__': main()#! /usr/bin/python3# -*- coding:utf-8 -*-# author:Sirius.Zhaoimport jsonfrom urllib.parse import quotefrom urllib.request import urlopenfrom urllib.req...

2018-04-01 17:46:57 3259

原创 HBase分页查询---指定PageNumber和PageSize

问题:通过指定的页码和每页记录的条数来进行分页查询。分析问题:要实现分页查询,因为查询的是一个范围,所以使用Scan的查询方式。然后还使用PageFilter,这样能够获取指定数量的记录。那么问题来了,要使用scan的方式进行区间查询那么startRow是什么???所以现在将问题转换成了求每一页的startRow !!!当我们使用scan查询又没有指定StartRow的时候,结...

2018-04-01 17:27:15 11244 1

机器学习实战:基于Scikit-Learn和TensorFlow azw3版本和pdf版本

机器学习实战:基于Scikit-Learn和TensorFlow azw3版本和pdf版本,kindle阅读格式azw3和PDF版本,pdf版本带有标签,可以编辑,不是扫描版本!

2019-01-07

ElasticSearch入门到精通到运维全套资料

全套 elasticsearch从入门到精通到运维 基于ES5.6版本 有视频 文档 快速上手

2018-09-12

2018全新AI全套资料

2018年 全新的 人工智能 全套 学习资料 包含视频 文档 代码

2018-09-11

Google三篇论文之GFS(中文版)

Google的三篇论文之一 google-file-system这是Google文件系统GFS的原理,也是HDFS的实现原理。

2018-04-15

google三篇论文之一 Bigtable

HBase的起源 有助于对大数据研究 值得初学者去阅读。

2018-04-15

Struts2全部jar包

搭建struts2所需要的jar包 快速搭建struts2项目使用

2017-11-14

httpclient所用到的jar包

httpclient所使用的所有的jar包

2016-11-01

xwork core 2.3.4.jar

2016-05-08

jacc-1_0-fr.jar包

2016-05-07

jaas.jar开发工具包

2016-05-07

imap.jar邮件开发包

与邮件有关的imap.jar包

2016-05-07

dsn.jar邮件发送使用的jar包之一

2016-05-07

常用的两个jar包

常用的两个jar包

2016-05-06

Android仿京东项目

Android仿照京东商城的项目

2016-05-06

android购物商城项目(客户端+服务端)

完整的Android购物项目

2016-05-05

Java开发后台模板

很不错的Java后台模板,自己使用它做了几个系统,分为蓝色和橙色两种

2016-05-05

json有关的jar包

开发中使用json所需要的jar包

2016-05-05

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除