自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Oner.wv的专栏

个人博客地址:脑洞大开(www.naodongopen.com),专注于人工智能技术实现,欢迎大家一起交流。

  • 博客(18)
  • 资源 (2)
  • 收藏
  • 关注

原创 MapReduce实现二阶矩阵相乘

阿发

2016-03-28 20:39:30 3395

原创 MapReduce计数器详解

计数器:计数器是用来记录job的执行进度和状态的。它的作用可以理解为日志。我们通常可以在程序的某个位置插入计数器,用来记录数据或者进度的变化情况,它比日志更便利进行分析。1. 内置计数器Hadoop其实内置了很多计数器,那么这些计数器在哪看呢?我们先来看下最简单的wordcount程序。HDFS上的源文件:[hadoop@master logfile]$ had

2016-03-22 15:44:47 4769 1

原创 MapReduce on HBase

引言HBase跟Hadoop的无缝集成使得使用MapReduce对HBase的数据进行分布式计算非常方便,本文将以前面的blog示例,介绍HBase下MapReduce开发要点。很好理解本文前提是你对Hadoop MapReduce有一定的了解。HBase MapReduce核心类介绍首先一起来回顾下MapReduce的基本编程模型,可以看到最基本的是通过Mappe

2016-03-17 20:23:52 1173

原创 Hive优化总结

1.Hive表优化1.1 分区分区是以字段的形式在表结构中存在,通过describe table命令可以查看到字段存在, 但是该字段不存放实际的数据内容,仅仅是分区的表示(伪列)。1.1.1静态分区create table if not exists tablename(id int,name string,tel string)partitioned by(dt string)

2016-03-12 19:44:58 924

原创 Hive--自定义函数

6 函数

2016-03-12 14:20:57 989

原创 关于Hive的练习

现在来练习下Hive中的一些常用内置函数先来查看下表winfunc:hive (default)> desc winfunc;OKcol_name data_type commentid int money float

2016-03-11 21:01:20 984

转载 Hive--行转列(Lateral View explode())和列转行(collect_set() 去重)

1.行转列1.1 问题引入:如何将a       b       1,2,3c       d       4,5,6变为:a       b       1a       b       2a       b       3c       d       4c       d       5c       d       6 1.2 原始数

2016-03-11 11:29:04 31576 3

原创 Hive--HiveQL:查询

4 查询4.1 select...from语句    select是SQL的射影算子,from子句标识了从哪个表、视图或嵌套查询中选择记录。

2016-03-11 09:43:14 2317

原创 Hive--HiveQL:数据定义、数据操作

2 数据定义2.1 Hive中的数据库(database)    Hive中的数据库的概念本质上仅仅是表的一个目录或者命名空间。查看Hive中的所有数据库:show databases;hive (default)> show databases;创建数据库:create database [if not exists] database_name;hive (d

2016-03-11 09:29:00 1879

原创 Hive--基础操作、数据类型和文本文件格式

11.1 配置.hiverc文件    H在${HIVE_HOME}/bin目录下有个.hiverc文件,它是隐藏文件,我们可以用Linux的ls -a命令查看。我们在启动Hive的时候会去加载这个文件中的内容,所以我们可以在这个文件中配置一些常用的参数。#在命令行中显示当前数据库名set hive.cli.print.current.db=true; #查询出来的结果显示列的名称

2016-03-10 22:15:46 1773

原创 HBase—过滤器

使用过滤器可以提高操作表的效率,HBase中两种数据读取函数get()和scan()都支持过滤器,支持直接访问和通过指定起始行键来访问,但是缺少细粒度的筛选功能,如基于正则表达式对行键或值进行筛选的功能。可以使用预定义好的过滤器或者是实现自定义过滤器。过滤器在客户端创建,通过RPC传送到服务器端,在服务器端执行过滤操作,把数据返回给客户端。Comparison Filt

2016-03-06 16:14:46 2217

原创 HBase—扫描器

Scanner扫描器HBase在扫描数据时,使用Scanner表扫描器。HTable通过一个Scan实例,调用getScanner(scan)来获取扫描器。可以配置扫描器起止位,以及其他的过滤条件。通过迭代器返回查询结果,使用起来虽然不是很方便,但是并不复杂。但是这里有一点可能被忽视的地方,就是返回的scanner迭代器,每次调用next的获取下一条记录的时候,默认配置下会访问一次

2016-03-05 13:31:08 703

原创 Java API 与HBase交互实例

HBase提供了Java API,可以通过API来实现对HBase的一些操作。package hbase;import java.io.IOException;import java.util.ArrayList;import java.util.List;import org.apache.hadoop.conf.Configuration;import org.apa

2016-03-05 13:00:53 1082

转载 HBase Java API

几个相关类与HBase数据模型之间的对应关系java类HBase数据模型HBaseAdmin数据库(DataBase)HBaseConfigurationHTable表(Table)HTableDescriptor列族(Column Family)Put列修饰

2016-03-05 09:52:14 581

转载 HBase Shell常用命令

下面我们看看HBase Shell的一些基本操作命令,我列出了几个常用的HBase Shell命令,如下:名称命令表达式创建表create '表名称', '列名称1','列名称2','列名称N'添加记录      put '表名称', '行名称', '列名称:', '值'查看记录

2016-03-05 00:05:57 708

转载 图解Nosql(HBase)与传统数据库的区别

对于大多数做技术的人员,都知道我们传统数据库是什么样子的,那么如下图所示,我们操作的对象是行。也就是增删改查,都是以为对象。1.传统数据库增加删除介绍图1下面我们以mysql为例:插入数据mysql>INSERT INTO blog_user (`user_Name`,`user_Password`,`user_emial`)VALUES ('about

2016-03-04 16:11:39 1995

转载 Linux定时器—crontab命令

前一天学习了 at 命令是针对仅运行一次的任务,循环运行的例行性计划任务,linux系统则是由 cron (crond) 这个系统服务来控制的。Linux 系统上面原本就有非常多的计划性工作,因此这个系统服务是默认启动的。另外, 由于使用者自己也可以设置计划任务,所以, Linux 系统也提供了使用者控制计划任务的命令 :crontab 命令。一、crond简介crond是linux下用来

2016-03-03 21:52:58 842

原创 Hadoop—MapReduce练习(数据去重、数据排序、平均成绩、倒排索引)

1. wordcount程序先以简单的wordcount为例。Mapper:package cn.nuc.hadoop.mapreduce.wordcount;import java.io.IOException;import org.apache.commons.lang.StringUtils;import org.apache.hadoop.io.IntWri...

2016-03-03 14:02:07 12117 2

sasl-0.1.3-cp27-none-win_amd64.whl

Python连接hive server2时需要安装pyhs2,而在windows下安装pyhs2时需要先安装sasl

2016-06-07

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除