自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 资源 (1)
  • 收藏
  • 关注

原创 Hive学习 ---- 1.Hive的概念与结构

1. Hive概述            Hive是一个数据仓库基础工具,在Hadoop中用来处理结构化数据。它架构在Hadoop之上,使得查询和分析变得方便。并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。Hive是为了解决hadoop中mapreduce编写困难,提供给熟悉sql的人使用的。只要你对SQL有一定的了解,就能通过Hive写出mapreduce的程...

2018-06-21 22:54:29 316

原创 pyCharm2018最新激活码

K71U8DBPNE-eyJsaWNlbnNlSWQiOiJLNzFVOERCUE5FIiwibGljZW5zZWVOYW1lIjoibGFuIHl1IiwiYXNzaWduZWVOYW1lIjoiIiwiYXNzaWduZWVFbWFpbCI6IiIsImxpY2Vuc2VSZXN0cmljdGlvbiI6IkZvciBlZHVjYXRpb25hbCB1c2Ugb25seSIsImNoZWNrQ...

2018-06-19 19:43:59 7046

原创 python调用linux命令的方法

有时候难免需要直接调用Shell命令来完成一些比较简单的操作,比如mount一个文件系统之类的。那么我们使用Python如何调用Linux的Shell命令?下面来介绍几种常用的方法:1. os 模块1.1. os模块的exec方法族python的exec系统方法同Unix的exec系统调用是一致的。这些方法适用于在子进程中调用外部程序的情况,因为外部程序会替换当前进程的代码,不会返回。1.2. o...

2018-06-19 18:53:41 2014

原创 hadoop之datanode节点超时时间设置与HDFS冗余数据块的自动删除

一  Datanode节点超时时间设置datanode进程死亡或者网络故障造成datanode无法与namenode通信,namenode不会立即把该节点判定为死亡,要经过一段时间,这段时间暂称作超时时长。HDFS默认的超时时长为10分钟+30秒。如果定义超时时间为timeout,则超时时长的计算公式为: timeout  = 2 * heartbeat.recheck.interval + 10...

2018-06-17 16:56:07 1749

原创 Hadoop之分布式集群高可用性(HA)模式部署详解与Zookeeper

1  分布式协调技术      提到zookeeper,首先需要理解什么是分布式协调技术。分布式协调技术主要用来解决分布式环境当中多个进程之间的同步控制,让他们有序的去访问某种临界资源,防止造成"脏数据"的后果,如下图所示:                            在这图中有三台机器,每台机器各跑一个应用程序。然后我们将这三台机器通过网络将其连接起来,构成一个系统来为用户提供服务,对...

2018-06-16 19:24:46 783

原创 Hadoop实战之多个job在同一个main方法中提交

有两种方式,一般是用shell脚本。还可以在main函数中编写,例如: public static void main(String[] args) throws Exception { Configuration conf = new Configuration(); //先构造job_one Job job_one = Job.getInstance(conf); ...

2018-06-14 11:12:20 1132 1

原创 Hadoop实战之倒排索引的MR实现

一  目标:实现倒排索引由于多个文件得到如下结果:二  分析---------------------------------mapper//context.wirte("hello->a.txt", "1")//context.wirte("hello->a.txt", "1")//context.wirte("hello->a.txt", "1&quot

2018-06-13 23:33:12 293

原创 Hadoop之MR程序的组件全貌及textinputformat对切片规划的源码分析

一  MR程序的组件全貌之前的文章中已经描述过了大部分的组件。目前没有接触过的只剩InputFormat、RecordReaders、OutputFormat。InputFormat和RecordReaderHadoop提出了InputFormat的概念org.apache.hadoop.mapreduce包里的InputFormat抽象类提供了如下列代码所示的两个方法public abstrac...

2018-06-13 12:57:09 354

原创 Hadoop之分块、分片与shuffle机制详解

一  分块(Block)      HDFS存储系统中,引入了文件系统的分块概念(block),块是存储的最小单位,HDFS定义其大小为64MB。与单磁盘文件系统相似,存储在 HDFS上的文件均存储为多个块,不同的是,如果某文件大小没有到达64MB,该文件也不会占据整个块空间。在分布式的HDFS集群上,Hadoop系统保证一个块存储在一个datanode上。      把File划分成Block,...

2018-06-11 15:20:55 4423

原创 Hadoop之map/reduce之间的shuffle,partition,combiner过程的详解

      Shuffle的本意是洗牌、混乱的意思,类似于java中的Collections.shuffle(List)方法,它会随机地打乱参数list里的元素顺序。MapReduce中,所谓Shuffle过程可以大致的理解成:怎样把map task的输出结果有效地传送到reduce输入端。也可以这样理解, Shuffle描述着数据从map task输出到reduce task输入的这段过程。  ...

2018-06-11 14:50:17 1142

原创 Hadoop实战之自定义分组的实现

一  Hadoop中自带的Partitioner从源码可以看出,现在是根据key的哈希值进行分组的。/** Partition keys by their {@link Object#hashCode()}. */@[email protected] class HashPartitioner<K, V&gt...

2018-06-09 13:44:37 433

原创 Hadoop实战之自定义排序实现

一  在javaBean中定义排序规则(Compare方法)import java.io.DataInput;import java.io.DataOutput;import java.io.IOException;import org.apache.hadoop.io.Writable;import org.apache.hadoop.io.WritableComparable;p...

2018-06-08 15:22:45 450

原创 Hadoop实战之流量求和MR程序开发

一  数据格式实现针对每个手机号码实现流量(上行、下行)求和。二  自定义JavaBean当map输出的“value”包含多个值的时候,我们可以自定义JavaBean,来将需要的数据封装在一起。import java.io.DataInput;import java.io.DataOutput;import java.io.IOException;import org.apache.had...

2018-06-07 22:59:08 402

原创 项目管理工具 maven(4) ---- 依赖管理-添加依赖、在阿里云的Maven库中找jar包

1  添加依赖1.1  dependency      在pom.xml中添加dependency标签,如下:      <dependency>              <groupId><groupId>              <artifactId></artifactId>              <version&...

2018-06-03 00:04:48 3056

原创 项目管理工具 maven(3) ---- 使用Maven与Eclipse进行项目构建及入门示例

1  m2e插件安装配置1.1  eclipse与maven        通过入门程序中命令行的方式使用maven工作效率不高,可以在eclipse开发工具中集成maven软件,eclipse是一个开发工具,maven是一个项目管理工具,maven有一套项目构建的规范,在eclipse集成maven软件,最终通过eclipse创建maven工程。1.2  插件安装        本教程使用ecl...

2018-06-02 21:26:53 419

原创 项目管理工具 maven(2) ---- Maven入门、常用命令、生命周期与概念模型

1 Maven入门1.1  Maven工程运行示例1.1.1  运行Web工程        进入maven工程目录(当前目录有pom.xml文件),运行tomcat:run命令。                      根据上边的提示信息,通过浏览器访问:http://localhost:8080/maven-helloworld/             1.1.2  问题处理       ...

2018-06-02 13:41:34 391

python http post实例

python 3.x 实现http post,有助于区别python2 python3

2018-07-04

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除