大数据
文章平均质量分 66
小马哥_编程
酷爱足球,喜欢编程,历史知识
展开
-
VirtualBox 虚拟机配置centos6.4 spark集群(1)--- 环境搭建以及所遇问题
一、前言二、所需软件 VirtualBox 5.1.22 操作系统 :centos6.4 CentOS-6.4-x86_64-minimal.iso 三、虚拟机的配置 1、虚拟机安装 (1)在VirtualBox中选择“新建”--->填写名称,“类型”选择Lin原创 2017-07-06 22:33:29 · 1071 阅读 · 0 评论 -
MapReduce工作流程、Yarn工作机制
一、MapReduce工作流程 二、yarn的工作机制0、MapReduce程序提交的客户端所在的节点上。1、客户端向ResourceManager申请一个Application。2、ResourceManager 返回一个Application资源提交的HDFS路径和Application_id。3、客户端将运行job的资源(job.xml、job.spli...原创 2018-09-27 18:36:33 · 513 阅读 · 0 评论 -
Hive 的DML操作
一、导入数据1、向表中加载数据(load)语法:hive> load data [local] inpath '/opt/module/datas/student.txt' [overwrite] into table student [partition (partcol1=val1,…)];(1)、load data:表示加载数据(2)、local:表示加载本地数据到...原创 2018-09-14 16:57:17 · 1137 阅读 · 0 评论 -
Hadoop 的三种调度器FIFO、Capacity Scheduler、Fair Scheduler
目前Hadoop有三种比较流行的资源调度器:FIFO 、Capacity Scheduler、Fair Scheduler。目前hadoop2.7默认使用的是Capacity Scheduler容量调度器。一、FIFO(先入先出调度器)hadoop1.x使用的默认调度器就是FIFO。FIFO采用队列方式将一个一个job任务按照时间先后顺序进行服务。比如排在最前面的job需要若干m...原创 2018-09-09 21:39:22 · 12553 阅读 · 1 评论 -
Hadoop 企业级优化
一、MapReduce跑得慢的原因MapReduce的瓶颈有一下两点:1、计算机硬件方面CPU、内存、网络、硬盘等。2、I/O方面1、数据倾斜的问题2、map和reduce设置的个数不合理3、spill溢写设置的不合理,导致溢写个数过多4、merge归并文件个数设置不合理,导致归并个数过多5、map运行的时间过长,导致reduce等待时间太久6、小文件太多...原创 2018-09-11 16:37:52 · 429 阅读 · 0 评论 -
Hive 分区表和二级分区表的基本操作
Hive分区就是在HDFS上创建独立的文件夹,该文件夹下是该分区的所有的数据文件。Hive中的分区就是分目录,把一个大的数据集根据业务需要分割成小的数据集。在查询时通过WHERE子句中的表达式选择来查询所需要的指定分区,这样的查询效率会提高很多。1、引入分区表最终呈现的效果就是在HDFS上按照分区的目录存储文件:/user/hive/warehose/log/201801/01/dep...原创 2018-09-12 23:27:29 · 9238 阅读 · 4 评论 -
关于VMware时间不同步的解决方法
Vmware虚拟机的用户可能会出现这样的问题,用虚拟机下的系统时,其时间显示的是相应语言对应国家的时间,与所在地区不同步,这样会很不方便,那么该怎么修改才能使得时间同步呢?这里有三种解决方法,供大家参考。 问题: 在Windows操作系统下安装vmware虚拟机后,再安装Linux以后时间总是与真实计算机的不同步 解决方法: 方法1: 步骤1转载 2017-09-12 16:02:04 · 18709 阅读 · 0 评论 -
hadoop集群时间同步
测试环境: 192.168.217.130 master master.hadoop192.168.217.131 node1 node1.hadoop192.168.217.132 node2 node2.hadoop一、设置master服务器时间查看本地时间和时区[root@master ~]# dateMon Feb 27 09:54:转载 2017-09-08 10:35:45 · 2464 阅读 · 0 评论 -
用linux命令分析文件(排序,统计)
有a.txt和b.txt两个文件,文件格式为(ip username)例如:a.txt:127.0.0.1 zhangsan127.0.0.2 lisi127.0.0.3 wangwu127.0.0.4 chenliub.txt:127.0.1.1 wangermazi127.0.0.2 lisi127.0.1.3 f原创 2017-08-22 12:33:48 · 737 阅读 · 0 评论 -
Hadoop1.x 的MapReduce 简单例子WordCount
一. 前言 之前笔记里记得案例今天看到了,所以拿出来分享。 **首先介绍一下案例需求,统计出hadoop上的一个hello目录下的文件不同单词的个数,并输出统计结果。**MapReduce 是一种分布式计算模型,主要分为Map和Reduce两部分,用户只需要实现map()和reduce()函数就可以,一般两个函数之间以key和value这种键值对传递参数二.代码import java.io.I原创 2017-08-02 15:40:00 · 477 阅读 · 1 评论 -
Zookeeper的安装
一、ZooKeeper 概述 Zookeeper 是分布式协调服务,分布式程序可以基于Zookeeper来实现同步服务、配置服务和命名服务等。 ZooKeeper 是确保数据在其管理的服务器集群之间的数据的事务一致性。二、Zookeeper的安装 1、zookeeper集群节点数不能少于3原创 2017-08-02 22:42:57 · 289 阅读 · 0 评论 -
Hadoop1.x MapReduce 实现二次排序 实现WritableComparable接口
一、前言利用MapReduce来实现,首先按照第一列升序排列,当第一列相同时,第二列升序排列 3 3 3 2 3 1 2 2 2 1 1 1-------------------------------------预期结果 1 1 2 1 2 2 3 1 3 2原创 2017-08-02 17:23:48 · 511 阅读 · 0 评论 -
Hadoop学习(一)
一、Hadoop介绍 Hadoop由两部分组成,分别是HDFS和MapReduce。HDFS是分布式存储系统,MapReduce是并行计算框架。 二、HDFS介绍 1、主从机构 主节点,只有一个namenode 从节点,可以有很原创 2017-08-07 22:07:57 · 396 阅读 · 0 评论 -
Centos 7 中MongoDB3.4.2 集群搭建
因为近期工作原因需要使用mongodb数据库,索性将搭建的全部过程分享出来。 一、环境准备 1、Centos7 2、mongodb3.4.2 3、三台机器IP分别是:192.168.1.100、192.168.1.101、192.168.1.102二、mongdb数据库的安装 如下操作是分别在三台机器进行1、首先分别在三台机器上下载好mo原创 2017-04-14 16:51:14 · 6609 阅读 · 5 评论 -
HBase shell 常用命令
1、进入hbase命令行界面$HBASE_HOME/bin/hbase shell2、查看当前用户hbase(main):001:0> whoami3、表的管理 (1)查看所有表hbase(main):002:0> list (2)创建表 语法:create <ta...原创 2018-12-06 15:39:43 · 836 阅读 · 0 评论