big data
文章平均质量分 89
一路前行1
这个作者很懒,什么都没留下…
展开
-
高可用性hadoop集群的搭建
1.概述 在Hadoop2.x之后的版本,提出了解决单点问题的方案--HA(High Available 高可用)。这篇博客阐述如何搭建高可用的HDFS和YARN,执行步骤如下:创建hadoop用户安装JDK配置hosts安装SSH关闭防火墙修改时区ZK(安装,启动,验证)HDFS+HA的结构图角色分配环境变量配置核心文件配置slave启动命令(hdfs和yarn的相关命令)HA的切转载 2017-07-13 08:50:43 · 755 阅读 · 0 评论 -
使用浏览器访问azkaban报错:javax.net.ssl.SSLException: Unrecognized SSL message, plaintext connection?
javax.net.ssl.SSLException: Unrecognized SSL message, plaintext connection? at sun.security.ssl.InputRecord.handleUnknownRecord(InputRecord.java:671) at sun.security.ssl.InputRecord.re转载 2017-07-24 15:25:22 · 15251 阅读 · 2 评论 -
Azkaban简介与使用
一、Azkaban简介 Azkaban是由Linkedin开源的一个批量工作流任务调度器。用于在一个工作流内以一个特定的顺序运行一组工作和流程。Azkaban定义了一种KV文件格式来建立任务之间的依赖关系,并提供一个易于使用的web用户界面维护和跟踪你的工作流。简而言之就是一个工作流调度系统。为什么需要工作流调度系统?因为一个完整的数据分析系统通常都是由原创 2017-07-25 17:19:37 · 12163 阅读 · 0 评论 -
配置zookeeper异常 Error contacting service. It is probably not running.以及java.net.ConnectException: 拒绝连接
网上问题答案有许多种,一一试了一遍:1. zoo.cfg配置文件中指定目录却没有创建! 创建相应目录即可。 //我的目录配置没有问题2. zoo.cfg中dataDir指定路径为Myid文件的路径。 Myid内容与:server.?=localhost:2888:3888 中你所设置?一致! //没有问题3.使用service iptables stop原创 2017-06-26 20:01:38 · 28110 阅读 · 9 评论 -
Storm ACK机制
一、Ack是什么 为了保证数据能正确的被处理, 对于spout产生的每一个tuple, storm都会进行跟踪。ack机制即, spout发送的每一条消息: 在规定的时间内,spout收到Acker的ack响应,即认为该tuple 被后续bolt成功处理 在规定的时间内,没有收到Acker的ack响应tuple,就触发fail动作,即认为该tuple处理失败, 或原创 2017-08-19 10:03:43 · 4721 阅读 · 0 评论 -
storm集群安装配置
安装storm集群,需要依赖以下组件:ZookeeperPythonStormJDK1.安装jdk省略,安装jdk很简单,网上有很多教程,这里不再说明。2.安装zookeeper可以参照这篇:http://blog.csdn.net/weiyongle1996/article/details/737447703.安装python一般linux系统都会自带py原创 2017-08-12 09:07:27 · 697 阅读 · 0 评论 -
sqoop导入数据出错ERROR manager.SqlManager: Error executing statement: java.sql.SQLException: Access denied
17/07/22 15:36:35 ERROR manager.SqlManager: Error executing statement: java.sql.SQLException: Access denied for user 'root'@'mini1' (using password: YES)java.sql.SQLException: Access denied for user原创 2017-07-27 18:18:08 · 12466 阅读 · 0 评论 -
Storm架构与运行原理
一、Storm简介 Storm是一个免费并开源的分布式实时计算系统。利用Storm可以很容易做到可靠地处理无限的数据流,像Hadoop批量处理大数据一样,Storm可以实时处理数据。Storm 很简单,可用于任意编程语言。Apache Storm 采用 Clojure 开发。Storm 有很多应用场景,包括实时数据分析、联机学习、持续计算、分布式 RPC、ETL 等。原创 2017-08-13 20:54:38 · 30422 阅读 · 5 评论 -
hive基本结构与数据存储
一、Hive简介Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。还可以将 SQL 语句转换为 MapReduce 任务进行运行,通过自己的 SQL 去 查询分析需要的内容,这套 SQL 简称 HQL。使用hive的优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应原创 2017-07-18 20:41:03 · 6818 阅读 · 0 评论 -
flume简介与安装配置
一、flume简介Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。flume的核心是把数据从数据源收集过来,再送到目的地。为了保证输送一定成功,在送到目的地之前,会先缓存数据,待数据真正到达目的地后,删除自己缓存的原创 2017-07-21 21:15:21 · 1674 阅读 · 0 评论 -
hadoop上传文件错误org.apache.hadoop.ipc.RemoteException(java.io.IOException)
搭建好hadoop后使用hadoop fs -put 命令上传文件发现失败,报了以下错误:14/08/18 15:18:03 WARN hdfs.DFSClient: DataStreamer Exceptionorg.apache.hadoop.ipc.RemoteException(java.io.IOException): File /home/input/file1.txt.原创 2017-07-02 11:36:53 · 68715 阅读 · 21 评论 -
Hadoop2.6.4集群安装配置
修改hadoop-env.shvi hadoop-env.sh找到export JAVA_HOME一行,如下:将其改为你的jdk路径(echo $JAVA_HOME可以查看jdk路径)更改配置文件core-site.xmlvi core-site.xml原创 2017-07-02 13:30:56 · 1630 阅读 · 3 评论 -
zookeeper的简单使用
1.1. zookeeper数据结构1、层次化的目录结构,名符合常规文件系统规范(见下图)2、每个节点在zookeeper中叫做znode,并且其有一个唯一的路径标识3、节点Znode可以包含数据和子节点(但是EPHEMERAL类型的节点不能有子节点)4、客户端应用可以在节点上设置监视器(后续详细讲解) 1.2. 节点类型1、Znode有两种类型:原创 2017-06-27 19:41:45 · 458 阅读 · 0 评论 -
HDFS体系结构及读写流程
一、HDFS简介 HDFS全称是Hadoop Distributed System。HDFS是为以流的方式存取大文件而设计的。适用于几百MB,GB以及TB,并写一次读多次的场合。而对于低延时数据访问、大量小文件、同时写和任意的文件修改,则并不是十分适合。HDFS(Hadoop Distributed File System)默认的最基本的存储单位是64M的数据块。和普通文件原创 2017-07-06 19:27:24 · 5210 阅读 · 0 评论 -
MapReduce框架结构与运行流程
Mapreduce是一个分布式运算程序的编程框架,是用户开发“基于hadoop的数据分析应用”的核心框架;Mapreduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个hadoop集群上。为什么要MapReduce?(1)海量数据在单机上处理因为硬件资源限制,无法胜任(2)而一旦将单机版程序扩展到集群来分布式运行,将极大增加程序的复原创 2017-07-08 11:44:48 · 4883 阅读 · 0 评论 -
zookeeper集群安装与配置
将zookeeper安装到三台机器上1.首先下载安装包这里我用的是zookeeper-3.4.5.tar.gz这个安装包解压到/root/apps目录下,目录可以任选tar -zxvf zookeeper-3.4.5.tar.gz -C /root/apps2.进入zookeeper目录,进入conf目录,创建zoo.cfg配置文件,在其中添加如下配置:tickTi原创 2017-06-26 22:11:42 · 416 阅读 · 0 评论 -
HBase启动失败,启动后自动退出
2017-07-23 08:12:50,325 ERROR [main] master.HMasterCommandLine: Master exitingjava.lang.RuntimeException: Failed construction of Master: class org.apache.hadoop.hbase.master.HMaster at org.ap原创 2017-07-30 17:06:52 · 2683 阅读 · 0 评论 -
hive安装配置(hive1.2.1)
环境centOS 7hive的安装比较简单,只需要在一台机器上配置即可。由于hive的一些功能要借助数据库实现,所以要先装好mysql。 一.安装MySql在MySQL官网中下载YUM源rpm安装包:http://dev.mysql.com/downloads/repo/yum/# 下载mysql源安装包shell> wget http://dev.m原创 2017-07-18 11:05:26 · 5232 阅读 · 0 评论 -
Storm通信机制
<div class="markdown_views"><h1 id="storm通信机制"><a name="t0" target="_blank"></a>Storm通信机制</h1>Worker间的通信经常需要通过网络跨节点进行,Storm使用ZeroMQ或Netty(0.9以后默认使用)作为进程间通信的消息框架。 Worker进程内部通信:不同worker的thread通信使用LMAX转载 2017-08-16 08:48:59 · 1073 阅读 · 0 评论