2019年03月_勤径苦舟

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

原创 Flume介绍+安装部署+netcat-logger.conf+spool-logger.conf+tail-hdfs.conf+多级agent串联

Flume介绍Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。 Flume可以采集文件，socket数据包等各种形式源数据，又可以将采集到的数据输出到HDFS、hbase、hive、kafka等众多外部存储系统中一般的采集需求，通过对flume的简单配置即可实现 Flume针对特殊场景也具备良好的自定义扩展能力，因此，flume可以适用于大部分的日常数据...

2019-03-19 00:04:07 1535

原创 hive函数

内置运算符Hive官方文档https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF你可以将hive当成mysql,因为绝大部分mysql的函数，hive都有Hive自定义函数和Transform当Hive提供的内置函数无法满足你的业务处理需要时，此时就可以考虑使用用户自定义函数 UDF（ user-d...

2019-03-18 00:23:06 203

原创 Hive基本操作

Hive基本操作建表语法CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name[(col_name data_type [COMMENT col_comment], ...)][COMMENT table_comment][PARTITIONED BY (col_name data_type [COMMENT c...

2019-03-16 17:31:40 1077

原创大数据-虚拟机克隆网卡变为eth1问题

1 直接修改 vi /etc/sysconfig/network-scripts/ifcfg-eth0删掉UUID 删掉HWADDR（物理地址）配置静态地址2vi /etc/udev/rules.d/70-persistent-net.rules将eth1该为eth0，将原ext0删掉。3 reboot哈哈...

2019-03-12 20:14:54 362

原创 Zookeeper概念简介+Zookeeper工作原理图+选主机制+Zookeeper集群角色+数据模型+规则

Zookeeper是一个分布式协调服务；就是为用户的分布式应用程序提供协调服务zookeeper是为别的分布式程序服务的 Zookeeper本身就是一个分布式程序（只要有半数以上节点存活，zk就能正常服务） Zookeeper所提供的服务涵盖：主从协调、服务器节点动态上下线、统一配置管理、分布式共享锁、统一名称服务…… 虽然说可以提供各种服务，但是zookeeper在底层其实只提供了两...

2019-03-12 20:14:46 321

原创 zookeeper结构和命令

zookeeper特性1、Zookeeper：一个leader，多个follower组成的集群。2、全局数据一致：每个server保存一份相同的数据副本，client无论连接到哪个server，数据都是一致的。3、分布式读写，更新请求转发，由leader实施。4、更新请求顺序进行，来自同一个client的更新请求按其发送顺序依次执行。5、数据更新原子性，一次数据更新要么成功，...

2019-03-12 20:14:42 143

原创大数据02 linux+下载资源 +上传资源下载+shell脚本学习

如果虚拟机连接不上网，可以参考这边文章https://blog.csdn.net/u010522433/article/details/52814567下载资源 wget上传资源下载下载yum install lrzszrz/sz 上传下载命令[root@sizhan home]# pstreeinit─┬─NetworkManager ├─abrtd...

2019-03-12 20:14:18 148

原创 scp命令安装

yum install -y openssh-clients查找[root@sizhan yum.repos.d]# yum list |grep sshlibssh2.x86_64 1.4.2-2.el6_7.1 @anaconda-CentOS-201605220104.x86_64/6.8ope...

2019-03-12 20:14:13 4457

原创大数据-linux免密登录

操作mini-yum服务器（A）[root@sizhan ~]# ssh-keygenGenerating public/private rsa key pair.Enter file in which to save the key (/root/.ssh/id_rsa): 回车Enter passphrase (empty for no passphrase):...

2019-03-12 20:14:08 207

原创 ReentrantReadWriteLock

一ReentrantReadWriteLock是Lock的另一种实现方式我们知道ReentrantLock是一个排他锁，同一时间只允许一个线程访问，而ReentrantReadWriteLock允许多个读线程同时访问，但不允许写线程和读线程、写线程和写线程同时访问。相对于排他锁，提高了并发性。在实际应用中，对共享数据（如缓存）的访问都是读操作远多于写操作，这时ReentrantRe...

2019-03-12 20:14:01 121

原创 nio介绍+原理+传统IO原理+与传统IO区别+案例

nio介绍为所有的原始类型提供(Buffer)缓存支持。为字符集编码解码提供解决方案。 Channel ：一个新的原始I/O 抽象。支持锁和内存映射文件的文件访问接口。提供多路(non-bloking) 非阻塞式的高伸缩性网络I/O 。nio原理NIO技术省去了将操作系统的read buffer拷贝到程序的buffer, 以及从程序buffer拷贝到socket bu...

2019-03-12 20:13:57 493

原创大数据 zookeeper-api应用+分布式应用系统服务器上下线动态感知程序开发

测试过程中使用到的源码https://download.csdn.net/download/zhou920786312/108711051zookeeper-api应用org.apache.zookeeper.Zookeeper是客户端入口主类，负责建立与server的会话，它提供了以下主要方法功能描述 create ...

2019-03-12 20:13:51 184

原创轻量级RPC框架开发

源码https://download.csdn.net/download/zhou920786312/10871115

2019-03-12 20:13:45 128

原创 hdfs写数据流程

上面图看不懂没关系，下面我有简单语言说明下其过程。现在客户端要上传一个300M的文件。1客户端先请求namenode,告诉namenode我有上传一个叫作cls_初解禁的文件。2namenode检查元数据中是否有这个文件，有就告诉客户端这个文件已存在，没有就告诉客户端你可以上传了3客户端收到namenode可以上传的消息，这个时候客户端将300M切片，将第一个black（...

2019-03-12 20:13:38 335

原创 HDFS读数据流程

读数据的过程：案例某个文件上传后被切割成3个块,分别保存在这几个datanode中black1(dn1，dn3,dn4)，black2(dn1，dn4,dn5) ，black3(dn2，dn3,dn4)。1 客户端问namenode，我的文件/aa/cls.avi在哪里。2 namenode根据路径/aa/cls.avi到元数据查到保存的纪录信息。并发给客户端...

2019-03-12 20:13:32 255

原创大数据学习01 -Linux 的简单使用

1 NAT——网络地址转换：默认使用VMnet81、原理：子网掩码：和IP进行与操作，可以得到对应的子网IP（在那个网段上）IP：哪台机制网关：路由器的IPdns:去dbs服务器查找域名对应的IP常用命令修改主机名vi /etc/sysconfig/network NETWORKING=yes HOSTNAME=server...

2019-03-12 18:02:32 156

原创高并发架构方案

2019-03-12 18:02:27 383

原创 zookeeper集群安装+集群值启动+source命令+export命令

1zookeeper集群安装1安装到3台虚拟机上（mini2,mini3,mini4）2先要安装好JDK步骤1先给mini2,mini3,mini4创建用户hadoop，密码也是hadoopadduserhadooppasswdhadoop2上传zookeeper-3.4.5.tar.gz到/home/hadoop中rz3解压su –hadoop...

2019-03-12 18:02:19 790

原创关于hadoop副本数的思考

问题：Linux上我配置的副本数是2，下面这个操作，上传文件到hdfs,为什么副本是3？原因：这是一个配置文件优先级的问题副本数由客户端的参数dfs.replication决定（优先级： conf.set > 自定义配置文件 > jar包中的hdfs-default.xml）和Linux上的配置无关，这告诉我们hadoop的Linux操作只使用linxu上的...

2019-03-12 18:02:14 1653

原创 secondary namenode元数据checkpoint机制

将机制前先明确下面的几点namemode保存的元数据是在内存中的namenode一般有128G一个元数据大小为150B，记录一个块（0-128M）。所以hadoop不适用存储一个小文件。secondary namenode也是在内存中操作secondarynamenode元数据checkpoint机制当客户端不断发出命令的时候，namenode都做了什么？...

2019-03-12 18:02:09 675 3

原创 hadoop日志采集

对应的配置uploadFile2Hdfs.v2.sh*/1 * * * * sh /export/servers/shell/uploadFile2Hdfs.v2.sh#!/bin/bash#set java envexport JAVA_HOME=/home/hadoop/app/jdk1.7.0_51export JRE_HOME=${JAVA_HOME}/jre...

2019-03-12 18:01:53 703

原创 zookeeper 分布式共享锁的流程图

1分布式共享锁的流程图原理package cn.itcast.bigdata.zklock;import java.util.Collections;import java.util.List;import java.util.Random;import org.apache.zookeeper.CreateMode;import org.apache.zoo...

2019-03-12 18:01:42 299

原创 hadoop nameNode和dataNode怎么管理

mini4（dataNode）的文件怎么知道mini-yum(nameDate)的呢？或者说别的集群的nameNode可以加入到当前的mini-yum中吗？首先查看dataNode的文件信息下图有2处重要的信息第一个红框的内容是怎么来的呢，其实第一个红框的内容是来自namenode,怎么说？请看namenode的信息有上图可以知道，datanode的版本信息来自...

2019-03-12 18:01:36 1050

原创基于客户端模式+Spring Security OAuth2的最简授权服务器

代码操作方式1. 获取访问令牌curl -X POST "http://localhost:8080/oauth/token" --user clientapp:112233 -d "grant_type=client_credentials&scope=devops"http://localhost:8080/oauth/token?s...

2019-03-12 18:01:29 547

转载基于密码模式+Spring Security OAuth2+JWT的最简授权服务器

代码位置https://github.com/zhou920786312/SpringSecurityOAuth2JWT代码操作方式1. 启动jwt-authserver，端口80802. 启动jwt-resourceserver，端口70703. 获取JWT令牌curl -X POST --user clientapp:112233 http://localhost:...

2019-03-12 18:01:15 1023

转载 mapreduce参数优化

MapReduce重要配置参数11.1 资源相关参数//以下参数是在用户自己的mr应用程序中配置就可以生效(1) mapreduce.map.memory.mb: 一个Map Task可使用的资源上限（单位:MB），默认为1024。如果Map Task实际使用的资源量超过该值，则会被强制杀死。(2) mapreduce.reduce.memory.mb: 一个Reduce Task...

2019-03-12 18:01:05 586

原创大数据-自动部署

mini-yun主服务器配置[root@sizhan ~]# vi /etc/hosts127.0.0.1 localhost localhost.localdomain localhost4 localhost4.localdomain4::1 localhost localhost.localdomain localhost6 localhost6.loc...

2019-03-12 18:00:54 314

原创 combiner的运行机制及代码实现+怎么将大量小文件逻辑上合成一个大文件

combiner作用将maptask（reduseTask）溢出的数据如a1,a1,c1,b1,b1的数据进行整理，整理结果为a2，c1,b2好处：提高效率打个比方说加入a1有1000个溢出，c1有2000的溢出等等，这时候排序的效率肯定小于a1000,c2000这样几个数字的排序。代码实现/** * 输如为map的输出 */public class Wordco...

2019-03-12 18:00:34 328

原创 MAPREDUCE原理+mapreduce和yarn的工作机制+mapreduce&yarn的工作机制

MAPREDUCE是什么一个分布式运算程序的编程框架能将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并发运行在一个hadoop集群上为什么要MAPREDUCE因为它能解决海量数据的分析整体结构MRAppMaster(mapreduce application master)：负责整个程序的过程调度及状态协调 MapTask：负责map阶段的整...

2019-03-12 18:00:22 342

原创大数据-本地yum

1创建挂载目录[root@sizhan ~]# mkdir /mnt/cdrom挂载[root@sizhan ~]# mount -t iso9660 -o ro /dev/cdrom /mnt/cdrom[root@sizhan ~]# ll /mnt/cdrom总用量 558-r--r--r--. 2 root root 14 5月 22 2016 CentOS_B...

2019-03-12 17:59:58 164

原创 Idea常用设置

代码补全取消区分大小写自动导包显示行数和方法线隐藏.idea文件夹和.iml等文件在File->Settings->Editor->File Types下的”Ignore files and folders”一栏添加 *.idea;*.iml;等配置如下图所示界面主题修改代码编辑区主题修改修改字体大小文...

2019-03-12 09:57:18 369

原创 hdfs的HA（3台机子）+hive的安装+将hive作为服务启动+简单使用

1hdfs的HA这里拷贝HA01,HA02HA03为HAT01,HAR02HAT03HAT01、jdk、hadoop、zookeeper、DataNode、NodeManager、JournalNode、NameNode、zkfc、HAT02、jdk、hadoop、zookeeper、DataNode、NodeManager、JournalNode、NameNode、zkfc、Reso...

2019-03-11 23:17:28 908

原创 hive的概念和原理

什么是Hive？基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能。为什么使用Hive？直接使用hadoop所面临的问题人员学习成本太高项目周期要求太短 MapReduce实现复杂查询逻辑开发难度太大为什么要使用Hive操作接口采用类SQL语法，提供快速开发的能力。避免了去写MapReduce，减...

2019-03-06 23:44:58 158