2019年10月__东极

原创 (2)Flume的安装部署

文章目录Flume安装地址安装部署Flume安装地址Flume官网地址http://flume.apache.org/文档查看地址http://flume.apache.org/FlumeUserGuide.html下载地址http://archive.apache.org/dist/flume/安装部署1）将apache-flume-1.7.0-bin.tar.gz上传到lin...

2019-10-31 23:06:15 292

原创 (1)Flume的概述

文章目录Flume定义Flume的优点Flume组成架构AgentSourceChannelSinkEventFlume拓扑结构Flume Agent内部原理Flume定义Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构，灵活简单。Flume的主要作用是实时读取服务器本地磁盘数据,将数据写入到hdfs上Flume的优...

2019-10-30 23:17:40 535

文章目录Fetch抓取本地模式表的优化小表、大表Join大表Join大表空KEY过滤空key转换MapJoin（小表join大表）Group ByCount(Distinct) 去重统计笛卡尔积行列过滤动态分区调整案例实操合理设置Map及Reduce数复杂文件增加Map数小文件进行合并合理设置Reduce数并行执行严格模式JVM重用推测执行执行计划（Explain）Fetch抓取Fetch抓取...

2019-10-30 00:00:25 342

原创 (14)Hive基于hadoop的压缩

文章目录MR支持的压缩编码压缩参数配置开启Map输出阶段压缩开启Reduce输出阶段压缩文件存储格式列式存储和行式存储TextFile格式Orc格式Parquet格式主流文件存储格式对比实验1．TextFile修改Hadoop集群具有Snappy压缩方式测试存储和压缩MR支持的压缩编码压缩格式工具算法文件扩展名是否可切分DEFLATE无DEFLATE.defla...

2019-10-29 23:13:46 431

原创 (13)Hive函数(waiting)

文章目录系统内置函数自定义函数自定义UDF函数系统内置函数1．查看系统自带的函数hive> show functions;2．显示自带的函数的用法hive> desc function upper;3．详细显示自带的函数的用法hive> desc function extended upper;自定义函数1）Hive 自带了一些函数，比如：max/min等...

2019-10-29 00:06:36 454

原创 (12)Hive的空字段赋值,case when,行列转换窗口函数,rank waiting

文章目录空字段赋值CASE WHEN行转列列转行窗口函数Rank空字段赋值函数说明:NVL：给值为NULL的数据赋值，它的格式是NVL( value，default_value)。它的功能是如果value为NULL，则NVL函数返回default_value的值，否则返回value的值，如果两个参数都为NULL ，则返回NULL。查询：如果员工的comm为NULL，则用-1代替hiv...

2019-10-29 00:01:58 2274

原创 (11)Hive的查询排序和分桶

文章目录Order By(全局排序)按照别名排序多个列排序Sort By(每个MapReduce内部排序)Distribute By(分区排序)Cluster By分桶及抽样查询分桶表数据存储分桶抽样查询Order By(全局排序)Order By：全局排序，只有一个Reducer1．使用 ORDER BY 子句排序ASC（ascend）: 升序（默认）DESC（descend）: 降序...

2019-10-28 00:07:50 523

原创 (10)Hive的查询运算,分组,join语句

文章目录全表和特定列查询列别名算术运算符常用函数Limit语句Where语句比较运算符（Between/In/ Is Null）Like和RLike逻辑运算符（And/Or/Not）分组Group By语句Having语句查询语句语法：[WITH CommonTableExpression (, CommonTableExpression)*] (Note: Only availabl...

2019-10-27 22:43:05 675

原创 (9)Hive的DML数据操作

文章目录向表中装载数据（Load）案例通过查询语句向表中插入数据（Insert）创建表时通过Location指定加载数据路径Import数据到指定Hive表中数据导出将查询的结果导出到本地将查询的结果格式化导出到本地将查询的结果导出到HDFS上(没有local)Hadoop命令导出到本地Hive Shell 命令导出Export导出到HDFS上Sqoop导出清除表中数据（Truncate）向表中...

2019-10-24 21:57:20 329

原创 (8)Hive的DDL数据定义(表的操作)

文章目录创建表管理表外部表管理表和外部表的使用场景案例实操管理表与外部表的互相转换分区表分区表基本操作创建分区表加载数据到分区表中单分区查询增加分区删除分区查看分区分区表注意事项1.创建二级分区表2.正常的加载数据3．把数据直接上传到分区目录上，让分区表和数据产生关联的三种方式修改表增加/修改/替换列信息删除表创建表1．建表语法CREATE [EXTERNAL] TABLE [IF NOT ...

2019-10-23 00:10:57 428

原创 (7)Hive的DDL数据定义(数据库操作)

文章目录数据库操作创建数据库查询数据库显示数据库查看数据库详情切换当前数据库修改数据库删库跑路数据库操作创建数据库CREATE DATABASE [IF NOT EXISTS] database_name[COMMENT database_comment][LOCATION hdfs_path][WITH DBPROPERTIES (property_name=property_val...

2019-10-22 22:35:37 311

原创 (6)Hive数据类型

文章目录基本数据类型集合数据类型案例类型转化1．隐式类型转换规则如下基本数据类型Hive数据类型Java数据类型长度例子TINYINTbyte1byte有符号整数20SMALINTshort2byte有符号整数20INTint4byte有符号整数20BIGINTlong8byte有符号整数20BOOLEANboolean...

2019-10-21 22:52:44 405

原创 (5) Hive常见属性配置

文章目录配置文件配置Hive数据仓库位置配置配置同组用户有执行权限配置同组用户有执行权限查询后信息显示配置Hive运行日志信息配置参数配置方式配置文件配置Hive数据仓库位置配置1）Default数据仓库的最原始位置是在hdfs上的：/user/hive/warehouse路径下2）在仓库目录下，没有对默认的数据库default创建文件夹。如果某张表属于default数据库，直接在数据仓库...

2019-10-21 22:19:22 328

原创 (4)Hive的安装

文章目录参考地址参考地址1．Hive官网地址http://hive.apache.org/2．文档查看地址https://cwiki.apache.org/confluence/display/Hive/GettingStarted3．下载地址http://archive.apache.org/dist/hive/4．github地址https://github.com/apac...

2019-10-20 23:47:38 331

原创两个namenode都是standby状态

日志信息hdfs haadmin -transitionToActive nn1 报错2019-10-18 03:49:21,586 INFO org.apache.hadoop.hdfs.server.namenode.ha.EditLogTailer: Triggering log roll on remote NameNode note02/192.168.18.101:9000201...

2019-10-20 19:00:06 1233

原创 hadoop的HA搭建

文章目录集群规划zookeeperhdfs启动HDFS-HA集群集群规划note01note02note03NameNodeNameNodeJournalNodeJournalNodeJournalNodeDataNodeDataNodeDataNodeZKZKZKResourceManagerResourceManager...

2019-10-20 18:23:20 318

原创 JDK等环境变量未卸载干净

执行了 source /etc/profile通过 java -version发现jdk也是1.8,但是应用启动的时候日志信息显示查找的jdk是1.7版本,由于自己之前安装的是jdk1.7的执行该命令发现[root@note03 ~]# export | grep JAVAdeclare -x JAVA_HOME="/opt/module/jdk1.7.0_75然后vim ~/....

2019-10-20 17:56:49 816

原创 xshell实现一个命令操作多个会话

参考https://www.cnblogs.com/dcpeng/p/11590283.html

2019-10-18 00:13:12 1101

原创完全分布式部署Hadoop集群(三)完成基本搭建

集群规划注意:真实集群搭建 NameNode独占一个资源不和datanode一起SecondaryNameNode 也一样每一个datanode配置一个nodemanager,ResourceManager 避开namenode和secondarynamendoe基本搭建cd /opt/module/hadoop-2.7.2/etc/hadoopvim core-site.xml ...

2019-10-17 22:40:34 834

原创 centos国内镜像下载

国内镜像下载http://mirrors.aliyun.com/centos/6/isos/x86_64/如果需要下载centos 7 版本进入对应7的/isos/x86_64/ 选择minimal.iso最小安装方式安装

2019-10-16 22:26:05 1163

原创 zookeeper的原理Paxos算法

Paxos算法一种基于消息传递且具有高度容错特性的一致性算法。分布式系统中的节点通信存在两种模型：共享内存（Shared memory）和消息传递（Messages passing）。基于消息传递通信模型的分布式系统，不可避免的会发生以下错误：进程可能会慢、被杀死或者重启，消息可能会延迟、丢失、重复，在基础 Paxos 场景中先不考虑可能出现消息篡改即拜占庭错误的情况。Paxos 算法解决的问题...

2019-10-14 22:56:17 356

原创 Shell工具cut,sed,awk,sort

文章目录cut基本用法参数选项案例sed基本用法参数选项命令功能案例awk基本参数选项参数awk的内置变量sort基本语法案例综合案例cut文件中负责剪切数据,将文件中每一行剪切字节,字符和字段,并输出基本用法cut [选项参数] filename说明: 默认分隔符是制表符参数选项选项参数功能-f列号，提取第几列-d分隔符，按照指定分隔符分割列-c...

2019-10-13 18:05:54 469

原创 shell的函数

系统函数basename基本语法basename [ string / pathname ][ suffix ]（功能描述：basename命令会删掉所有的前缀包括最后一个（‘/’）字符，然后将字符串显示出来。选项suffix为后缀，如果suffix被指定了，basename会将pathname或string中的suffix去掉。案例[root@note01 test]# ...

2019-10-13 15:26:33 235

原创 shell中的read

文章目录read基本用法案例read基本用法选项：-p：指定读取值时的提示符；-t：指定读取值时等待的时间（秒）。参数:变量:指定读取值的变量名案例提示3s,读取控制台输入的名称#!/bin/bashread -t 3 -p "please enter your name in 3 s " NAMEecho $NAME...

2019-10-13 15:08:46 234

原创 shell中流程控制语句

文章目录if基本语法案例case基本语法案例for基本语法案例比较$*和$@区别未使用双引号结果使用双引号while基本语法案例if基本语法if [ 条件判断式 ];then程序fi或者if [ 条件判断式 ]then 程序elif [ 条件判断式 ] then 程序else 程序fi注意事项：（...

2019-10-11 00:18:14 307

原创 shell中运算符与条件判断

文章目录运算符条件判断多条件判断运算符基本语法（1）“((运算式))”或“((运算式))”或“((运算式))”或“[运算式]”（2）expr + , - , *, /, % 加，减，乘，除，取余注意：expr运算符间要有空格没有空格情况，linux默认按照字符进行处理[root@note01 ~]# expr 2+32+3正确写法[root@note01 ...

2019-10-08 23:48:39 368

原创 linux硬盘挂载

文章目录查看硬盘的详细信息格式化（#ext4创建文件系统）进行格式化创建对应的挂载目录挂载盘查看硬盘的详细信息fdisk -l 依次是①硬盘大小②硬盘分区信息③未使用的硬盘格式化（#ext4创建文件系统）进行格式化mke2fs -t ext4 /dev/sa1出现 Writing superblocks and filesystem accounting info...

2019-10-08 22:14:41 258

原创 shell的执行以及变量

文章目录解析器执行系统变量常用系统变量自定义变量特殊变量$n$#$*、$@$？解析器[root@note01 ~]# cat /etc/shells /bin/sh/bin/bash/sbin/nologin/bin/dash对于bash 与sh 的关系[root@note01 bin]# ll | grep bash-rwxr-xr-x. 1 root root 90487...

2019-10-07 23:35:10 659

原创 linux中正则表达式的语法

字符说明\将下一字符标记为特殊字符、文本、反向引用或八进制转义符。例如，“n"匹配字符"n”。"\n"匹配换行符。序列"\\“匹配”"，"\(“匹配”("。^匹配输入字符串开始的位置。如果设置了 RegExp 对象的 Multiline 属性，^ 还会与"\n"或"\r"之后的位置匹配。$匹配输入字符串结尾的位置。如果设置了 RegExp 对象的 Multil...

2019-10-06 22:54:00 575

原创 spark保存到外部数据源

文章目录保存为sequenceFile保存到HDFS保存到mysql保存为sequenceFilepackage writeimport org.apache.hadoop.io.compress.GzipCodecimport org.apache.spark.{SparkConf, SparkContext}object saveToSeq { def main(args: ...

2019-10-04 21:57:01 267

原创 spark读取外部数据源

文章目录读取json文件读取csv和tsv文件读取SequenceFile读取ObjectFile格式的数据读取hdfs中的数据(显式调用hadoopAPI)读取mysql中的数据读取json文件def main(args: Array[String]): Unit = { val conf = new SparkConf().setMaster("local[*]") ....

2019-10-04 00:03:18 756

张不帅