2018年10月_ZFH__ZJ

原创 3、案例实操

监控端口数据官方案例需求首先，Flume监控本机55566端口，然后通过telnet工具向本机55566端口发送消息，最后Flume将监听的数据实时显示在控制台分析通过telnet工具向本机的55566端口发送数据 Flume监控本机的55566端口，通过Flume的source端读取数据 Flume将获取的数据通过Sink端写出到控制台实现步骤安装telnet 在/o...

2018-10-31 23:05:00 1415

原创 2、Flume快速入门

Flume安装地址Flume官网地址http://flume.apache.org/ 文档查看地址http://flume.apache.org/FlumeUserGuide.html 下载地址http://archive.apache.org/dist/flume/安装部署将apache-flume-1.7.0-bin.tar.gz上传到linux的/opt/software目录下...

2018-10-23 16:46:00 1252

原创 1、Flume概述

Flume概念Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构，灵活简单下图展示了为什么要使用Flume 为什么使用Flume.png Flume最主要的作用就是，实时读取服务器本地磁盘的数据，将数据写入到HDFSFlume组成架构借用Flume官网的图，如下图 flume组成架构...

2018-10-23 15:06:00 1310

原创 10、实战

数据准备数据结构两张表，视频表和用户表字段备注详细描述 video id 视频唯一id 11位字符串 uploader 视频上传者上传视频的用户名String age 视频年龄视频在平台上的整数天 category 视频类别上传视频指定的视频分类 length 视频长度整形数字标识的...

2018-10-23 13:00:00 1327

Fetch 抓取Fetch抓取是指，Hive中对某些情况的查询可以不必使用MapReduce计算。例如：SELECT * FROM employees;在这种情况下，Hive可以简单地读取employee对应的存储目录下的文件，然后输出查询结果到控制台。在hive-default.xml.template文件中hive.fetch.task.conversion默认是more，老版本hive...

2018-10-22 14:23:00 1395

原创 8、压缩和存储

Hadoop 源码编译支持Snappy压缩资源准备CentOS联网配置CentOS能连接外网。Linux虚拟机ping www.baidu.com 是畅通的注意：采用root角色编译，减少文件夹权限出现问题 jar包准备(hadoop源码、JDK8 、maven、protobuf) （1）hadoop-2.7.2-src.tar.gz （2）jdk-8u144-linux-x...

2018-10-17 16:10:00 1252

原创 7、函数

系统内置函数查看系统自带的函数 show functions; 显示自带函数的用法 desc function year; 详细显示自带函数的用法 desc function extended year;自定义函数Hive 自带了一些函数，比如：max/min等，但是数量有限，自己可以通过自定义UDF来方便的扩展当Hive提供的内置函数无法满足你的业务处理需要时，此时就可以考...

2018-10-16 15:56:00 1242

原创 6、查询

查询基本语法[WITH CommonTableExpression (, CommonTableExpression)*] (Note: Only availablestarting with Hive 0.13.0)SELECT [ALL | DISTINCT] select_expr, select_expr, ...FROM table_reference[WHERE where_...

2018-10-15 17:42:00 1343

原创 5、DML数据操作

数据导入向表中装载数据(Load)语法load data [local] inpath '/opt/module/datas/student.txt' [overwrite] into table table_name [partition (partcol1=val1,…)];load data:表示加载数据 local:表示从本地加载数据到hive表（复制）；否则从HDFS加...

2018-10-11 15:20:00 1251

原创 4、DDL数据定义

创建数据库创建一个数据库，数据库在HDFS上的默认存储路径是/user/hive/warehouse/*.db。 hive (default)> create database mydatabase; 创建数据库.png 避免要创建的数据库已经存在错误，增加if not exists判断。 hive (default)> create databa...

2018-10-10 13:53:00 1438

原创 3、Hive基础

常用交互命令-e 不进入hive的交互窗口执行sql语句 hive -e "select * from student;" -f 执行脚本中的sql语句（1）. 创建hive.sql文件文件中正确输入sql语句 select * from student; （2）. 执行文件中的sql语句 hive -f hive.sql （3）. 将执行的结果追加到文件中 hive -...

2018-10-10 13:53:00 1286

原创 2、Hive安装

安装解压hive tar -zxvf apache-hive-1.2.1-bin.tar.gz -C /opt/module/ 重命名 mv apache-hive-1.2.1-bin/ hive 复制配置文件 cp hive-env.sh.template hive-env.sh 修改配置文件 export HADOOP_HOME=/opt/module/hadoop-2.8....

2018-10-10 13:52:00 1213

原创 1、Hive基本概念

什么是HiveHive，由Facebook开源用于解决海量结构化日志的数据统计，是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能，本质是将HQL转化成MapReduce程序下图，是HQL如果转化为MapReduce执行的过程 HQL转换成MapReduce.png 首先要明确几点Hive处理的数据存储在HDFS Hiv...

2018-10-10 13:52:00 1229

ZJ__ZFH的博客