如何写好一个hql 简介作为一个数据开发工程师,hive sql是我们必备的技能,好的hql语句让我们事半功倍。列裁剪所谓列裁剪就是在查询时只读取需要的列。以我们的日历记录表为例:#错误示范select *from user_info where age = 18#正确示范select uid ,uname ,sex from user_info where age = 18当列很多时,如果select * ,全列扫描效率很低。建议:不要图省事select *,应该进行列剪裁。分区裁
hive 基础知识及查询三 第 6 章 查询官方链接https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Select6.1 基本查询(Select…From)6.1.1 全表和特定列查询1)全表查询hive (default)> select * from emp;2)选择特定列查询hive (default)> select empno, ename from emp;注意:(1)SQL 语言大小写不敏感。(2)SQL
hive 基础知识及使用一 第 1 章 Hive 基本概念1.1 什么是 HiveHive:由 Facebook 开源用于解决海量结构化日志的数据统计。Hive :基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并 提供类 SQL 查询功能。本质是:将 HQL 转化成 MapReduce 程序。1)Hive 处理的数据存储在 HDFS2)Hive 分析数据底层的默认实现是 MapReduce3)执行程序运行在 Yarn 上1.2 Hive 的优缺点1.2.1 优点1)操作接口采用类
hive 基础知识及语法二 第 3 章 Hive 数据类型3.1 基本数据类型Hive 数据类型Java 数据类型长度例子TINYINTbyte1byte 有符号整数20SMALINTshort2byte 有符号整数20INTint4byte 有符号整数20BIGINTlong8byte 有符号整数20BOOLEANboolean布尔类型,true 或者 falseTRUE FALSEFLOATfloat单精度浮点数3.14159
impala 基础知识及使用 第1章 Impala的基本概念1.1 什么是ImpalaCloudera公司推出,提供对HDFS、HBase数据的高性能、低延迟的交互式SQL查询功能。基于Hive,使用内存计算,兼顾数据仓库、具有实时、批处理、多并发等优点。是CDH平台首选的PB级大数据实时查询分析引擎。1.2 Impala的优缺点1.2.1 优点1)基于内存运算,不需要把中间结果写入磁盘,省掉了大量的I/O开销。2)无需转换为Mapreduce,直接访问存储在HDFS,HBase中的数据进行作业调度,速度快。3)使用了
大数据面试题2 1.HDFS写文件流程1.客户端向NameNode发送写文件请求。2.NameNode检查是否已存在文件,检查客户端是否有写权限。若通过检查,在名称空间中创建一个新的文件。3.文件系统返回一个输出流对象(DFSOutputStream),客户端用于写数据。4.客户端将NameNode返回的分配的可写的DataNode列表和Data数据一同发送给最近的第一个DataNode节点,第一个节点将数据块发送给第二个节点,第二个节点将数据块发送给第三个节点。5.三个数据节点存储数据成功后会向客户端发送写入
大数据面试题1 1、hadoop:1)hadoop是大数据分析的完整生态系统,从数据采集,存储,分析,转运,再到页面展示,构成了整个流程2)采集可以用flume,3)存储用hbase,hdfs,mangodb就相当于hbase,4)分析用Mapreduce自己写算法,5)还有hive做数据仓库,6)pig做数据流处理,7)转储方面有sqoop,可以将hdfs中的数据转换存储到mysql,oracle等传统数据库,这就构成了一整套大数据分析的整个流程2、Hadoop 集群可以运行的 3 个模式分别是什么,
大数据面试题1 Hadoop生态一、HDFSHDFS的读写流程?HDFS中,NameNode与DataNode的作用?SecondaryNameNode的作用以及与NameNode的区别和联系?什么是集群安全模式?什么情况下会进入安全模式?以及安全模式的解决方法?为什么HDFS不适合小文件?HDFS支持的存储格式和压缩算法都有哪些?说说HDFS的可靠性策略HDFS的优缺点都有哪些?二、MapReduceMapReduce的执行流程(Yarn模式)?MapReduce的关键类有哪些?maper方
mysql 主备模式搭建过程 MySQL主备搭建1.主库配置以下所有操作均在主服务器上执行1)授权给从数据库服务器mysql>GRANT REPLICATION SLAVE ON *.* to '用户名'@'从数据库IP地址' identified by '密码';mysql>FLUSH PRIVILEGES;2)修改主库配置文件开启binlog,并设置server-id,每次修改配置文件后都要重启mysql服务才会生效vim /etc/my.cnf#同步的日志路径及文件名,一定注意这个目录要是mysql
shell脚本字符串截取的8种方法 #假设有变量 var=http://www.aaa.com/123.htm.1、#号截取,删除左边字符,保留右边字符echo ${var#*//}其中 var 是变量名,# 号是运算符,*// 表示从左边开始删除第一个 // 号及左边的所有字符即删除 http://结果是 :www.aaa.com/123.htm2、 ##号截取,删除左边字符,保留右边字符echo ${var##*/}##*/ 表示从左边开始删除最后(最右边)一个 / 号及左边的所有字符即删除 http://www.a