Database
文章平均质量分 66
¥程序猿¥
北漂程序员,愿不辜负自己。
展开
-
Mysql语言的分类
Mysql语言的分类原创 2022-08-02 14:53:49 · 362 阅读 · 1 评论 -
ClickHouse日期函数
ClickHouse原创 2022-08-02 10:00:59 · 5310 阅读 · 0 评论 -
hive获取今天/明天/昨天时间
hive获取今天/明天/昨天时间。原创 2022-08-02 09:44:56 · 5994 阅读 · 0 评论 -
lag()函数 lead()函数
开窗函数原创 2022-07-11 17:39:22 · 7236 阅读 · 0 评论 -
HIVE中的OVER函数解析
over函数解析原创 2022-07-10 16:49:40 · 920 阅读 · 0 评论 -
hive 常用正则表达式
hive常用正正则表达式原创 2022-07-08 14:32:45 · 3605 阅读 · 0 评论 -
python获取本周周一或周末日期
python获取本周一或周末日期原创 2022-07-08 14:24:57 · 2839 阅读 · 0 评论 -
MYSQL实现开窗函数
MYSQL实现排名函数原创 2022-06-26 10:28:39 · 178 阅读 · 0 评论 -
MySQL开窗函数
sql必须掌握的技能原创 2022-06-25 10:29:17 · 1131 阅读 · 0 评论 -
如何写好一个hql
简介作为一个数据开发工程师,hive sql是我们必备的技能,好的hql语句让我们事半功倍。列裁剪所谓列裁剪就是在查询时只读取需要的列。以我们的日历记录表为例:#错误示范select *from user_info where age = 18#正确示范select uid ,uname ,sex from user_info where age = 18当列很多时,如果select * ,全列扫描效率很低。建议:不要图省事select *,应该进行列剪裁。分区裁原创 2021-10-21 14:09:45 · 1018 阅读 · 0 评论 -
hive 基础知识及查询三
第 6 章 查询官方链接https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Select6.1 基本查询(Select…From)6.1.1 全表和特定列查询1)全表查询hive (default)> select * from emp;2)选择特定列查询hive (default)> select empno, ename from emp;注意:(1)SQL 语言大小写不敏感。(2)SQL原创 2021-10-02 10:27:00 · 443 阅读 · 0 评论 -
hive 基础知识及使用一
第 1 章 Hive 基本概念1.1 什么是 HiveHive:由 Facebook 开源用于解决海量结构化日志的数据统计。Hive :基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并 提供类 SQL 查询功能。本质是:将 HQL 转化成 MapReduce 程序。1)Hive 处理的数据存储在 HDFS2)Hive 分析数据底层的默认实现是 MapReduce3)执行程序运行在 Yarn 上1.2 Hive 的优缺点1.2.1 优点1)操作接口采用类原创 2021-10-02 09:11:23 · 429 阅读 · 0 评论 -
hive 基础知识及语法二
第 3 章 Hive 数据类型3.1 基本数据类型Hive 数据类型Java 数据类型长度例子TINYINTbyte1byte 有符号整数20SMALINTshort2byte 有符号整数20INTint4byte 有符号整数20BIGINTlong8byte 有符号整数20BOOLEANboolean布尔类型,true 或者 falseTRUE FALSEFLOATfloat单精度浮点数3.14159原创 2021-09-22 11:48:55 · 590 阅读 · 0 评论 -
impala 基础知识及使用
第1章 Impala的基本概念1.1 什么是ImpalaCloudera公司推出,提供对HDFS、HBase数据的高性能、低延迟的交互式SQL查询功能。基于Hive,使用内存计算,兼顾数据仓库、具有实时、批处理、多并发等优点。是CDH平台首选的PB级大数据实时查询分析引擎。1.2 Impala的优缺点1.2.1 优点1)基于内存运算,不需要把中间结果写入磁盘,省掉了大量的I/O开销。2)无需转换为Mapreduce,直接访问存储在HDFS,HBase中的数据进行作业调度,速度快。3)使用了原创 2021-09-19 08:24:56 · 3672 阅读 · 0 评论 -
大数据面试题2
1.HDFS写文件流程1.客户端向NameNode发送写文件请求。2.NameNode检查是否已存在文件,检查客户端是否有写权限。若通过检查,在名称空间中创建一个新的文件。3.文件系统返回一个输出流对象(DFSOutputStream),客户端用于写数据。4.客户端将NameNode返回的分配的可写的DataNode列表和Data数据一同发送给最近的第一个DataNode节点,第一个节点将数据块发送给第二个节点,第二个节点将数据块发送给第三个节点。5.三个数据节点存储数据成功后会向客户端发送写入原创 2021-03-01 21:52:20 · 7617 阅读 · 7 评论 -
大数据面试题1
1、hadoop:1)hadoop是大数据分析的完整生态系统,从数据采集,存储,分析,转运,再到页面展示,构成了整个流程2)采集可以用flume,3)存储用hbase,hdfs,mangodb就相当于hbase,4)分析用Mapreduce自己写算法,5)还有hive做数据仓库,6)pig做数据流处理,7)转储方面有sqoop,可以将hdfs中的数据转换存储到mysql,oracle等传统数据库,这就构成了一整套大数据分析的整个流程2、Hadoop 集群可以运行的 3 个模式分别是什么,原创 2021-03-01 21:24:17 · 199 阅读 · 0 评论 -
大数据面试题1
Hadoop生态一、HDFSHDFS的读写流程?HDFS中,NameNode与DataNode的作用?SecondaryNameNode的作用以及与NameNode的区别和联系?什么是集群安全模式?什么情况下会进入安全模式?以及安全模式的解决方法?为什么HDFS不适合小文件?HDFS支持的存储格式和压缩算法都有哪些?说说HDFS的可靠性策略HDFS的优缺点都有哪些?二、MapReduceMapReduce的执行流程(Yarn模式)?MapReduce的关键类有哪些?maper方原创 2021-03-01 21:20:09 · 170 阅读 · 0 评论 -
mysql 主备模式搭建过程
MySQL主备搭建1.主库配置以下所有操作均在主服务器上执行1)授权给从数据库服务器mysql>GRANT REPLICATION SLAVE ON *.* to '用户名'@'从数据库IP地址' identified by '密码';mysql>FLUSH PRIVILEGES;2)修改主库配置文件开启binlog,并设置server-id,每次修改配置文件后都要重启mysql服务才会生效vim /etc/my.cnf#同步的日志路径及文件名,一定注意这个目录要是mysql原创 2021-01-27 10:45:41 · 749 阅读 · 3 评论 -
shell脚本字符串截取的8种方法
#假设有变量 var=http://www.aaa.com/123.htm.1、#号截取,删除左边字符,保留右边字符echo ${var#*//}其中 var 是变量名,# 号是运算符,*// 表示从左边开始删除第一个 // 号及左边的所有字符即删除 http://结果是 :www.aaa.com/123.htm2、 ##号截取,删除左边字符,保留右边字符echo ${var##*/}##*/ 表示从左边开始删除最后(最右边)一个 / 号及左边的所有字符即删除 http://www.a原创 2021-01-20 14:32:53 · 262 阅读 · 0 评论 -
第一篇:数据仓库概述
阅读目录前言数据库的"分家"操作型数据库 VS 分析型数据库数据仓库(data warehouse)定义聪明的读者应该已经意识到这个问题:既然分析型数据库中的操作都是查询,因此也就不需要严格满足完整性/参照性约束以及范式设计要求,而这些却正是关系数据库精华所在。这样的情况下再将它归为数据库会很容易引起大家混淆,毕竟在绝大多数人心里数据库是可以关系型数据库画上等号的。数据仓库组件数据集市(data mart)数据仓库开发流程小结前言阅读本文前,请先回答下面两个问题:1.数据库和数据仓库有什么区别?2.原创 2021-01-17 10:35:17 · 223 阅读 · 0 评论 -
第二篇:数据仓库与数据集市建模
阅读目录前言维度建模的基本概念维度建模的三种模式实例:零售公司销售主题的维度建模更多可能的事实属性经典星座模型缓慢变化维度问题数据仓库建模体系之规范化数据仓库数据仓库建模体系之维度建模数据仓库数据仓库建模体系之独立数据集市三种数据仓库建模体系对比小结前言数据仓库建模包含了几种数据建模技术,除了之前在数据库系列中介绍过的ER建模和关系建模,还包括专门针对数据仓库的维度建模技术。本文将详细介绍数据仓库维度建模技术,并重点讨论三种基于ER建模/关系建模/维度建模的数据仓库总体建模体系:规范化数据仓库,维度原创 2021-01-17 09:46:05 · 608 阅读 · 0 评论 -
hive数据倾斜解决方法
Hive的过程中经常会碰到数据倾斜问题,数据倾斜基本都发生在group、join等需要数据shuffle的操作中,这些过程需要按照key值进行数据汇集处理,如果key值过于集中,在汇集过程中大部分数据汇集到一台机器上,这就会导致数据倾斜。具体表现为:作业经常reduce完成在99%后一直卡住,最后的1%花了几个小时都没有跑完。常见产生数据倾斜的原因:空值产生的数据倾斜不同数据类型关联产生的数据倾斜关联的key非空,但是某个key值大量重复distinct、count(distinct)1、原创 2021-01-13 20:24:42 · 214 阅读 · 0 评论 -
Linux安装MySQL标准教程
1、前置准备1)查看rpm包 rpm -qa|grep mysql 若有可用rpm -e卸载2)查找mysql残留包,有则删除,没有则忽略 find / -name mysql3)安装相关依赖 yum -y install make gcc-c++ cmake bison-devel ncurses-devel numactl libaio4)创建用户和用户组groupadd mysqluseradd -s /sbin/nologin -g mysql -M mysql2、原创 2021-01-12 16:47:25 · 91 阅读 · 0 评论 -
linux安装、卸载jdk及配置环境变量
一、前言在linux系统部署程序时,一般都需要安装JDK,安装JDK比较简单,稍微麻烦一点的是配置环境变量,而linux是可以根据不同的用户配置不同的jdk,也可以配置所有用户统一JDK二、查看Jdk的安装路径[root@centos76 ~]# whereis java(用来查看一个命令或者文件所在的路径)[root@centos76 ~]# which java (用来查看当前要执行的命令所在的路径)[root@centos76 ~]# echo $JAVA_HOME[root@cento原创 2021-01-12 14:09:47 · 453 阅读 · 1 评论 -
虚拟机ping不通百度的解决办法
注意本文提出的问题的前提条件是:主机和虚拟机互相能ping通,主机能ping通外网,虚拟机不能ping通外网。解决办法出现这个问题,很可能是你的网关设置错误了,首先执行cat /etc/sysconfig/network-scripts/ifcfg-eth0命令查看网络配置信息。我的是:DEVICE=eth0HWADDR=00:0C:29:B1:2B:81TYPE=EthernetUUID=e576efc7-0d53-4c30-b32c-494c9880ac28ONBOOT=yes原创 2021-01-11 19:44:42 · 15298 阅读 · 2 评论 -
Mysql数据库常见面试题
阅读指南1.事务四大特性2.数据库隔离级别一级目录一级目录一级目录一级目录一级目录1.事务四大特性 1、原子性(Atomicity):事务开始后所有操作,要么全部做完,要么全部不做,不可能停滞在中间环节。事务执行过程中出错,会回滚到事务开始前的状态,所有的操作就像没有发生一样。也就是说事务是一个不可分割的整体,就像化学中学过的原子,是物质构成的基本单位。 2、一致性(Consistency):事务开始前和结束后,数据库的完整性约束没有被破坏 。比如A向B转账,不可能A扣了钱,B却没收到。原创 2021-01-10 10:29:02 · 840 阅读 · 0 评论 -
sftp常用命令介绍
sftp是Secure FileTransferProtocol的缩写,安全文件传送协议。可以为传输文件提供一种安全的加密方法。sftp与 ftp有着几乎一样的语法和功能。SFTP为 SSH的一部分,是一种传输档案至Blogger伺服器的安全方式。其实在SSH软件包中,已经包含了一个叫作SFTP(Secure File TransferProtocol)的安全文件传输子系统,SFTP本身没有单独的守护进程,它必须使用sshd守护进程(端口号默认是22)来完成相应的连接操作,所以从某种意义上来说,SFTP并不原创 2021-01-10 09:08:28 · 1643 阅读 · 0 评论