大数据
文章平均质量分 72
没有眉毛的阿斗叶
在互联网行业苟延残喘的一条狗
展开
-
HIVE-用户自定义函数
HIVE-用户自定义函数前言更多往期文章请查看大数据学习目录当 Hive 提供的内置函数无法满足实际的业务处理需要时,可以考虑使用用户自定义函数进行扩展。用户自定义函数分为以下三类:UDF(User Defined Function)。用户自定义函数,一进一出UDAF(User Defined Aggregation Function)。用户自定义聚集函数,多进一出;类似于:count/max/minUDTF(User Defined Table-Generating Functions)原创 2021-04-25 22:22:28 · 695 阅读 · 4 评论 -
HQL窗口函数
HQL窗口函数前言更多往期文章请查看大数据学习目录窗口函数又名开窗函数,属于分析函数的一种。用于解决复杂报表统计需求的功能强大的函数,很多场景都需要用到。窗口函数用于计算基于组的某种聚合值,它和聚合函数的不同之处是:对于每个组返回多行,而聚合函数对于每个组只返回一行。窗口函数指定了分析函数工作的数据窗口大小,这个数据窗口大小可能会随着行的变化而变化。OVER关键字查询emp表工资总和select sum(sal) from emp;错误语法select ename, sal,原创 2021-04-25 20:30:46 · 759 阅读 · 0 评论 -
HQL 函数--系统内置函数
HQL 函数--系统内置函数前言更多往期文章请查看大数据学习目录查看系统自带函数show functions;显示自带函数的用法desc function upper; desc function extended upper;日期函数-- 当前前日期 select current_date;--获得当前时间,带时间的--建议使用current_timestamp,有没有括号都可以select unix_timestamp();select current_tim原创 2021-04-18 21:56:45 · 527 阅读 · 0 评论 -
HQL排序
HQL排序前言更多往期文章请查看大数据学习目录全局排序ORDER BYORDER BY执行全局排序,只有一个reduce;普通排序select * from emp order by deptno;按别名排序select empno, ename, job, mgr, sal + nvl(comm, 0) salcomm, deptno from emp order by salcomm desc;多列排序select empno, ename, job, mgr, sal +原创 2021-04-17 16:45:07 · 527 阅读 · 0 评论 -
HQL表连接
HQL表连接前言更多往期文章请查看大数据学习目录Hive支持通常的SQL JOIN语句,仅支持等值连接,不支持非等值连接。JOIN 语句中经常会使用表的别名。使用别名可以简化SQL语句的编写,使用表名前缀可以提高SQL的解析效率。连接查询操作分为两大类:内连接和外连接,而外连接可进一步细分为三种类型:内连接: [inner] join外连接 (outer join)- 左外连接。 left [outer] join,左表的数据全部显示- 右外连接。 right [outer] j.原创 2021-04-17 16:24:13 · 431 阅读 · 0 评论 -
HQL操作之--DQL命令
HQL操作之–DQL命令测试数据-- 测试数据 /opt/data/emp.dat7369,SMITH,CLERK,7902,2010-12-17,800,,20 7499,ALLEN,SALESMAN,7698,2011-02-20,1600,300,30 7521,WARD,SALESMAN,7698,2011-02-22,1250,500,30 7566,JONES,MANAGER,7839,2011-04-02,2975,,20 7654,MARTIN,SALESMAN,7698,2.原创 2021-04-14 22:23:52 · 188 阅读 · 0 评论 -
HQL(三)--数据导出
HQL(三)--数据导出前言前篇文章:Hive安装HQL入门(一)HQL入门(二)查询数据将数据导出到本地--导出本地模板insert overwrite local directory '/opt/data/tabC' select * from tabC;将查询结果格式化输出到本地insert overwrite local directory '/opt/data/tabC2' row format delimited fields terminated by '原创 2021-04-14 21:05:43 · 126 阅读 · 0 评论 -
HQL入门(二)
HQL入门--加载数据前沿查看hive和基本DDL语句可以查看之前文章Hive安装HQL入门(一)load命令加载数据准备工作-- 创建表 CREATE TABLE tabA ( id int ,name string ,area string ) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' ;--创建文件(/opt/data/sourceA.txt)1,fish1,SZ 2,fish2,SH3,fish3,HZ4,fish原创 2021-04-11 15:04:05 · 164 阅读 · 0 评论 -
HQL入门(一)
HQL入门(一)前言你已经安装了hive如果没有安装请看前一篇文章HIVE安装在linux131上启动hiveDDL语句DDL(data definition language): 主要的命令有CREATE、ALTER、DROP等。数据库操作创建数据库语法-- 创建数据库。添加备注,指定数据库在存放位置 create database if not exists mydb comment 'this is mydb' location '/user/hive/mydb.db原创 2021-04-08 00:07:37 · 247 阅读 · 0 评论 -
HIVE 安装
HIVE 安装HIVE 安装资源hive --apache-hive-2.3.7-bin.tar.gzmysql – mysql-5.7.26-1.el7.x86_64.rpm-bundle.tarmysql驱动 --mysql-connector-java-5.1.46.jar百度网盘地址链接: https://pan.baidu.com/s/15kKCXmu22ZDmnP4cBAEXBg 密码: vipa安装目录软件linux129linux130linux1原创 2021-04-07 21:04:10 · 102 阅读 · 0 评论 -
hadoop集群安装
hadoop集群安装前沿默认已经安装好三台虚拟机.虚拟机安装及集群配置可以参考之前的文章MacOS安装VMWare FusionMacOS通过VMWare Funsion 安装Centos7MacOs安装Centos后配置静态IPMacOs VMWare Fusion克隆Centos7安装部署目录框架linux129linux130linux131HDFSNameNode、 DataNodeDataNodeSecondaryNameNode、 DataNo原创 2021-04-05 16:16:51 · 125 阅读 · 0 评论 -
MacOs VMWare Fusion克隆Centos7
MacOs VMWare Fusion克隆Centos7前言默认你已完成Centos7的安装,没有安装完,可以参考文章MacOS通过VMWare Funsion 安装Centos7MacOs安装Centos后配置静态IP打开虚拟机资源库创建完整克隆创建前请关闭虚拟机.重命名虚拟机名字点击存储重复2次,建立三个虚拟机修改IPcd /etc/sysconfig/network-scripts/vim ifcfg-ens33 文件名字不一定一样,一般格式为ifcfg-en原创 2021-04-05 11:30:51 · 663 阅读 · 7 评论 -
MacOs VMWare Fusion安装Centos7后配置静态地址
MacOs VMWare Fusion安装Centos7后配置静态地址配置网络适配器Mac终端进入目录cd /Library/Preferences/VMware\ Fusion/vmnet8查看网关和子网掩码cat nat.conf注意其中2个信息,一个是网关,一个子网掩码查看ip范围cat dhcpd.conf子网范围就是172.16.128~172.16.128.254获取DNS网络偏好设置高级配置centos7 静态ip地址进入目录cd /et原创 2021-04-05 09:48:26 · 153 阅读 · 0 评论 -
MacOS通过VMWare Funsion 安装Centos7
MacOS通过VMWare Funsion 安装Centos安装VMWare Fusion 查看文章MacOS安装VMWare Fusion安装Centos7Centos版本CentOS-7-x86_64-DVD-2003 安装打开Vm选择从光盘或映像中安装将ISO拖到虚线框中选择传统BIOS自定义设置修改名字和存储位置,方便后面管理存储后会启动虚拟机,并且进入设置界面设置处理器和内存根据自己电脑需要设置内存和处理器内核数量设置硬盘我修改成30GB,默认是2原创 2021-04-04 23:48:59 · 263 阅读 · 0 评论 -
Macos虚拟机安装VMware Fusion
Macos虚拟机安装VMware Fusion下载VMware Fusion官网下载https://www.vmware.com/cn/products/fusion/fusion-evaluation.html百度网盘https://pan.baidu.com/s/1awAj8yd7zZuawVIdtLB9mw 提取码: 91w6安装VMWare Fusion双击点击图标开始安装安装是要求输入密码,输入密码即可同意协议输入密钥建议去官网购买或获取免费,免费教程不在这里记原创 2021-04-04 23:06:51 · 450 阅读 · 0 评论 -
大数据学习目录记录
持续更新中…………最新更新时间 2020-08-08一、Hadoop框架大数据简介Haddop简介Hadoop重要组成部分HDFS重要概念及架构IDEA创建项目对HDFS简单接口调用IDEA创建项目对HDFS接口使用进阶原创 2020-08-08 17:17:00 · 176 阅读 · 0 评论 -
RedisCluster扩容
已经有一篇文章写关于rediCluster的部署和启动RedisCluster的安装、部署这篇记录RedisCluster扩容一、创建新目录cd /var/redisCluster/创建新的7007文件mkdir 7007进入到redi安装目录;(/var/redis-5.0.5/src),执行一下命令make install PREFIX=/var/redisCluster/7007然后执行复制redis.confcp /var/redis-5.0.5/redis.conf /v原创 2020-08-07 00:21:28 · 159 阅读 · 0 评论 -
RedisCluster的安装、部署
前记:安装三个主服务器,三个从服务器。端口从7001-7006一、创建文件夹打开到/var下目录创建文件名为redisCluster文件夹mkdir redisCluster进入到redisCluster目录中cd redisCluster/创建7001文件夹mkdir 7001进入redis的安装目录,我这里是/var/redis-5.0.5/srccd /var/redis-5.0.5/src执行安装的到7001文件下make install PREFIX=/var/re原创 2020-08-06 23:21:23 · 184 阅读 · 0 评论 -
模块一:Hadoop核心框架(七)---用IDEA创建一个对hadoopAPI操作demo
上一篇已经对api做了一个简单的操作,这篇进阶操作一下。上一篇地址:模块一:Hadoop核心框架(六)—用IDEA创建一个对hadoopAPI简单操作项目创建hdfsClient2类为了方便测试使用,我们将Configuration和FileSystem定义了在外面。用@before和@after来初始化对象和关闭流。 private Configuration configuration; private FileSystem fileSystem; @Before原创 2020-07-04 22:54:46 · 192 阅读 · 0 评论 -
模块一:Hadoop核心框架(六)---用IDEA创建一个对hadoopAPI简单操作项目
创建一个新项目选择maven项目然后next输入项目名称(自定义)然后finish导入需要的jar包有hadoop-common ;hadoop-clieng ; hadoop-hdfs <!--hadoop common--> <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-common</a原创 2020-07-04 14:30:53 · 280 阅读 · 0 评论 -
模块一:Hadoop核心框架(五)----HDFS之重要概念
HDFS简介HDFS (全称:Hadoop Distribute File System,Hadoop 分布式文件系统)是 Hadoop 核心组成,是分布式存储服务。 分布式文件系统横跨多台计算机,在大数据时代有着广泛的应用前景,它们为存储和处理超大规模数据提供所需的扩展能力。 HDFS是分布式文件系统中的一种HDFS的重要概念典型的Master/Slave架构:HDFS 的架构是典型的 Master/Slave 结构。HDFS集群往往是一个NameNode(HA架构会有两个NameN原创 2020-07-04 12:48:51 · 306 阅读 · 0 评论 -
模块一:Hadoop核心框架(四)----Apache Hadoop的重要组成部分
Hadopp=HDFS+MapReduce+Yarn+Common1.Hadoop HDFS: 一个高可用、高吞吐量的分布式文件系统。数据切割、制作副本、分散存储图中涉及到几个角色NameNode(nn):存储文件的原数据,比如文件名、文件目录结构、文件属性(生产时间、副本数、文件权限),以及每个文件的块列表和块所在的DataNode等。SecondaryNameNode(2nn):辅助NameNode更好的工作,用来监控HDFS状态的辅助后台程序,每隔一段时间获取HDFS状态的辅助后台程序,每原创 2020-06-30 21:13:20 · 254 阅读 · 0 评论 -
模块一:Hadoop核心框架(三)----Hadoop简介
Hadoop特点扩容能力:在计算机集群内分配数据并完成计算任务,集群可以方便的扩展到数以千计个节点。低成本:通过普通廉价的机器组成服务器集群来分发以及处理数据,以至于成本很低。高效率:可以在节点之间动态并行的移动数据,使得速度非常快。可靠性:能自动维护数据的多份复制,并且在任务失败后能自动的重新部署(redeploy)计算任务。Hadoop的发行版本Apache Hadoop 原始版本:–学习使用软件发行版本:ClouderaManager CDH 版本–生产环境免费开源版本Horyo原创 2020-06-30 20:22:40 · 155 阅读 · 0 评论 -
模块一:Hadoop核心框架(二)----大数据简介
大数据定义大数据值在一定范围内无法用传统的软件工具分析处理的数据,需要用新处理模式才能有更强的决策力、洞察发现力和流程优化能力的海量和多样化的信息资产。大数据的特点大数据应用场景仓储物流电商网站智慧城市双十一销售额实时无人驾驶汽车……...原创 2020-06-29 23:52:29 · 103 阅读 · 0 评论 -
模块一:Hadoop核心框架(一)----前文
四年非大数据开发工作经验,考虑职业规划,开始学习大数据,在这里做下博客,记录学习笔记。这里是模块一的内容:主要讲解Hadoop框架,后面开始记录具体组件内容大数据简介Hadoop框架大数据技术解决什么问题?主要解决是海量存储和计算。常说的Hadoop有狭义和广义之分狭义:指的是一个框架:由三部分组成广义:不仅仅是Hadoop,还包括其他辅助框架:...原创 2020-06-29 23:40:12 · 129 阅读 · 0 评论