- 博客(33)
- 收藏
- 关注
原创 一文看懂hive中group by rollup/cube group by sets用法及区别(附案例)
一文看懂group by rollup/cube group by sets用法及区别(附案例)
2021-11-17 15:19:53 6066 5
原创 Scala(8)----集合详解详解(list,set,map,Array,元组等)
Scala集合Scala 集合分为可变的和不可变的集合。可变集合可以在适当的地方被更新或扩展。这意味着你可以修改,添加,移除一个集合的元素。不可变集合类永远不会改变。不过,你仍然可以模拟添加,移除或更新操作。但是这些操作将在每一种情况下都返回一个新的集合,同时使原来的集合不发生改变。List集合(列表)我们先来看List集合的定义(如何定义一个list集合) //定义一个字符串列表...
2019-07-30 11:00:33 967 1
原创 Scala(7)----数据类型详解
数据类型Scala的数据类型与Java的数据类型基本一致,Scala中的数据类型都是以大写开头,在Scala中数据类型都是对象,Scala中没有Java的原生类型Scala数据类型远比Java复杂,也正是这复杂的类型系统跟适合于函数式编程上图一些类型介绍整型整型常用的是Int,如果要用long类型,在値后面加上l或L字节型没什么好说的,就是短的整型浮点型如果浮点数后面...
2019-07-10 08:22:20 936
原创 Scala(6)----class与object关键字详解
class类的定义class Person(gender: String) { //辅构造函数 def this() = this("woman") var name = "" override def toString(): String = s"$name 's gender = $gender"}类的定义中可以有多个构造参数。 Scala中只有一个主要构造函数,...
2019-07-08 20:35:51 724 3
原创 Scala(5)----访问修饰符public/private/protected
1、public:public表明该数据成员、成员函数是对所有用户开放的,所有用户都可以直接进行调用2、private:private表示私有,私有的意思就是除了class自己之外,任何人都不可以直接使用,包括继承的。3、protected:protected对于自己的子类来说是可以调用的,仅仅可以调用,在子类中创建这个类的引用,也是无法使用protected修饰的成员,其他类更是无法使用...
2019-07-08 14:18:34 1025
原创 Scala(4)----package关键字详解
packagepackage的作用为:对多个同名的类进行命名空间的管理,避免同名类发生冲突类似与:scala.collection.mutable.Map和scala.collection.immutable.Map多层包结构串联包定义文件顶部直接定义,IDEA自动生成包package包的特性1.子包中的类,可以访问父包中的类2.相对包名和绝对包名3.定义包对象...
2019-07-08 14:07:39 2106
原创 Scala(3)----定义变量和常量
var定义一个变量语法 :var 变量名:数据类型 = 变量值 (数据类型可以省略,图示为省略的)val定义一个常量 相当于java中被final修饰的变量语法 :val 变量名:数据类型 = 变量值 (数据类型可以省略,图示为省略的)...
2019-07-08 14:06:12 2155
原创 Scala(2)----Hello World(Scala环境搭建,简单程序)
Scala环境搭建我们用的编程软件为Idea1.首先要安装jdk2.idea软件3.下载Scala插件可以在Idea中直接下载File——settings——plugins输入scala查找可以直接这个网址下载Scala插件找到上图黄色区域对应的版本下载,下载好后无需解压安装完成后,会提示你重启idea直接重新启动即可4.下载Scala环境(sdk类库):scala...
2019-07-07 17:48:28 225
原创 Scala(1)----初识Scala(Scala是什么,为什么学习Scala)
Scala是什么Scala是一种多范式的编程语言,其设计初衷是要集成面线对象编程和函数式编程(面向过程)的各种特性。Scala运行于java平台,并兼容现有的java程序Scala 源代码被编译成Java字节码,所以它可以运行于JVM之上,并可以调用现有的Java类库为什么要学习Scala1.Spark是专为大规模数据处理而设计的快速通用的计算引擎,是__大数据__在线计算的重要内容2...
2019-07-07 17:03:19 342
原创 hive表操作
删除数据库drop database database_name;如果报错 删除不掉是因为数据库中有表或是有自定义函数不能直接删除,查看官网删除数据库的语句是:hive> drop database tmp;DROP DATABASE StatementDROP (DATABASE|SCHEMA) [IF EXISTS] database_name [RESTRICT|CASC...
2019-06-23 20:12:22 110
原创 hive创建自定义函数
我们将写好的工程打成jar包上传到linux上在hive中添加包 add jar /opt/UDF.jar; 在hive中创建临时函数create temporary function yuki_upper as "com.yuki.udf.TestUdf";yuki_upper是自己的函数名称,这个是自己定义的com.yuki.udf.TestUdf是函数在jar包中...
2019-06-21 15:46:49 263
原创 hive分桶表详解
为什么要用分桶表?单个分区或者表中的数据量越来越大,当分区不能更细粒的划分数据时,所以会采用分桶技术将数据更细粒度的划分和管理分区提供了一个隔离数据和优化查询的便利的方式.但是当分区的数量过多时,会产生过多的小分区,这样会给namenode带来较大的压力.分桶是将数据集分解成更容易管理的若干部分的另一个技术.分桶的意义:1、为了保存分桶查询结果的分桶结构(数据已经按照分桶字段进行了hash...
2019-06-21 14:22:43 7877 1
原创 hive工作原理
hive的处理是基于hadoop之上的,hive处理数据是不能实现低延迟快速查询,而是有几分钟延迟,Hive是通过编写SQL语句或者是提交的请求,发送给dirver,然后dirver通过编译器将SQL语句解释成语法树,然后将语法树抽象成查询块,然后将查询块解释成逻辑查询计划,重写查询计划,最后将逻辑查询计划解释成物理计划(mapreduce)最终解释成MapReduce任务去执行。...
2019-06-20 07:24:19 900
原创 启动hadoop程序报错:Cannot create directory /tmp/hive. Name node is in safe mode
运行hadoop程序时报错org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.hdfs.server.namenode.SafeModeException): Cannot create directory /tmp/hive. Name node is in safe mode在分布式文件系统启动的时候,开始的时候NameNode...
2019-06-19 15:35:21 2020
原创 hive启动报错:Found class jline.Terminal, but interface was expected
是因为hadoop下老版本的jar包导致的需要将hive中jline-2.1…jar复制到hadoop/share/hadoop/yarn/lib下```/opt/software/hive-1.2.1/lib/jline-2.12.jar /opt/software/hadoop-2.6.5/share/hadoop/yarn/lib/```还需要将hadoop中原先的老ja...
2019-06-19 15:26:33 184
原创 zookeeper工作原理
zookeeper是一个分布式协调服务,安装zookeeper首先我们要配置zookeeper,我们需要三台或以上虚拟机(单数),修改配置文件zookeeper的配置文件conf下的配置文件进行修改将zoo_sample.cfg复制并更名为zoo.cfg.cp zoo_sample.cfg zoo.cfg修改zoo.cfg文件将标记蓝色的位置自定义路径,并且创建好目录,...
2019-06-19 06:46:58 174
原创 一个入门程序带你详解MapReduce工作原理
说到入门程序,我们一定会想到刚接触C或java时控制台输出的Hello world!在MapReduce中,入门级程序则是WordCount,计算每个单词出现的次数首先,我们要初步的了解他的工作原理我们创建测试数据 将它上传到HDFS 红框我的文件名 后面的路径是我HDFS上存储路径在eclipse上可以看到我们上传的数据上代码 请务必先看一遍源码,注释非常详细Jo...
2019-06-16 12:33:51 219
原创 MapReduce入门
初步了解MapReduce,我们想要知道它的工作原理,首先,MapReduce在Hadoop中是负责计算的单元,HDFS是存储单元,那么MapReduce就是计算HDFS上的数据,提取数据的价值。MapReduce分为两个比如现在HDFS中有1T的数据,他们是按照Blocak块的制定大小存储的Map 负责拆分数据数据现在Map中进行一个数据清洗,将垃圾数据清除掉,然后在做一次简单的...
2019-06-14 21:13:00 150
原创 org.apache.hadoop.hdfs.BlockMissingException: Could not obtain block: BP-1421546975-192.168.216.200-
这个错误就是NN与DN失联了,我的报错是在下载HDFS上的文件时报的错我的解决办法是 停掉集群重新启动再次执行命令 正常我这个一个是伪集群,如果全分布式的话有的结点DN起不来,那么就需要将所有结点下的/var/abc文件夹干掉,并重新 hdfs namenode -format 格式化...
2019-06-13 21:08:06 10309 5
原创 HDFS常用命令
前提是配置Hadoop的环境变量列出文件列表hdfs dfs -ls 列出所有文件hdfs dfs -ls /user 列出user目录下所有文件及文件夹ls 有三个参数 -d -h -R 无参数是列出’所有’文件,上传文件到HDFShdfs dfs -put <localsrc>.. <dst>hdfs dfs -put - hd...
2019-06-13 20:58:13 303 1
原创 2019.6.13学习小结
HDFS在Windows上的基础环境首先是环境变量HADOOP_HOME = hadoop的位置将这一个jar包导入eclipse下的plugins中这个是可以在eclipse中关联HDFS的插件Windows与HDFS建立连接,我们弄得是伪集群,首先得保证集群是启动的(1).(2).(3).(4). 这就是HDFS的文件管理...
2019-06-13 18:15:09 107
原创 Linux新虚拟机网络配置
一台新创建的虚拟机我们要将它投入到应用中,首先要配置一下网络可以看到我们新的虚拟机IP是没有设置的。配置虚拟机的IP地址修改/etc/sysconfig/network-scripts/ifcfg-eth0文件 vi /etc/sysconfig/network-scripts/ifcfg-eth0可以看到我们需要改很多地方还需要加上IP地址默认网关之类的ip地址...
2019-06-13 10:12:57 541 1
原创 Linux安装虚拟机
新建虚拟机选择典型选择稍后安装系统直接下一步输入自己的位置设置磁盘容量点击完成配置系统用vm安装CenterOS系统我们安装的是精简版,无图形化界面,DVD系统选择下载位置:https://pan.baidu.com/s/1hqFtImg开启虚拟机点击虚拟机, 进去用方向键加回车 点击第一个点击skip...
2019-06-13 07:32:05 192
原创 Linux安装JDK
将JDK上传到指定位置解压文件tar -zxvf jdk 全名配置环境变量:在 /etc/profile (系统变量)中配置环境变量export JAVA_HOME= JDK的绝对路径export PATH=$PATH:$JAVA_HOME/bin最后让环境变量生效source /etc/profile输入java -version出现版本信息 ...
2019-06-12 15:23:13 101
原创 Hadoop集群配置
Hadoop下载地址:http://mirror.bit.edu.cn/apache/hadoop/common/上传文件到虚拟机通过ftp软件连接虚拟机直接拖拽上传执行 yum install lrzsz -y 命令安装插件安装成功后可以使用’rz’命令可以将windows的文件直接上传到虚拟机中安装Hadoop前提是虚拟机安装了JDK,因为Hadoop是根据java...
2019-06-12 14:40:55 147
原创 Linux克隆机调整网络
在克隆后因为我们虚拟机的MAC地址没有改变,所有它会自动分配一个eth1来进行我们的网络配置,我们要做的是将我们的MAC地址删除掉,让他自动生成新的MAC地址。第一步:我们克隆后,需要改变虚拟机的主机名 就是这个 ↓在我们的 /etc/sysconfig/network 文件中可以更改主机名进入以后,有这玩意 ↓ HOSTNAME就是主机名,将它更改后一定要重启虚拟机才会生效...
2019-06-12 07:22:59 237
原创 SecondaryNamenode与持久化
SecondaryNamenode—持久化内存和磁盘内存: 容量小,价格高,速度快磁盘: 容量大,价格低,速度慢当设备断电时,内存中的数据会被释放掉,如果没有保存到磁盘上,将会造成损失比如编写的文档没有保存,突然断电,之前未保存的作业会消失。Hadoop集群的持久化NN(NameNode)掌握一批元数据 为了数据的安全需要将数据写到磁盘上 这种操作称为持久化但是NN不做持久化...
2019-06-11 21:29:12 164
原创 Hadoop中HDFS运行机制
大数据什么是大数据定义:在短时间内产生海量的有价值的真实信息(巨量数据集合)IBM公司提出5大特点:Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。Google关于大数据的三大论文论文Google File SystemGoogle BigtableGoogle MapReduce根据GFS 衍...
2019-06-10 21:22:03 325
原创 Linux入门基础
Linux1.数据流 标准输入(stdin) 可以用0表示 符号为< 标准输出(stdout) 可以用1表示 符号为> 标准错误(stderr) 可以用2表示 符号为 2> **改变数据的输出输入位置 ,这种方式称之为重定向** 是将数据以覆盖形式写入一个文件中ls /home myfile.log 将所有用户文...
2019-06-10 07:49:36 177 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人