学习小结
文章平均质量分 95
倪檬
一只想上天的猴子
展开
-
一文看懂hive中group by rollup/cube group by sets用法及区别(附案例)
一文看懂group by rollup/cube group by sets用法及区别(附案例)原创 2021-11-17 15:19:53 · 5520 阅读 · 5 评论 -
Scala(1)----初识Scala(Scala是什么,为什么学习Scala)
Scala是什么Scala是一种多范式的编程语言,其设计初衷是要集成面线对象编程和函数式编程(面向过程)的各种特性。Scala运行于java平台,并兼容现有的java程序Scala 源代码被编译成Java字节码,所以它可以运行于JVM之上,并可以调用现有的Java类库为什么要学习Scala1.Spark是专为大规模数据处理而设计的快速通用的计算引擎,是__大数据__在线计算的重要内容2...原创 2019-07-07 17:03:19 · 289 阅读 · 0 评论 -
Scala(2)----Hello World(Scala环境搭建,简单程序)
Scala环境搭建我们用的编程软件为Idea1.首先要安装jdk2.idea软件3.下载Scala插件可以在Idea中直接下载File——settings——plugins输入scala查找可以直接这个网址下载Scala插件找到上图黄色区域对应的版本下载,下载好后无需解压安装完成后,会提示你重启idea直接重新启动即可4.下载Scala环境(sdk类库):scala...原创 2019-07-07 17:48:28 · 198 阅读 · 0 评论 -
hive表操作
删除数据库drop database database_name;如果报错 删除不掉是因为数据库中有表或是有自定义函数不能直接删除,查看官网删除数据库的语句是:hive> drop database tmp;DROP DATABASE StatementDROP (DATABASE|SCHEMA) [IF EXISTS] database_name [RESTRICT|CASC...原创 2019-06-23 20:12:22 · 92 阅读 · 0 评论 -
Scala(3)----定义变量和常量
var定义一个变量语法 :var 变量名:数据类型 = 变量值 (数据类型可以省略,图示为省略的)val定义一个常量 相当于java中被final修饰的变量语法 :val 变量名:数据类型 = 变量值 (数据类型可以省略,图示为省略的)...原创 2019-07-08 14:06:12 · 2112 阅读 · 0 评论 -
Scala(4)----package关键字详解
packagepackage的作用为:对多个同名的类进行命名空间的管理,避免同名类发生冲突类似与:scala.collection.mutable.Map和scala.collection.immutable.Map多层包结构串联包定义文件顶部直接定义,IDEA自动生成包package包的特性1.子包中的类,可以访问父包中的类2.相对包名和绝对包名3.定义包对象...原创 2019-07-08 14:07:39 · 2001 阅读 · 0 评论 -
Scala(5)----访问修饰符public/private/protected
1、public:public表明该数据成员、成员函数是对所有用户开放的,所有用户都可以直接进行调用2、private:private表示私有,私有的意思就是除了class自己之外,任何人都不可以直接使用,包括继承的。3、protected:protected对于自己的子类来说是可以调用的,仅仅可以调用,在子类中创建这个类的引用,也是无法使用protected修饰的成员,其他类更是无法使用...原创 2019-07-08 14:18:34 · 994 阅读 · 0 评论 -
Scala(6)----class与object关键字详解
class类的定义class Person(gender: String) { //辅构造函数 def this() = this("woman") var name = "" override def toString(): String = s"$name 's gender = $gender"}类的定义中可以有多个构造参数。 Scala中只有一个主要构造函数,...原创 2019-07-08 20:35:51 · 637 阅读 · 3 评论 -
Scala(7)----数据类型详解
数据类型Scala的数据类型与Java的数据类型基本一致,Scala中的数据类型都是以大写开头,在Scala中数据类型都是对象,Scala中没有Java的原生类型Scala数据类型远比Java复杂,也正是这复杂的类型系统跟适合于函数式编程上图一些类型介绍整型整型常用的是Int,如果要用long类型,在値后面加上l或L字节型没什么好说的,就是短的整型浮点型如果浮点数后面...原创 2019-07-10 08:22:20 · 890 阅读 · 0 评论 -
Scala(8)----集合详解详解(list,set,map,Array,元组等)
Scala集合Scala 集合分为可变的和不可变的集合。可变集合可以在适当的地方被更新或扩展。这意味着你可以修改,添加,移除一个集合的元素。不可变集合类永远不会改变。不过,你仍然可以模拟添加,移除或更新操作。但是这些操作将在每一种情况下都返回一个新的集合,同时使原来的集合不发生改变。List集合(列表)我们先来看List集合的定义(如何定义一个list集合) //定义一个字符串列表...原创 2019-07-30 11:00:33 · 773 阅读 · 1 评论 -
SecondaryNamenode与持久化
SecondaryNamenode—持久化内存和磁盘内存: 容量小,价格高,速度快磁盘: 容量大,价格低,速度慢当设备断电时,内存中的数据会被释放掉,如果没有保存到磁盘上,将会造成损失比如编写的文档没有保存,突然断电,之前未保存的作业会消失。Hadoop集群的持久化NN(NameNode)掌握一批元数据 为了数据的安全需要将数据写到磁盘上 这种操作称为持久化但是NN不做持久化...原创 2019-06-11 21:29:12 · 121 阅读 · 0 评论 -
hive创建自定义函数
我们将写好的工程打成jar包上传到linux上在hive中添加包 add jar /opt/UDF.jar; 在hive中创建临时函数create temporary function yuki_upper as "com.yuki.udf.TestUdf";yuki_upper是自己的函数名称,这个是自己定义的com.yuki.udf.TestUdf是函数在jar包中...原创 2019-06-21 15:46:49 · 222 阅读 · 0 评论 -
2019.6.13学习小结
HDFS在Windows上的基础环境首先是环境变量HADOOP_HOME = hadoop的位置将这一个jar包导入eclipse下的plugins中这个是可以在eclipse中关联HDFS的插件Windows与HDFS建立连接,我们弄得是伪集群,首先得保证集群是启动的(1).(2).(3).(4). 这就是HDFS的文件管理...原创 2019-06-13 18:15:09 · 89 阅读 · 0 评论 -
zookeeper工作原理
zookeeper是一个分布式协调服务,安装zookeeper首先我们要配置zookeeper,我们需要三台或以上虚拟机(单数),修改配置文件zookeeper的配置文件conf下的配置文件进行修改将zoo_sample.cfg复制并更名为zoo.cfg.cp zoo_sample.cfg zoo.cfg修改zoo.cfg文件将标记蓝色的位置自定义路径,并且创建好目录,...原创 2019-06-19 06:46:58 · 150 阅读 · 0 评论 -
Linux入门基础
Linux1.数据流 标准输入(stdin) 可以用0表示 符号为< 标准输出(stdout) 可以用1表示 符号为> 标准错误(stderr) 可以用2表示 符号为 2> **改变数据的输出输入位置 ,这种方式称之为重定向** 是将数据以覆盖形式写入一个文件中ls /home myfile.log 将所有用户文...原创 2019-06-10 07:49:36 · 135 阅读 · 1 评论 -
MapReduce入门
初步了解MapReduce,我们想要知道它的工作原理,首先,MapReduce在Hadoop中是负责计算的单元,HDFS是存储单元,那么MapReduce就是计算HDFS上的数据,提取数据的价值。MapReduce分为两个比如现在HDFS中有1T的数据,他们是按照Blocak块的制定大小存储的Map 负责拆分数据数据现在Map中进行一个数据清洗,将垃圾数据清除掉,然后在做一次简单的...原创 2019-06-14 21:13:00 · 113 阅读 · 0 评论 -
hive工作原理
hive的处理是基于hadoop之上的,hive处理数据是不能实现低延迟快速查询,而是有几分钟延迟,Hive是通过编写SQL语句或者是提交的请求,发送给dirver,然后dirver通过编译器将SQL语句解释成语法树,然后将语法树抽象成查询块,然后将查询块解释成逻辑查询计划,重写查询计划,最后将逻辑查询计划解释成物理计划(mapreduce)最终解释成MapReduce任务去执行。...原创 2019-06-20 07:24:19 · 859 阅读 · 0 评论 -
一个入门程序带你详解MapReduce工作原理
说到入门程序,我们一定会想到刚接触C或java时控制台输出的Hello world!在MapReduce中,入门级程序则是WordCount,计算每个单词出现的次数首先,我们要初步的了解他的工作原理我们创建测试数据 将它上传到HDFS 红框我的文件名 后面的路径是我HDFS上存储路径在eclipse上可以看到我们上传的数据上代码 请务必先看一遍源码,注释非常详细Jo...原创 2019-06-16 12:33:51 · 195 阅读 · 0 评论 -
Hadoop中HDFS运行机制
大数据什么是大数据定义:在短时间内产生海量的有价值的真实信息(巨量数据集合)IBM公司提出5大特点:Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。Google关于大数据的三大论文论文Google File SystemGoogle BigtableGoogle MapReduce根据GFS 衍...原创 2019-06-10 21:22:03 · 292 阅读 · 0 评论 -
hive分桶表详解
为什么要用分桶表?单个分区或者表中的数据量越来越大,当分区不能更细粒的划分数据时,所以会采用分桶技术将数据更细粒度的划分和管理分区提供了一个隔离数据和优化查询的便利的方式.但是当分区的数量过多时,会产生过多的小分区,这样会给namenode带来较大的压力.分桶是将数据集分解成更容易管理的若干部分的另一个技术.分桶的意义:1、为了保存分桶查询结果的分桶结构(数据已经按照分桶字段进行了hash...原创 2019-06-21 14:22:43 · 7464 阅读 · 1 评论 -
Hadoop集群配置
Hadoop下载地址:http://mirror.bit.edu.cn/apache/hadoop/common/上传文件到虚拟机通过ftp软件连接虚拟机直接拖拽上传执行 yum install lrzsz -y 命令安装插件安装成功后可以使用’rz’命令可以将windows的文件直接上传到虚拟机中安装Hadoop前提是虚拟机安装了JDK,因为Hadoop是根据java...原创 2019-06-12 14:40:55 · 128 阅读 · 0 评论