自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(36)
  • 收藏
  • 关注

原创 Map的遍历方式

Map的遍历方式

2022-09-22 17:35:06 164 1

原创 HBASE

Client访问用户数据之前需要首先访问zookeeper,然后访问-ROOT-(hbase:namespace)表,接着访问.META.(hbase:meta)表,最后才能找到用户数据的位置去访问(0.98 版本后没有 -ROOT- 这步)Region是Hbase表的基础单元组件,存储了分布式表。(0.98 版本后弃用)-ROOT-(hbase:namespace) :记录了.META.(hbase:meta)表的Region信息,-ROOT-(hbase:namespace)只有一个region。...

2022-08-18 21:43:36 1007

原创 Kafka 基础

Kafka最早是linkedin公司用于日志处理的分布式消息队列。现在它的功能远不止消息队列这么简单。根据的定义,。

2022-08-17 21:22:55 412

原创 Spark Core

Spark Application 的概念和 MapReduce 中的 job 或者 yarn 中的。Executor 即为 spark 概念的资源容器,类比于 yarn 的 container 容。ShuffleMapTask:即为 Map 任务和发生 Shuffle 的任务的操作,由。4、spark-class:最低层的调用方式,其它调用方式多是最终转化到该方式中去提交。MapReduce 算子,主要分为两个,即为 Map 和 Reduce 两个主要操作的。...

2022-08-10 20:54:11 99

原创 scala 高级

o 旨在解决符合一定模式(值也是模式的一种)情况下的匹配与处。apply 与 unapply 方法是互反的,apply 用于构造一个对象,而不。异常处理机制与 Java 语言相似,其异常类也采用了 Java 类,并。抛出异常用 throw,声明可能的异常与 Java 不同,采用的注解式。方法的反向操作:unapply 接受一个对象,然后从对象中提取。捕获异常,采用的 try...catch 的模式匹配的形式。提取器是从传递给它的对象中提取出构造该对象的参数。值,提取的值通常是用来构造该对象的值。...

2022-08-10 20:51:13 65

原创 scala集合

o 通过 foreach 循环输出 Map 中的 keys 和 values: o 使用 Map.contains 方法来查看 Map 中是否存在指定的 Key。o 使用++运算符或 Map.++()方法来连接两个 Map,Map 合并时会移。该集合与 Java 中的集合类似,只是 scala 重新实现了自身的集合。 默认使用的不可变 Map,可变的 Map 需要使用 import。it.next() 会返回迭代器的下一个元素,并且更新迭代器。类似于数组,要求所有元素的类型都相同,通过范型来。...

2022-08-09 21:15:19 75

原创 scala 10种函数高级应用

 传值调用:先计算参数表达式的值,再应用到函数内部, 传名调用:将未计算的参数表达式直接应用到函数内部,实现方法:绑定函数的一部分参数,非绑定部分用"_"代。第一种:将一个函数当做另外一个函数的参数,即参数为。第二种:返回值是函数的函数,即高阶函数可以产生函数。函数内定义函数,定义在函数内的函数称之为局部函数,不需要提供函数需要的所有参数,只需要提供部分,或不。将原来接受两个参数的函数变成新的接受一个参数的函数。新的函数返回一个以原有第二个参数为参数的函。3)可变(不定长)参数的函数。...

2022-08-09 21:05:19 77

原创 scala 基础篇

与 Java 相似部分(皆为对象类型,scala 无原生数据类型)Byte,Short,Int,Long,Float,Double,Char,String,Boolean。o 主程序入口:def main(args: Array[String]) ,scala 若要独立运行。在 Scala 中,字符串的类型实际上是 Java String,它本身没有。o 方法名称:首字母小写,从第 2 个单词开启的首字段大写,如。o 程序文件名:保持与类名或对象名一致,区分大小写,以。无自增自减,其余和java相同。...

2022-08-08 17:44:16 170

原创 Hive 企业应用

●该阶段系统主要是按照一定的数据模型,对整个企业的数据进行采集,整理,并且能够按照各个业务部门的需要,提供跨部门的,完全一致的业务报表数据,能够通过数据仓库生成对对业务具有指导性的数据,同时,为领导决策提供全面的数据支持。●该阶段系统主要是根据某个业务部门的需要,进行一定的数据的采集,整理,按照业务人员的需要,进行多维报表的展现,能够提供对特定业务指导的数据,并且能够提供特定的领导决策数据。(即对数据集分块,如第1块,第2块等),不均匀的时候,依次增加前边分片序列的数量。如1,2,3,4.......

2022-07-28 21:44:28 70

原创 Hive自定义函数

函数扩展得到解决,极大丰富了可定制化的业务需求。在hive中执行addjar操作,将jar加载到classpath中。在hive中创建模板函数,使得后边可以使用该函数名称调用实际的udf函数。一.UDF(userdefinedfunction)hivesql中像调用系统函数一样使用udaf函数。加载jar包(输入hive进入到hivecli)将jar包加入hive交互中。...

2022-07-27 21:12:26 125

原创 Hive基础应用

partitionedby(come_datestringcomment'按入学年份分区')classnamestringcomment'班级名称'usernamestringcomment'姓名',classidintcomment'班级id',以左表为主,将左表数据全部保留,右表没有关联上数据字段置成NULL。以右表为主,将右表数据全部保留,左表没有关联上数据字段置成NULL。idstringcomment'学号',压缩格式按其可切分独立性,分成可切分和不可切分两种。...

2022-07-26 21:47:06 434

原创 Hive架构设计原理

2.直接输入hive回车,进入hive。4.查看数据库中所有表。1.切换到可以操作hive的用户。1.Hive运行流程详解。2.Hive基本使用。

2022-07-25 17:43:46 872

原创 Hive概述

一个面向主题的(SubjectOriented)、集成的(Integrate)、不可修改的(Non-Volatile)、反映历史变化(TimeVariant)的数据集合,用于数据分析、辅助管理决策。数据仓库的出现,并不是要取代数据库,且当下大部分数据仓库还是用关系数据库管理系统来管理的,即数据库、数据仓库相辅相成、各有千秋。数据库是为捕获数据而设计,即实时性强吞吐量弱,数据仓库是为分析数据而设计,即吞吐量强实时性弱。数据库是面向事务的设计,数据仓库是面向主题设计的。...

2022-07-25 17:24:55 47

原创 分布式资源管理与任务调度框架Yarn

为了克服集中式调度器的不足,双层调度器是一种很容易被想到的解决之道,它可看作是一种分而治之的机制或者是策略下放机制双层调度器仍保留一个精简化的集中式资源调度器,但具体任务相关的调度策略则下放到各个应用程序调度器完成。无法控制用户的资源使用,大的应用可能会占用所有集群资源,导致其他应用被阻塞,造成集群的可用性差,所以不适用于共享集群。允许多用户共享整个集群,每个用户或组织分配专门的队列,不支持抢占式。默认的调度策略,把用户提交的作业顺序排成一个队列,所有用户共享,是一个先进先出的队列。...

2022-07-23 20:54:48 194

原创 MapReduce进阶

不可切分.gz原生.snappy不是原生。面向行.txt可切分.seq可切分。面向列.rc可切分.orc可切分。可切分.lzo原生.bz2原生。1.3设置输出格式为gzip。指定partition类。2.自定义Partition。1.HDFS数据格式详解。

2022-07-22 21:20:59 78

原创 MapReduce Java API应用

基于MapReduce框架编写代码,Map、Reduce、Driver三部分组成。运行hadoopjar命令,现已由yarnjar替代,建议使用新命令提交执行。使用Maven命令,基于配置的Maven插件实现代码打包。编译打包,将源代码打成的包和依赖jar包打成一个包。搭建开发环境,参考HDFS环境搭建,基本一致。使用rz命令将打好的运行包上传到集群环境中。通过yarnwebui查看执行过程。1、MapReduce开发流程。...

2022-07-21 21:39:13 521

原创 分布式计算框架Map/Reduce

等用空格字符分隔的字符串,通过使用MapReduce计算框架来统计以空格分隔的每个单词出现的频率,输出结果如,,形式的结果到HDFS目录中。分布可靠,对数据集的操作分发给集群中的多个节点实现可靠性,每个节点周期性返回它完成的任务和最新状态。5)master调度worker执行reduce任务,reduceworker读取map任务的输出文件。通常我们把从Mapper阶段输出数据到Reduce阶段的reduce计算之间的过程称之为shuffle。提供跨语言编程的能力。...

2022-07-21 21:32:19 270

原创 HDFS Java API 案例

本地新建文件index.txt,写入“HelloWorldHadoop”内容,上传至HDFS文件系统的/tmp/tianliangedu/input.txt文件中。hdfsdfs-copyFromLocalindex.txt/tmp/tianliangedu/input.txt。通过rz命令,将生成的TlHadoopCore-jar-with-dependencies.jar上传到hdfs环境中。从hdfs文件/tmp/tianliangedu/input.txt中读取其文本内容,并打印出来。...

2022-07-20 22:08:06 185

原创 分布式文件系统HDFS&常用命令

HDFS支持大文件存储,典型的文件在GB甚至TB级别,可以支持数以千万计的大规模数据集。创建文件在/tmp目录中创建空文件HelloWorld.txthdfsdfs-touchz/tmp/HelloWorld.txt。由于HDFS支持大文件存储,对于大文件来说,移动计算比移动数据的代价要低。查看hdfs中目录/user/zhangs中文件占用磁盘大小hdfsdfs-du-h/user/zhangs。查看某文本文件的内容hdfsdfs-cat/tmp/index.html。......

2022-07-20 21:32:32 555

原创 初识Hadoop(核心组件与应用)

核心组件包括Hadoop的基础组件HDFS、MapReduce和Yarn,以及其他常用组件如HBase、Hive、HadoopStreaming、Zookeeper等。解决数据仓库构建问题,基于Hadoop平台的存储与计算,与传统SQL相结合,让熟悉SQL的编程人员轻松向Hadoop平台迁移。Streaming解决非Java开发人员使用Hadoop平台的语言问题,使各种语言如C++、python、shell等均可以无障碍使用Hadoop平台。HBase基于列式存储模型的分布式数据库。...

2022-07-19 19:34:46 1526

原创 Redis 主从复制&哨兵模式

哨兵模式即能够在后台监控主库如果出现故障,则根据投票自动从从库中选择新的主库,并且其他从库以新的主库为master。sentinelmonitor被监控数据库名称(自定义)被监控数据库ip地址被监控数据库端口号票数,表示当被监控的数据库出现故障后,自动从从库中投票,从库达到指定票数后则变成其他从库的新主库。主库数据更新后根据配置和策略,自动同步到从库(备份机)的master/slaver机制,master(主库)以写为主,slave(从库)以读为主。79分别为80和81的主库(一主二从)...

2022-07-19 18:00:07 238

原创 Redis删除策略和淘汰策略

来的问题,Redis引入了定期删除策略(是他们的一个比较折中的方案)周期性轮询Redis库中的时效性数据,采取随机抽取的策略,利用过期数据占比的方式控制删除频度。实际上,在前面所说的删除策略,它针对的是expire命令进行的操作,也就是说那些具有时效性的数据(已经过期,并且还在占用内存的数据),我们在这里说的是针对那些并没有过期,或者是内存中的数据没有一个带有有效期,全是永久性数据,这时候删除策略就不起作用了,所以这个时候内存满了我们再去插入数据到内存是怎么做?删除这批key中已过期的。......

2022-07-18 20:13:08 1576

原创 Jedis

1.2开放redis服务端口(不推荐关闭防火墙,开放端需要重启防火墙)Jedis是Redis官方推荐的Java连接开发工具。

2022-07-18 19:53:06 1758

原创 Redis持久化(RDB & AOF)

Fork的时候,内存中的数据被克隆了一份,大致2倍的膨胀性需要考虑。执行flushall命令,也会产生dump.rdb文件,但里面是空的,无意义。Aof运行效率要慢于rdb,每秒同步策略效率较好,不同步效率和rdb相同。以日志的形式来记录每个写操作,将Redis执行过的所有写指令记录下来(读操作。相同数据集的数据而言aof文件要远大于rdb文件,恢复速度慢于rdb。在指定的时间间隔内将内存中的数据快照写入磁盘,恢复时将快照文件直接读到内存里。...

2022-07-18 17:35:59 43

原创 Redis常用命令&五大数据类型

lrange----获取指定长度lrangel10-1获取list01中的所有值。lpush----从左边插入数据lpushl112345倒序排列。ltrim----开始index结束index,截取指定范围的值后在赋值给key。lindex----按照索引获取元素lindexl12获取元素3。rpoplpushl1l2----将l1中最后一个压入l2中第一位。............

2022-07-17 20:34:14 181

原创 NoSQL概述

MongoDB是一个基于分布式文件存储的数据库,C++编写,主要用来处理大量文档,Redis也是,不过是单线程的。MongoDB是一个基于关系型数据库和非关系型数据库的中间产品,是非关系型数据库中功能最丰富,也是最像关系型数据库的。NoSQL,泛指非关系型的数据库。不是用来放图片的,而是用来放关系的,主要用来做社交网络,推荐系统等,比如社交拓扑图。4数据类型是多样型的,5种常用,3种特色(不需要事先设计数据库,随取随用)支持键值对存储,列存储,文档存储,图形数据库(比如社交关系)...

2022-07-15 18:06:36 504

原创 ■ 针对spring boot部署流程

■java-jar-Dserver.port=8080jar包。■查看tail-90fnohup.out。○jar包同目录下创建config的目录。■这里添加的配置文件优先级更高。○日志会输出到nohup.out里。○java-jarjar包。■针对springboot部署流程。○nohup命令&○kill-9进程id。...

2022-07-14 19:55:28 179

原创 .sh脚本编写

bin/bash指定脚本的解释器用的/bin/bash。■source通过这个解释器执行脚本,会影响当前的环境、●把我们在linux里执行的命令都写到脚本里。■获取参数$n来获取指定参数。■脚本后用空格分隔多个参数。○直接通过解释器执行脚本。echo"服务还未开启"echo"服务已经停止"○将命令执行的结果赋值。○./脚本名字即可。后台开启springboot项目脚本。■编写.sh的脚本。...

2022-07-14 19:54:13 2177

原创 Linux用户和权限

■eg设置用户读写用户组只读其它制度。■三位数字表示用户、用户组、其它。■chmod777文件。■chmoda+x文件。●usermod-g组用户。●usermod-G组用户。●gpasswd-a用户组。●gpasswd-d用户组。●如何修改文件的所属人和所属组。■创建组groupadd。■删除组groupdel。○chgrp修改所属组。■-R代表递归修改。■创建用户useradd。■删除用户userdel。...

2022-07-14 19:50:36 86

原创 linux ssh互信配置

如果单纯的只需要单向信任,在一台机器上执行命令就可以了,比如说node1连接node2,不用密码的话,在node1上执行命令就可以了。[root@192.168.3.20]#ssh-keygen-trsa#下面一直按回车就好。3.也可以把ip地址和主机名对应关系加到/etc/hosts里这样直接ssh主机名就可以了。○由于是虚拟机,对安全性没有那么高的要求,可以关闭防火墙,方便主机和它通讯。上面是以root用户配置互信,如果想要其它用户,可以切到相应的用户下执行命令即可。...

2022-07-14 19:49:01 3133

原创 Linux4种常用软件安装方法(源代码,二进制,rpm,yum)

1.软件安装软件安装即为Linux包安装,相当于Windows中的软件安装。主要包括源码编译安装、bin二进制执行文件安装、rpm包安装、yum在线安装4种方式。● 源码安装适用于开放源代码包的软件。● bin二进制执行文件安装类似于Windows的exe,双击或者赋予执行权限后通过命令行调用执行。● rpm包安装提供了rpm安装包的软件,均可采用此种方式,但自身不解决rpm依赖的问题。● yum包安装,底层依赖rpm包的存在,并自动解决rpm包依赖、升级管理的问题。需要配置必要的yum repo

2022-07-13 19:31:40 1330

原创 Linux 高级命令2

4. seq命令 seq命令用于以指定增量从首数开始打印数字到尾数,即产生从某个数到另外一个数之间的所有整数,并且可以对整数的格式、宽度、分割符号进行控制。1. 命令格式 seq [选项] 尾数 seq [选项] 首数 尾数 seq [选项] 首数 增量 尾数2. 选项 -f:--format,格式 -s:--separator,字符串,使用指定的字符串分割数字默认使用个"\n"分割. -w:--sequal-width,在列前添加0,使得宽度相同5

2022-07-13 19:26:34 48

原创 Linux高级命令

1. grepgrep [参数] '匹配关键字' fileName -c:count -e:多个连续命令,即正则表达式方式 -E:extend -i:ingore -n:number -r:recursive -v:反转,即命中的不显示,没有命中显示出来2. sed sed是一种在线编辑器,它一次处理一行内容。处理时,把当前处理的行存储在临时缓冲区中,称为 “模式空间”(pattern space),接着用sed命令处理缓冲区中的内容,处理完成后,把

2022-07-12 19:36:35 72

原创 Linux基础命令

1.关闭linux服务器 方法一: halt方法二: shutdown -h now方法三:poweroff2.重启linux服务器方法一:reboot方法二:shutdown -r now3.请查看当前登录用户,如果是root用户,则切换到其他用户以下所有普通用户为aa。查看当前登录用户:whoami切换到aa用户:su aa4.现在root用户登录,请修改root用户密码,并修改某普通用户的密码。useradd [username] 添加用户passwd [username]如果不指定用户名则默认修改r

2022-07-12 18:31:27 297

原创 Linux根目录视图主要目录树及其说明

目录 目录内容说明/bin 系统有很多放置执行档的目录,但/bin比较特殊。因为/bin放置的是在单人维护模式下还能够被操作的指令。在/bin底下的指令可以被root与一般帐号所使用,主要有:cat,chmod(修改权限), chown, date, mv, mkdir, cp, bash等等常用的指令。/boot 主要放置开机时使用到的档案,包括Linux核心档案以及开机选单与开机所需设定档等等。Linux kernel的核心文档名为:vmlinuz ,如果使用的是grub这个开机管

2022-07-12 10:04:34 412

原创 免签名模板审核的短信验证测试

免签名模板审核的短信验证测试

2022-07-07 09:48:00 294

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除