自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(46)
  • 收藏
  • 关注

原创 【hive】hive的命令行及其配置参数 and hive的UDF函数的编写

文章目录前言1 . Hive 命令行2 . Hive 参数配置2 . Hive 的UDF函数前言简单的归纳了一下hive的使用 包括命令行参数 和 启动时的一些配置参数 最后简单的编写了个UDF函数1 . Hive 命令行输入$HIVE_HOME/bin/hive –H 或者 –help 可以显示帮助选项:说明:1、 -i 初始化 HQL 文件。2、 -e 从命令行执行指定的 HQL3、 -f 执行 HQL 脚本4、 -v 输出执行的 HQL 语句到控制台5、 -p connect

2020-05-29 22:43:06 479

原创 【spark】spark streaming 和flume、kafka整合

文章目录一、Spark Streaming整合flumePoll方式Push方式二、Spark Streaming整合kafkaKafkaUtils.createDstreamKafkaUtils.createDirectStreamStreamingContext.getOrCreate一、Spark Streaming整合flumeflume作为日志实时采集的框架,可以与SparkStre...

2020-04-29 17:05:00 605

原创 【spark】spark streaming介绍 包括Dstream介绍 及Dstream实战

文章目录Spark Streaming概述Spark Streaming特性Spark Streaming原理介绍DstreamDStream相关操作transformationOutput OperationsDStream操作实战一、 SparkStreaming接受socket数据,实现单词计数WordCount二、SparkStreaming接受socket数据,实现所有批次单词计数结果累...

2020-04-29 16:52:21 967

原创 【spark】spark SQL概述 RDD、DataFrame及DataSet开发 相互转换 以及sparksql和mysql数据转换

文章目录一、sparksql概述二、sparksql四大特性三、DataFrame简介DataFrame与RDD的区别DataFrame与RDD的优缺点读取数据源创建DataFrame读取json文件创建DataFrame四、DataFrame常用操作DSL风格语法SQL风格语法六、DataSetDataFrame、DataSet、RDD的区别DataFrame与DataSet互相转换创建Data...

2020-04-29 16:35:42 746

原创 【hadoop】mapreduce的框架结构 以及 wordcount代码示例

MapReduce执行流程一个完整的 mapreduce 程序在分布式运行时有三类实例进程:MRAppMaster:负责整个程序的过程调度及状态协调MapTask:负责 map 阶段的整个数据处理流程ReduceTask:负责 reduce 阶段的整个数据处理流程设计构思MapReduce 是一个分布式运算程序的编程框架,核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个...

2020-04-29 15:49:48 235

原创 【flink】flink集群的搭建

一、Flink支持多种安装模式。local(本地)——单机模式,一般不使用standalone——独立模式,Flink自带集群,开发测试环境使用yarn——计算资源统一由Hadoop YARN管理,生产环境测试二、Standalone模式步骤解压flink压缩包到指定目录配置flink配置slaves节点分发flink到各个节点启动集群提交WordCount程序测试查...

2020-04-29 15:39:37 454

原创 【flink】flink基本原理介绍 和 与其他流处理工具比较

文章目录一、Flink简介二、Flink、Spark和Storm对比三、Flink原理流处理和批处理的差别Flink执行原理四、如何选择实时框架六、Flink架构七、Flink基本组件八、Flink应用场景分析一、Flink简介Apache Flink是一个开源的分布式、高性能、高可用的流处理框架。主要有Java代码实现,支持scala和java API。支持实时流(stream)处理和...

2020-04-29 15:25:04 331

原创 【spark】spark计算模型RDD&算子介绍&任务调度&容错机制checkpoint

文章目录RDD弹性分布式数据集RDD概述RDD五大属性创建RDDRDD编程APIRDD的算子分类TransformationActionRDD常用的算子操作RDD的依赖关系窄依赖宽依赖Lineage(血统)RDD的缓存DAG的生成Spark任务调度DAGSchedulerTaskSchedulerRDD容错机制之checkpointcheckpoint是什么checkpoint原理机制Spark运...

2020-04-15 17:35:20 438

原创 【spark】Spark概述 及 集群部署

文章目录Spark概述什么是Spark为什么要学SparkSpark特点Spark集群安装下载spark安装包规划安装目录解压安装包重命名目录修改配置文件拷贝配置到其他主机配置spark环境变量启动spark停止sparkspark的web界面Spark HA高可用部署Spark角色介绍Spark概述什么是Spark(官网:http://spark.apache.org)Spark是一种...

2020-04-15 13:50:14 318

原创 【hadoop】HDFS原理 和 重要特性

文章目录一、NameNode 概述二、DataNode 概述三、HDFS的工作机制三、HDFS 写数据流程四、HDFS 读数据流程五、HDFS重要特性1. master/slave 架构2. 分块存储3. 名字空间(NameSpace )4. Namenode 元数据管理5. Datanode 数据存储6. 副本机制7. 一次写入,多次读出一、NameNode 概述NameNode 是 HD...

2020-04-15 11:04:47 525

原创 【kafka】kafka介绍 kafka和消息队列的区别 & kafka的系统架构

文章目录Kafka介绍kafka与ActiveMQ区别消息队列的作用kafka的架构模型Kafka介绍Kafka最初是由LinkedIn开发,并于2011年初开源。2012年10月从Apache Incubator毕业。该项目的目标是为处理实时数据提供一个统一、高吞吐量、低延迟的平台。Kafka是一个分布式消息队列:生产者、消费者的功能。 它提供了类似于JMS的特性,但是在设计实现上完全不同...

2020-04-14 23:06:39 687

原创 【kafka】kafka消费策略 & kafka存储机制 & segment file & 稀疏存储

文章目录前言kafka消费策略kafka存储机制数据消费问题讨论Segment文件特点kafka的稀疏存储总结前言这篇写了kafka的几个比较复杂的特性kafka消费策略结论:在同一个消费者组中,不同的线程在同一时间不能够处理同一分区中的数据,也就是说在同一时间一个线程只能消费一个分区数据在不同的消费者里面,不同的线程在同一时间可以消费同一分区中的数据多个线程在消费数据...

2020-04-14 20:00:53 1754

原创 【kafka】kafka集群安装部署 and kafka操作命令介绍

文章目录前言一、安装zookeeper二、kafka的安装三、kafka集群启动和停止四、kafka的命令行的管理使用前言之前有篇写kafka集群的搭建,但是不太完整,重新整理了一篇 。更强调实验。包括topic创建、查看 producer生产 consumer去消费。zookeeper这里就没讲安装步骤 可以直接去有一篇写好的看然后这里我的集群是 had-node2 had-node3 ...

2020-04-14 18:34:49 355

原创 【hadoop】HDFS元数据管理机制

文章目录前言元数据管理概述元数据目录相关文件secondary namenodeCheckpoint总结前言没什么话好讲 但这一张讲元数据 因为之前学习一直有疑惑 参考了很多资料后元数据管理概述HDFS元数据,按类型分,主要包括以下几个部分:文件、目录自身的属性信息,例如文件名,目录名,修改信息等。文件记录的信息的存储相关的信息,例如存储块信息,分块情况,副本个数等。记录 HDFS...

2020-04-14 17:28:28 470

原创 【hive】hive内置函数

文章目录前言hive的本地模式hive 中窗口函数row_number,rank,dense_ran,ntile分析函数的用法ntileHive已定义函数介绍1、字符串长度函数:length2、字符串反转函数:reverse3、字符串连接函数:concat4、带分隔符字符串连接函数:concat_ws5、字符串截取函数:substr,substring6、类型转换7、左右去除空格函数8、正则表达式...

2020-04-13 22:14:21 328

原创 【flume】flume 的 负载均衡 load-balance、容错 failover

文章目录前言load-balance负载均衡介绍配置Failover 容错介绍配置前言之前的conf主要是单机的flume部署操作,这篇讲下集群的flume部署操作,可以先看前两篇。 集群load-balance负载均衡介绍负载均衡是用于解决一台机器(一个进程)无法解决所有请求而产生的一种算法。Load balancing Sink Processor 能够实现 load balanc...

2020-04-13 17:23:15 358

原创 【flume】flume简介 及 模拟数据采集文件到HDFS

文章目录前言一、概述二、运行机制三、Flume采集系统结构图简单结构复杂结构四、采集文件到HDFS前言在之前的一篇里面已经写了flume的单机部署以及两个采集,一个是监听日志端口,一个是采集目录到HDFS。这篇主要是对flume进行简介 和采集文件到HDFS一、概述Flume 是 Cloudera 提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的软件。Flume 的核心是...

2020-04-13 16:52:13 471

原创 【hadoop】zookeeper的shell操作

前言上一篇讲了zookeeper的部署,现在可以简单的操作一下一、启动zookeeper集群进入zookeeper安装目录下的bin目录内,通过命令启动./zkServer.sh start通过命令查看节点状态./zkServer.sh status通过命令关闭./zkServer.sh stop二、连接zookeeper服务启动zookeeper服务之后,输入以下命令,...

2020-04-13 16:25:30 189

原创 【hadoop】zookeeper集群搭建

前言Zookeeper 集群搭建指的是 ZooKeeper 分布式模式安装。通常由 2n+1台 servers 组成。这是因为为了保证 Leader 选举(基于 Paxos 算法的实现)能过得到多数的支持,所以 ZooKeeper 集群的数量一般为奇数。Zookeeper 运行需要 java 环境,所以需要提前安装 jdk1. 卸载自带的jdk查看当前jdk版本信息获取java软件包的...

2020-04-13 16:12:05 260

原创 【python】python学习 之 序列的内置方法 和format格式化

文章目录前言一、序列的特点二、序列的内置方法三、format格式化前言把列表、元组、字符串拿在一起讲因为他们都是有一定的特点,都可以称作是序列一、序列的特点列表、元组和字符串的共同特点都可以通过索引得到每一个元素默认索引值总是从0开始(一般情况下)可以通过分片的方法得到一个范围内的元素的集合有很多共同的操作符(重复操作符,拼接操作符、成员关系操作符)所以我们把这三种统称为序...

2020-03-31 20:48:29 266

原创 【hadoop】HDFS操作命令

文章目录前言一、hadoop命令二、hdfs和getconf结合使用三、hdfs和dfsadmin结合使用四、hdfs和fsck结合使用五、其他命令六、出现问题前言这章介绍一下hadoop 的一些简单的操作命令,可以简单的感受一下hadoop一、hadoop命令Hadoop fs类似于hdfs dfs (hdfs dfs -ls /==hadoop fs -ls /)如何查看hdfs...

2020-03-31 15:04:15 912

原创 【hadoop】hadoop集群介绍 和 完全分布式部署步骤

文章目录前言hadoop模式搭建完全分布式搭建思路步骤前言这章我们来看一下hadoop的搭建hadoop模式hadoop部署模式有三种1、单机:Hadoop的单机模式安装很简单,只需配置好环境变量即可运行,这个模式一般用来学习和测试Hadoop的功能2、伪分布式:伪分布式的安装和完全分布式类似,区别是所有角色安装在一台机器上,使用本地磁盘,一般生产环境都会使用完全分布式,伪分...

2020-03-29 14:56:45 677 1

原创 【python】python学习四 之 字符串方法

前言这章主要会介绍一些字符串的方法,有些也都很奇怪,但能帮助我们,当然不可能都记得所有的方法,可以多看看多查查一、字符串的使用关于创建和访问字符串我们前面的章节已经讲过了那要更新其实和元组一样,其实是通过拼接就字符串得到新字符串的方式,并不是真正意义上的改变字符串,也就是说,只是换了个标签,把新的字符串贴上原来的标签,那我们旧的字符串其实还在,只是没有标签,那过会呢垃圾回收机制就会把旧的...

2020-03-28 16:17:17 117

原创 【python】python学习四 之元组

文章目录前言一、元组二、创建元祖和访问元组三、更新和删除元组四、操作元组前言今天要认识一个新的东西,可以说是一个戴上了枷锁的列表-------元组(tuple)原表和列表使用方法差不多,但是它的使用却不像列表那么灵活,会显得被束缚一、元组元组和列表在实际的使用上是相似的这里我们主要讨论元组和列表到底有什么不同来学习元组,因为他们两实在很像元组和列表最大的区别就是列表可以任意的修改里面...

2020-03-28 15:17:50 123

原创 【python】python学习三 之 列表

文章目录前言一、列表和创建列表二、往列表中插入数据三、从列表中获取元素四、从列表删除元素五、列表的分片六、列表与操作符七、列表的内置方法前言今天学列表一、列表和创建列表列表:一个打了激素的数组数组的要求:所有放在一起的数据类型要一致但由于python的变量没有数据类型,按照这个来说python是没有数组的但是python提供了更为强大的列表如果说把数组比作是集装箱,那么pyth...

2020-03-28 14:42:15 217

原创 【python】python学习二 之 数据类型 操作符 分支和循环

文章目录前言一、数值变量二、类型转换三、算术运算符四、比较操作符五、逻辑操作符六、分支和循环七、循环八、Break 和 continue前言今天的重点是数据类型和操作符字符串相加是字符串的拼接数字的相加就是求和一、数值变量python的一些数值变量整形布尔类型浮点型(python区分整形和浮点型就是看这个数有没有小数点)还有个e了解一下字母e是10的意思15e10...

2020-03-28 02:02:40 176

原创 【python】学习python 一之 bif内置函数 变量 操作符

文章目录前言:一、从IDLE启动python二、bif函数三、变量四、字符串五、条件分支六、while循环七、random模块前言:开始学python了,应该算是学习笔记通过编写一个小程序来一边学一边不断改进一、从IDLE启动pythonIDLE是一个python shell,shell的意思就是外壳。基本上来说,就是一个通过键入文本与程序交互的途径,就像windows那个黑乎乎的窗口...

2020-03-28 00:55:43 602

原创 【数据库】数据库设计二之范式与反范式 and 数据库设计实例

文章目录前言:一、范式理论1.、什么是范式2、范式之间的关系3、值域4、第一范式(1NF)5、第二范式(2NF)6、第三范式(3NF)7、其他范式8、雪花模型9、注意事项二、物理设计1、物理设计2、相信的事务不同的名称3、逻辑模型和物理模型对比(重点!!)4、物理模型反范式处理5、反范式常见手段6、维护数据完整性7、对象命名规范示例8、表的物理化9、字段的物理化10、索引的创建和使用11、其他物理...

2020-03-24 21:49:07 498

原创 【数据库】数据库设计一

文章目录前言一、数据库设计概述二、需求分析三、概念设计四、逻辑设计五、总结前言这章主要介绍了数据库设计的相关概念,整体目标和需要解决的问题。并按照新奥尔良设计方法对需求分析、概念设计、逻辑设计几个阶段的具体工作进行了详细说明一、数据库设计概述什么是数据库设计?数据库设计是指对于一个给定的应用环境,构造优化的数据库逻辑模式和物理结构,并据此建立数据库及其应用系统,使之能够有效地存储和管...

2020-03-23 13:52:15 690

原创 【数据库】GaussDB客户端工具介绍

文章目录前言一、客户端工具介绍二、zsql安装三、gsql四、Data Studio前言这次我们来看GaussDB的一些客户端工具,帮助我们更好的操作数据库一、客户端工具介绍客户端工具的存在主要是为了让用户更加便捷地连接数据库,对数据库进行各种操作和调试。zsql介绍:GaussDB 100为用户提供的一种交互和查询的客户端工具。zsql提供了一个命令行接口,帮助用户连接、使用G...

2020-03-21 15:27:48 12182 2

原创 【数据库】GaussDB的数据库驱动

文章目录前言一、驱动二、JDBC三、ODBC四、其他驱动前言今天我们来看gaussDB 100的开发。GaussDB 数据库驱动一、驱动什么是驱动?数据库驱动是应用程序和数据库存储之间的一种接口,数据库厂商为了某一种开发语言环境(比如Java,C)能够实现数据库调用而开发的类似翻译员功能的程序,将复杂的数据库操作与通信抽象成为了当前开发语言的访问接口。GaussDB 100同时支持J...

2020-03-19 20:48:01 7778

原创 【数据库】gaussDB数据库安全

文章目录前言:一、用户权限控制1、权限2、用户3、角色5、授权6、权限回收二、审计前言:数据库安全的目的是保护数据库系统中的数据,防止数据被泄露、篡改、破坏等。这里我们主要从用户权限控制和审计去介绍数据库安全一、用户权限控制1、权限在介绍用户和角色前,我们先来看一下什么是权限什么是权限?执行某些特定SQL语句的能力以及访问或维护某一特定对象的能力。权限的类型权限的类型...

2020-03-18 22:00:43 1342

原创 【数据库】SQL语言之数据定义、更新和控制

文章目录前言:一、数据定义1.数据库对象2、DDL分类3、创建表4、修改表属性5、删除表6、索引7、视图8、序列二、数据更新1. 数据插入2. 数据修改3. 数据删除三、数据控制前言:这篇我们来看对数据库的数据定义DDL,数据更新和 数据控制一、数据定义1.数据库对象什么是数据库对象?数据库对象是数据库的组成部分,数据库对象主要包含:表,索引,视图,存储过程,缺省值,规则,触发器,用户...

2020-03-18 15:33:59 1530 1

原创 【数据库】SQL语言之数据查询

前言:现在我们来看看SQL语法的用法,包括查询语句的类型、语法格式和对应的使用场景这篇数据查询语言是数据库最基本的应用,其语法较为复杂,包括简单查询、带条件查询、连接查询、子查询、集合运算、数据分组、排序和限制等1. 简单查询日常查询中 最常用的就是用过FROM子句实现的查询语法:SELECT [ , ... ] FROM table_reference [ , ... ] 使用方...

2020-03-17 22:56:54 2010

原创 【数据库】SQL语法入门

前言:知道什么是数据库了,然后来看看我们是怎么操作数据库吧一、SQL语句介绍维基百科定义:SQL(Structured Query Language,结构化查询语言)是一种特定目的编程语言,用于管理关系数据库管理系统,或在关系流数据管理系统中进行流处理。SQL语句分类DDL(Data Definition Language)数据定义语言用于定义或修改数据库中的对象,如:表...

2020-03-17 01:31:25 355

原创 【数据库】数据库巩固二

文章目录前言一、数据库管理介绍1、对象管理2、数据库备份和恢复3、安全管理二、数据库基本概念1、数据库和数据库实例2、数据库连接和会话3、数据库连接池4、schema5、表空间(Tablespace)6、表(Table)7、临时表8、表的存储方式9、分区(Partition)10、数据分布11、数据类型12、视图(view)13、索引14、约束15、事务16、数据不一致情况17、事务隔离级别前言...

2020-03-15 19:29:50 327

原创 【数据库】数据库巩固一

文章目录前言:一、数据库技术二、数据模型1、层次模型2、网状模型3、关系模型4、面向对象数据模型5、XML数据模型6、RDF数据模型三、数据库类型1、SQL(Structured Query Language)2、NoSQL(Not Only SQL)3、NewSQL四、数据库架构发展五、数据库的应用场景1、联机事务处理(OLTP)2、联机分析处理(OLAP)3、OLTP和OLAP对比分析六、20...

2020-03-11 16:33:09 1380

原创 【HBase】HBase简介及部署与使用

文章目录一、HBase介绍1、HBase出现的原因?2、HBase和传统的关系型数据库的区别3、HBase数据类型4、HBase的架构5、HBase读写流程二、Hbase部署环境前提1、解压HBase2、修改配置文件3、启动节点三、HBase简单使用一、HBase介绍HBase是一个开源的非关系型数据库,是根据谷歌的论文Big Table设计开发的。HBase是一个高可靠、高性能、面向列、可伸...

2020-03-10 17:10:25 353

原创 【GaussDB】初始GaussDB和GaussDB版本介绍

文章目录初始GaussDBGaussDB的版本GaussDB版本的区别OLTP和OLAP比较GaussDB T介绍GaussDB A 介绍MPP架构介绍架构组件介绍初始GaussDB名字的由来:GaussDB是华为数据库产品品牌名,致敬数据加高斯(Gauss)GaussDB的版本GaussDB 100:目前暂不发布,公司合作伙伴需向华为提交申请GaussDB 200:目前官方可下载G...

2020-03-09 16:24:16 15260 4

原创 【kafka】kafka的集群部署和测试&zookeeper的集群部署

文章目录一、下载安装包及解压二、修改配置文件三、把配置文件发给其他两个节点四、验证环境(三台都执行)五、启动命令六、启动命令行之后1、创建一个topic的命令2、创建一个生产者的命令3、创建一个消费者的命令4、删除一个topic5、查看topic的描述信息六、测试发送消息消费消息七、出现的问题:一、下载安装包及解压解压文件tar -zxvf kafka_2.11-1.0.0.tgz -C...

2020-03-06 23:56:19 225

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除