bigdatakepper-CSDN博客

原创 Hadoop+Hive+Spark+Hbase开发环境练习

exam202011;useexam202011;idstringintintrecordDatestringstringstringcontinentstring',';keystringstringintstored bywithtbasselectcontinentrecordDatedense_rank()overcontinentrecordDateorder by。

2023-11-25 12:53:13 1859

原创 Flink

1.1初识FlinkFlink项目的理念是：“Apache Flink是为分布式、高性能、随时可用以及准确的流处理应用程序打造的开源的有状态的流处理框架”。是一个框架和分布式处理引擎，用于对无界和有界数据流进行有状态计算。Flink被设计在所有常见的集群环境中运行，以内存执行速度和任意规模来执行计算。的重要特点1.2.1事件驱动型(Event-driven)事件驱动型应用是一类具有状态的应用，它从一个或多个事件流提取数据，并根据到来的事件触发计算、状态更新或其他外部动作。

2023-11-12 18:55:17 999

原创 Kafka To HBase To Hive

（6）具体表对应的handler类（包装Put）（5）IParseRecord接口。（1）Iworker接口。（2）worker实现类。（3）IWriter接口。（4）writer实现类。

2023-10-24 18:15:46 1484 1

原创 Spark--经典SQL50题

创建DataFrame。、查询本周过生日的学生。、查询下周过生日的学生。、查询本月过生日的学生。、查询下月过生日的学生。

2023-10-21 10:31:46 1621 3

原创 Spark

1.1回顾：Hadoop主要解决，海量数据的存储和海量数据的分析计算。Spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。1）Spark查看当前Spark-shell运行任务情况端口号：40402）Spark Master内部通信服务端口号：7077 （类比于yarn的8032(RM和NM的内部通信端口）3）Spark Standalone模式Master Web端口号：8080（类比于Hadoop YARN任务运行情况查看端口号：8088）

2023-10-17 22:45:13 893

原创 Scala

1）Scala的集合有三大类：序列Seq、集Set、映射Map，所有的集合都扩展自Iterable特质。2）对于几乎所有的集合类，Scala都同时提供了可变和不可变的版本，分别位于以下两个包。不可变集合：scala.collection.immutable可变集合： scala.collection.mutable3）Scala不可变集合，就是指该集合对象不可修改，每次修改就会返回一个新对象，而不会对原对象进行修改。类似于java中的String对象。

2023-10-17 21:45:30 570

原创 Flume

Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构，灵活简单。）案例需求2.用Flume采集服务器本地日志，需要按照日志类型的不同，将不同种类的日志发往不同的分析系统。2）需求分析在实际的开发中，一台服务器产生的日志类型可能有很多种，不同类型的日志可能需要发送到不同的分析系统。

2023-09-24 16:25:28 243

原创 kafka

消费者组中的每个消费者，都会实时记录自己消费到了哪个offset，以便出错恢复时，从上次的位置继续消费。采用第二种方案之后，设想以下情景：leader收到数据，所有follower都开始同步数据，但有一个follower，因为某种故障，迟迟不能与leader进行同步，那leader就要一直等下去，直到它完成同步，才能发送ack。①同样为了容忍n台节点的故障，第一种方案需要2n+1个副本，而第二种方案只需要n+1个副本，而Kafka的每个分区都有大量的数据，第一种方案会造成大量数据的冗余。

2023-09-20 18:04:11 716

原创 Hadoop-sqoop

简介：Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysq1.postgresql..)间进行数据的传递，可以将一个关系型数据库（例如: MySQL ,Oracle ,Postgres等）中的数据导进到Hadoop 的HDFS中，也可以将HDFS的数据导进到关系型数据库中。Sqoop项目开始于2009年，最早是作为Hadoop 的一个第三方模块存在，后来为了让使用者能够快速部署，也为了让开发人员能够更快速的迭代开发，Sqoop独立成为一个Apache项目。v。

2023-09-18 19:09:31 383

原创 Hadoop-Hbase

2）访问对应的Region Server，获取hbase:meta表，根据写请求的namespace:table/rowkey，查询出目标数据位于哪个Region Server中的哪个Region中。写缓存，由于HFile中的数据要求是有序的，所以数据是先存储在MemStore中，排好序后，等到达刷写时机才会刷写到HFile，每次刷写都会形成一个新的HFile。5）将查询到的新的数据块（Block，HFile数据存储单元，默认大小为64KB）缓存到Block Cache。6）向客户端发送ack；

2023-09-14 19:21:36 991

原创 Hadoop-Hive

按指定格式返回时间date 如：date_format("2016-06-22","MM-dd")=06-22。如果testCondition 为true就返回valueTrue,否则返回valueFalseOrNull。如果a=ture就返回b,c= ture就返回d,否则返回e。返回第一非null的值，如果全部都为NULL就返回NULL。与explode类似，不同的是还返回各元素在数组中的位置。如果a为非null就返回true，否则返回false。如果a为null就返回true，否则返回false。

2023-09-14 18:20:16 389

原创 MySQL经典50题（部分题目包含窗口函数只支持MySQL版本8.x及以后或使用hive操作）

【代码】MySQL经典50题（部分题目包含窗口函数只支持MySQL版本8.x及以后）

2023-09-14 18:13:20 183

原创 hive电子商务消费行为分析

在store有多少employee。

2023-09-14 18:10:29 504

原创 hive工具-zeppelin部署

解压安装包至/opt/soft 并改名/etc/proofile中配置环境变量并source生效#ZEPPELINexport ZEPPELIN_HOME=/opt/soft/zeppelin010export PATH=$ZEPPELIN_HOME/bin:$PATH（1）conf目录下拷贝一份初始配置文件[root@kb129 conf]# pwd/opt/soft/zeppelin010/confcp ./zeppelin-site.xml.template ./zeppelin-site.xml（2

2023-09-14 16:44:33 430

原创 zookeeper/HA集群配置

1.1 安装4台虚拟机（1）按照如下设置准备四台虚拟机，其中三台作为zookeeper，配置每台机器相应的IP，hostname，下载vim，ntpdate配置定时器定时更新时间，psmisc（psmisc用于管理系统上运行进程，包括ps、kill、fuser、pstree等命令它能够更方便地使用Linux操作系统）192.168.142.136 node1 zookeeper192.168.142.137 node2 zookeeper192.168.142.138 node3 zookeeper

2023-09-05 17:00:20 1098

原创 hadoop-MapReduce/Yarn

1.理解MapReduce设计思想2.理解MapReduce分布式计算的基本原理3.掌握使用Java进行MapReduce编程4.掌握在Hadoop集群中提交MapReduce任务1.1 什么是MapReduce1）MapReduce是一个分布式计算框架它将大型数据操作作业分解为可以跨服务器集群并行执行的单个任务。起源于Google2）适用于大规模数据处理场景每个节点处理存储在该节点的数据3）每个job包含Map（分类kv）和Reduce（计算）两部分1.2 MapReduce的设计思想1）分而治之：

2023-09-05 16:52:20 1283

原创 hadoop-HDFS

分布式文件系统-HDFS架构2.2 HDFS组成角色及其功能（1）Client：客户端（2）NameNode (NN)：元数据节点管理文件系统的Namespace元数据一个HDFS集群只有一个Active的NN（3）DataNode (DN)：数据节点数据存储节点，保存和检索Block一个集群可以有多个数据节点（4）Secondary NameNode (SNN)：从元数据节点合并NameNode的edit logs到fsimage文件中辅助NN将内存中元数据信息持久化。

2023-08-28 18:24:39 494

原创 linux安装JDK及hadoop运行环境搭建

【代码】linux安装JDK及hadoop运行环境搭建。

2023-08-24 15:58:46 938

原创 linux安装MySQL8

1.1下载、解压、（1）在opt（操作目录）目录下新建install文件夹，下载mysql-8.0.30-linux-glibc2.12-x86_64.tar.xz使用Xftp将文件移至install文件夹中下载mysql安装包网址：MySQL :: Download MySQL Community Server (Archived Versions)（2）放到服务器后解压-C 放到指定文件夹 tar -xvf ./mysql-8.0.30-linux-glibc2.12-x86_64.tar.xz -C

2023-08-21 19:44:41 411

原创 linux-shell编程

$n （功能描述：n为数字，$0代表该脚本名称，$1-$9代表第一到第九个参数，十以上的参数，十以上的参数需要用大括号包含，如${10}）$# （功能描述：获取所有输入参数个数，常用于循环,判断参数的个数是否正确以及加强脚本的健壮性）。$* （功能描述：这个变量代表命令行中所有的参数，$*把所有的参数看成一个整体）$@ （功能描述：这个变量也代表命令行中所有的参数，不过$@把每个参数区分对待） $？（功能描述：最后一次执行的命令的返回状态。如果这个变量的值为0，证明上一个命令正确执行；如

2023-08-21 09:22:31 219

原创 linux常用命令1

ls 简略显示当前目录下所有的文件及文件夹ll 详细显示当前目录下所有的文件及文件夹的详细信息cd /进入指定目录cd /etc/sysconfig/network-scripts/ pwd 显示当前所在目录的全路径vi ifcfg-ens33 编辑ifcfg-ens33文件:wq 写入并退出yum install -y vim 安装vim（vim比vi进入文件编辑更加好用，颜色区分明了）systemctl stop firewalld 暂停防火墙 systemctl start firewall

2023-08-16 09:59:00 107

原创 Python进阶-模块和包/random/datetime/ pandas和DataFrame

1. 模块和包2. random随机数3. datetime日期模块4. pandas和DataFrame1.1 模块：就是一个以.py结尾的文件，模块中可以定义函数，类和变量，可执行的代码Python模块分为：内置模块和第三方模块（1）模块安装：pip3 install 模块名1 -i 国内镜像地址（或在pycharm中设置àpython解释器）华为镜像源 https://mirrors.huaweicloud.com/阿里云 http://mirrors.aliyun.com/pypi/

2023-08-10 19:17:06 341

原创 Python基础--序列操作/函数

1.序列的操作2.函数1.1 序列操作--列表具体操作：#定义列表listA = [] #定义一个空列表 listB = [1,2.8,"你好",listA,[1,2,3]] # 访问列表 print(listB)#查看整个列表 print(listB[2])#查看单个元素(通过下表索引，索引从0开始)# 增删改操作 # 增加 # 1.append()直接添加到列表最后一位：listB.append(666) # 2.insert()指定

2023-08-09 18:46:38 1296

原创 Python基础

1.2.31.1 环境搭建：官网下载python安装，编译器：pycharm或jupyter或idea1.2 变量（1）语法：变量名=变量，多变量同时命名：变量名1，变量名2 = 变量1，变量2或等值同时命名（2）标识符命名规则：由数字、字母、下划线开头；不能以数字开头；不能使用内置关键字；严格区分大小写（3）命名习惯：见名知意，驼峰命名（大驼峰小驼峰）1.3 格式化输出（1）输出函数：print（）（2）格式化函数：format（）；语法：'{}'.format()，可以指定顺序，可简化书写

2023-08-08 19:37:34 187

原创 day52-Redis

1.1 RESP连接Redis1.2 定义：是一个高性能的key-value数据库（非关系型数据库）1.3 数据类型：key键的类型是字符串类型；值的类型有五种：字符串String，哈希hash，列表list，无序集合set，有序集合zset1.4 核心特点：新版Redis是多线程的，Redis单线程性能很高（一般单线程性能低，Redis特例）（1）最常用的类型，可以存储String，Integer等数据，甚至是二进制数据，一个字符串最大容量是512M（2）set命令：key不存在即为添加操作，存

2023-08-05 15:30:09 740

原创 day51-Mybatis-Plus/代码生成器

【代码】day51-Mybatis-Plus/代码生成器。

2023-08-04 14:56:20 186

原创 day50-springboot+ajax分页

分页依赖：<dependency> <groupId>com.github.pagehelper</groupId> <artifactId>pagehelper-spring-boot-starter</artifactId> <version>1.0.0</version> </dependency>配置：前后端分离：前段页面中url需填写全路径，同时在controller层添加@CrossOrigin注解拓展：Date类型需要转换，实体类中添加注解解决

2023-08-03 15:54:51 2063

原创 day49-Springboot

1.1简介：Springboot来简化Spring应用开发的一个框架，约定大于配置1.2优点：可以快速的构建独立运行的Spring项目；框架内有Servlet容器，无需依赖外部，所以不需要达成war包（自带Tomcat，无需部署，与Servlet高度集成）；极力去掉重复恶心的xml配置（优化xml，精简）1.3目录结构：resource目录下static：保存所有静态资源js,css,images；templates：保存所有的模版页面（默认不支持jsp）；

2023-08-02 16:11:09 399

原创 day48-ajax+SSM分页

非分页版controller及html：分页+模糊查询controller：Postman测试（无网页）：分页网页：分页网页中添加模糊查询：分页网页中实现添加功能：（1）controller（2）分页中集成跳转添加页面（3）add.html分页网页中实现删除功能：（1）controller（2）分页中集成删除功能分页网页中实现修改功能：（1）controller（2）分页中集成修改跳转功能（3）update.html网页展示：

2023-07-29 16:31:45 1161

原创 day47-SSM分页

applicationContext.xml中加入mybatis-config.xml路径mybatis-config.xmlMapper接口Service接口及其实现类Mapper.xmlpage.jsppersonDetail.jspaddPerson.jspupdatePerson.jsplogin.jspregister.jsphealth.jsp网页展示：

2023-07-29 16:29:06 314

原创 day46-SSM

1.1 创建数据库、表、工程，引入依赖1.2 配置web.xml（前端控制器和字符过滤器）1.3 配置applicationContext.xml1.4 实现增删改查功能可以用Model对象替代HttpServletRequest详情页面：Mapper接口，service及其实现类，mapper.xml，controller删除：Mapper接口，service及其实现类 mapper.xmlcontrollerlist.jsp添加：Mapper接口，service及其实现类 mapper.xml

2023-07-27 17:50:07 285

原创 day45-SpringMVC

1.2.31.1 引入依赖： <dependency> <groupId>javax.servlet</groupId> <artifactId>javax.servlet-api</artifactId> <version>3.1.0</version> </dependency> <dependency> <groupId>org.springframework</groupId> <art

2023-07-26 16:42:55 220

原创 day44-Spring_AOP

1.2.3实体类：Mapper接口：Service和实现类：测试1：运行后：测试2：无此型号时测试3：库存不足时解决方案1：事务声明管理器测试：（通过注解让整个Service在事务内部）异常时，通过事务ACID原则，保持事务的一致性（两表数据同时更新或不变）解决方法2：不使用注解@Transactional

2023-07-25 19:01:58 325

原创 day43-Spring_IOC

1.2.31.1 定义：轻量级框架，java EE的春天，主流框架1.2 Spring特性：IOC控制反转；AOP面相切面1.3 组成部分：Spring在SSM中所起到的作用（SpringMVC和Mybatis框架的黏合剂）1.4 Spring理念：核心思想是面向Bean（万物皆Bean组件）1.5 Spring优势：IOC 控制反转（降低了耦合度）；AOP 面向切面（专人干专事）；多个框架的黏合剂（完美兼容SpringMVC和Mybatis）（1）低侵入式设计（2）独立于各种应用服务器（3）依赖

2023-07-25 19:00:13 887

原创 day42-servlet下拉查询/单例模式

1.Servlet实现下拉查询（两表）2.单例模式1.1 创建工程，准备环境...1.2 接口1.3 重写方法1.4 servlet1.5 list.jsplist.jsp详解2.1 饿汉模式：在程序加载时直接创建对象（私有化，静态化），并创建公有的静态的（public static）get方法；其他类需要使用时直接用类名调用get方法（无法new对象）2.2 懒汉模式：在需要使用时，先判断是否已创建，未创建的话再new（线程不安全，多线程同时进判断可能会多次new）2.3 拓展：懒汉模式—

2023-07-21 19:54:54 596

原创 day41-Mybatis(resultMap拓展2)

Collection：复杂类型集合；一对多；内部嵌套；映射到一个嵌套结果到一个列表；属性：property：映射数据库列的实体对象的属性；ofType：完整java类名或者别名（集合所包括的类型）；resultMap：引用外部resultMap；子元素：id、result、property：映射数据库列的实体对象的属性、column：数据库列名或别名where 1=1 是一个常见的 SQL 语句中的条件语句，它的作用是为了方便在后续的条件判断中添加额外的条件。在这里，where 1=1 并没有实际的作用，它

2023-07-20 19:04:17 119

原创 day40-Mybatis（resultMap拓展）

1.2.3解决方案1：将sql语句中给予别名（别名同javabean中实体类保持一致）解决方案2：使用resultMapassociation：（1）复杂的类型关联，一对一（2）内部嵌套（3）映射一个嵌套Javabean属性（4）属性：property：映射数据库列的实体对象的属性；javaType：完整Java类名或者别名；resultMap：引用外部resultMap。子元素：id，result，property，column（数据库列名或别名）（1）实体类（2）mapper接口（3）xml（4）

2023-07-19 18:14:07 1026

空空如也

空空如也