自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 收藏
  • 关注

原创 十万个为什么之Hbase篇

关于Hbse的十万个为什么总结

2023-05-08 22:55:30 168 1

原创 大数据开发之CDH使用搭建大数据平台

介绍CDH,并介绍使用其搭建大数据平台的详细步骤

2023-04-09 16:43:36 4614

原创 数据开发之CDH搭建所需依赖如何配置?

在使用CDH搭建大数据平台的时候,如何配置依赖包?

2023-04-09 15:25:56 343

原创 数仓ETL堪比保姆级流程

ETL是指使用数据采集工具将数据从多源异构数据源中抽取出来,进行数据转换加载到数据仓库的过程;

2023-03-20 14:56:33 350

原创 大数据学习之状态+checkpoint

将flink的状态先保存TaskManager的内存中,在触发checkpoint的时候将taskmanager中的状态再持久化到hdfs中。flink的状态会先保存在rocksDb数据库中,当触发checkpoint的时候将数据库中的状态持久化到hdfs中。常用的sum(需要保存之前的计算结果) window(需要保存一段时间内的数据)内部都是有状态的。也可以在命令行中重新提交任务,指定恢复任务的位置, 需要先上传jarr包。在flink的集群的配置文件中同意开启-- flink新版才有。...

2022-08-03 10:07:09 680

原创 大数据学习之Flink环境搭建+提交任务方式

Flink环境搭建与任务提交详解

2022-08-03 09:55:48 2289

原创 大数据学习之Spark-core常用代码示例

spark-core中常用代码块

2022-07-25 21:16:10 741

原创 大数据学习之kafka的基本使用命令

2,创建topic,该命令可在任何位置执行kafka-topics.sh --create --zookeeper master:2181,node1:2181,node2:2181 --replication-factor 3 --partitions 3 --topic test_topic3--replication-factor ---每一个分区的副本数量, 同一个分区的副本不能放在同一个节点,副本的数量 不能大于kafak集群节点的数量--partition --分区数, 根据...

2022-07-25 21:06:51 1688

原创 大数据学习之kafka环境搭建

由于配置了环境变量所以任意目录下都可启动(exportPATH=$PATH$KAFKA_HOME/bin),三个节点都需要启动。log.dirs=/usr/local/soft/kafka_2.11-1.0.0/data数据存放的位置。###将master中的而环境变量同步到node1和node2中,修改上面文件中的。#2、启动kafka,每个节点中都要启动(去中心化的架构)#2.1kafkabin目录下的启动命令与停止命令。#需要在每隔节点中执行启动的命令。###配置环境变量。...

2022-07-25 20:58:27 298

原创 大数据学习之Spark任务创建及提交到集群服务器运行

一、简写大致思路1.写一个spark项目,将本地模式注释2,不需要打印输出,而是用saveAsTextFile(“hdfs路径”)将文件保存到hdfs3,将工程文件打包,上传到虚拟机spark下 exm --jars中,4,提交spark任务到集群运行(不需要启动spark也可运行) spark-submit --class 类的相对路径名(右击--copy Reference)--master 运行模式(yarn-client yarn-cluster) jar包名5,命令查看Hadoop dfs

2022-07-13 15:15:54 890

原创 大数据学习之bulkLoad实现批量导入

如果我们一次性入库hbase巨量数据,处理速度慢不说,还特别占用Region资源, 一个比较高效便捷的方法就是使用 “Bulk Loading”方法,即HBase提供的HFileOutputFormat类。它是利用hbase的数据信息按照特定格式存储在hdfs内这一原理,直接生成这种hdfs内存储的数据格式文件,然后上传至合适位置,即完成巨量数据快速入库的办法。配合mapreduce完成,高效便捷,而且不占用region资源,增添负载。仅适合初次数据导入,即表内数据为空,或者每次入库表内都无数据的情况。HB

2022-06-15 14:43:20 873

原创 大数据学习之hbase搭建

hbase搭建详细步骤教程

2022-06-14 00:42:10 603

原创 大数据学习之hbse建表思想步骤

hbase创建表的详细思路步骤及示例代码

2022-06-13 12:21:44 340

原创 大数据学习之IO读取数据到hbase表中

一、将数据文件通过IO读入hbase表中1.连接hbase的对象,调用getTable获取表的实例2.创建一个ArraryList集合3.用io读取文件数据,用while循环split进行分割成数组3.1把每一行组成一个put对象以唯一的数为行键3.2为行添加多列3.3把每一行组成一个put对象添加到集合中4.调用表的put方法将集合中的数据添加到表中;5.关闭通道示例代码:/** * 连接hbase * */@Beforepublic void clientHbase(){ try {

2022-06-13 12:04:46 229

原创 java API连接hbase创建表无法创建却一直运行的问题

java连接hbase无法创建表的解决办法

2022-06-10 22:12:07 846

原创 spring boot项目 web页面访问报错404问题

学习遇错解决记录:IDEA创建springboot项目,连接redis数据库;写了一个类测试与redis是否连接成功;通过web页面访问报错404(404一般代表路径有误);这时解决方法:先检查代码有无问题,若代码无问题检查项目结构,入口类是否在其他子包(controller、entity、utils、service......)上;以上两种不行尝试删除target目录,再次运行项目他会自动生成一个新的target目录;经过检查发现我的项目结构有问题,入口类不在其他子包外,所以访

2022-05-19 09:48:45 2971

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除