卡耐基 · 杨-CSDN博客

原创十万个为什么之Hbase篇

关于Hbse的十万个为什么总结

2023-05-08 22:55:30 285 1

原创大数据开发之CDH使用搭建大数据平台

介绍CDH，并介绍使用其搭建大数据平台的详细步骤

2023-04-09 16:43:36 6294

原创数据开发之CDH搭建所需依赖如何配置？

在使用CDH搭建大数据平台的时候，如何配置依赖包？

2023-04-09 15:25:56 442

原创数仓ETL堪比保姆级流程

ETL是指使用数据采集工具将数据从多源异构数据源中抽取出来，进行数据转换加载到数据仓库的过程；

2023-03-20 14:56:33 579

将flink的状态先保存TaskManager的内存中，在触发checkpoint的时候将taskmanager中的状态再持久化到hdfs中。flink的状态会先保存在rocksDb数据库中，当触发checkpoint的时候将数据库中的状态持久化到hdfs中。常用的sum（需要保存之前的计算结果） window（需要保存一段时间内的数据）内部都是有状态的。也可以在命令行中重新提交任务，指定恢复任务的位置, 需要先上传jarr包。在flink的集群的配置文件中同意开启-- flink新版才有。...

2022-08-03 10:07:09 827

原创大数据学习之Flink环境搭建+提交任务方式

Flink环境搭建与任务提交详解

2022-08-03 09:55:48 2481

原创大数据学习之Spark-core常用代码示例

spark-core中常用代码块

2022-07-25 21:16:10 860

原创大数据学习之kafka的基本使用命令

2，创建topic，该命令可在任何位置执行kafka-topics.sh --create --zookeeper master:2181,node1:2181,node2:2181 --replication-factor 3 --partitions 3 --topic test_topic3--replication-factor ---每一个分区的副本数量, 同一个分区的副本不能放在同一个节点，副本的数量不能大于kafak集群节点的数量--partition --分区数，根据...

2022-07-25 21:06:51 1792

原创大数据学习之kafka环境搭建

由于配置了环境变量所以任意目录下都可启动（exportPATH=$PATH$KAFKA_HOME/bin），三个节点都需要启动。log.dirs=/usr/local/soft/kafka_2.11-1.0.0/data数据存放的位置。###将master中的而环境变量同步到node1和node2中，修改上面文件中的。#2、启动kafka，每个节点中都要启动（去中心化的架构）#2.1kafkabin目录下的启动命令与停止命令。#需要在每隔节点中执行启动的命令。###配置环境变量。...

2022-07-25 20:58:27 361

原创大数据学习之Spark任务创建及提交到集群服务器运行

一、简写大致思路1.写一个spark项目，将本地模式注释2，不需要打印输出，而是用saveAsTextFile（“hdfs路径”）将文件保存到hdfs3，将工程文件打包，上传到虚拟机spark下 exm --jars中，4，提交spark任务到集群运行（不需要启动spark也可运行） spark-submit --class 类的相对路径名（右击--copy Reference）--master 运行模式(yarn-client yarn-cluster) jar包名5，命令查看Hadoop dfs

2022-07-13 15:15:54 1025

原创大数据学习之bulkLoad实现批量导入

如果我们一次性入库hbase巨量数据，处理速度慢不说，还特别占用Region资源，一个比较高效便捷的方法就是使用 “Bulk Loading”方法，即HBase提供的HFileOutputFormat类。它是利用hbase的数据信息按照特定格式存储在hdfs内这一原理，直接生成这种hdfs内存储的数据格式文件，然后上传至合适位置，即完成巨量数据快速入库的办法。配合mapreduce完成，高效便捷，而且不占用region资源，增添负载。仅适合初次数据导入，即表内数据为空，或者每次入库表内都无数据的情况。HB

2022-06-15 14:43:20 1084

y_wang_的博客

原创十万个为什么之Hbase篇

原创大数据开发之CDH使用搭建大数据平台

原创数据开发之CDH搭建所需依赖如何配置？

原创数仓ETL堪比保姆级流程

原创大数据学习之状态+checkpoint

原创大数据学习之Flink环境搭建+提交任务方式

原创大数据学习之Spark-core常用代码示例

原创大数据学习之kafka的基本使用命令

原创大数据学习之kafka环境搭建

原创大数据学习之Spark任务创建及提交到集群服务器运行

原创大数据学习之bulkLoad实现批量导入

原创大数据学习之hbase搭建

原创大数据学习之hbse建表思想步骤

原创大数据学习之IO读取数据到hbase表中

原创 java API连接hbase创建表无法创建却一直运行的问题

原创 spring boot项目 web页面访问报错404问题

空空如也

空空如也