大数据
文章平均质量分 71
森林里的北极猿
心有猛虎,也要细嗅蔷薇
展开
-
Flink笔记
其实就是实现FilterFuntion方法之类的Rich Funtion函数类,RichReduceFuntion,RichFilter Function等只要带Rich的,就可以获取上下文环境和生命周期方法例如open()和close()方法open()初始化,只会在算子运行之前调用一次,有多个并行度,调用多次close(),一般用来做一些清理工作getRuntimeContext(),获取上下文的信息重写 invoke方法。原创 2023-02-01 22:10:09 · 1252 阅读 · 0 评论 -
Hbase的面试
先回答RowKey是什么,再回答为什么要这样设计。原创 2022-12-22 16:07:58 · 177 阅读 · 0 评论 -
HiveSQL面试高频题(1)
建表,数据sql原创 2022-10-11 12:40:35 · 231 阅读 · 0 评论 -
Kafka知识点
继承接口Partitioner,重写方法//对value进行分区StringmsgValue=value.toString();}else{>map){}}在生产者中加入自定义分区器配置运行,当值为hello的时候,消息发送到1号分区当值为atguigu的时候,消息发送到0号分区。.........原创 2022-08-01 09:31:59 · 586 阅读 · 0 评论 -
Flume知识点
flume最主要的作用就是,服务器本地磁盘数据,将数据写入到。(最主流)原创 2022-07-18 09:42:59 · 668 阅读 · 0 评论 -
Zookeeper知识点
zookeeper=文件系统+通知机制从角度理解,是一个基于设计的分布式服务管理框架,它负责和,然后,一旦这些数据的状态发生,Zookeeper就将负责在Zookeeper上作出相关的反应。原创 2022-07-16 01:08:57 · 975 阅读 · 0 评论 -
HBase API练习
代码】HBaseAPI练习。原创 2022-07-15 16:23:37 · 401 阅读 · 0 评论 -
Spark知识点(SparkStreaming)
SparkStirng称为准实时(秒,分钟),微批次(时间)数据处理框架StreamingContext中第一个参数代表环境的配置,第二个参数表示 批处理的周期 (采集周期)这里进行的wordCount的Demo,输入数据的时候利用空格隔开他不能使用ssc.stop()直接关闭,运行程序直接结束,我们还怎么传数据?所以我们启动采集器,加上等待采集器的执行这里我们利用netcat工具(使用方法,在netcat文件夹下,启动cmd程序,输入指令)然后同时运行我们的程序可以看到当我们输入单词的时候,原创 2022-07-13 00:05:29 · 328 阅读 · 0 评论 -
Spark知识点(SQL)
Spark SQL是用于处理结构化数据的一个模块DataFrame类似于传统数据库中的二维表格,他于RDD的区别在,DataFrame带有模式源信息,就是二维表的每一列都带有名称和类型。RDD由于无法得知具体的一个内部结构,Spark Core只能在stage层进行简单通用的流水线优化。左边的RDD,为Person类型的参数,但是Spark并不了解它的内部结构。右边的DataFrame,提供了详细的结构信息,SparkSQL就能清楚的知道每一行每一列的名称还有数据类型。是 DataFrame的一个扩展,原创 2022-07-12 21:03:54 · 760 阅读 · 0 评论 -
Spark知识点(RDD)
Spark的一些学习笔记,适合用来回顾知识,面试准备,课程了解。。。原创 2022-07-11 16:35:01 · 1096 阅读 · 0 评论 -
Spark的WordCount小练习
wordCount八种方式原创 2022-07-10 16:27:09 · 256 阅读 · 0 评论