【SparkStreaming_整合kafka】 2.kafka 0.10.0版本之后 direct stream的方式加载kafka数据 【效率高、代码开发简单】spark 3.x => kafka : 1.kafka版本: 0.10.0 or higher ok。1.获取kafka offset =》 处理kafka数据 =》 “提交offset的操作” 没有。一个数据 来自于 kafka sss 读取形成 DStream数据 【量大】 主业务 =》 主表。“消费完kafka的数据 程序重启之后接着从上次消费的位置接着消费 ”
【Sparkstreaming_01】 sss开发 与sparkcore 算子开发 差不多2.spark Streaming 数据源:Kafka, Kinesis, or TCP sockets =》 input3.处理: 算子的方式进行处理 =》 todo 建议不要使用flume 缓冲能力很弱 之后数据计算 直接把数据干到 spark里面 会导致 spark计算程序挂掉指的就是 ReceiverInputDStream(接收器)
【Sparksql_编程模型】 sparksql 主要处理结构化数据 1.1结构化数据:“带有schema信息的数据” 1.1.1:schema:table字段的名称、字段类型半结构化数据:非结构化数据: nosql2.sparksql在spark里面是一个模块,不仅仅是sql,还有dataframe1.sparksql 性能比 spark rdd 高的原因:2.sparksql架构有关:sparksql底层跑的是 Sparkcore rdd 只是spark框架底层给做了优化。
【 RDD持久化】 1.cache() 不是action算子 是lazy 是懒加载的rdda => cache => action job => rdd持久化 生效rdda => action job rdda的数据从 rdd持久化的地方加载数据rddb.cache 之后 rddb之后数据就不用从头开机计算 提升计算效率补充:对rdd做持久化 就是对rdd里面的分区做持久化好处:1.much faster 【计算效率】2. reuse 复用。
【spark作业核心概念】 一个application :包含 1 到n 个job一个job: 包含 1到n个stagerdda => rddb =>rddc action => 一个job一个stage:包含 1个到n个tasktask 和 partition 一一对应1.driver。
【Spark_02】 1.Spark creates one partition for each block of the file hdfs [没有问题的]1=>2=>3=>4 action => job作业的执行。makeRDD =>了解 =》 parallelize。spark-core =》 最终的rdd的分区数。map相关的算子、kv类型的算子、other算子。3.从已经存在rdd转换生成一个新的rdd。1.map 一个作用的rdd里面每一个元素。rdd api => 算子。处理rdd里面每一个元素。
【spark_01】 spark、flink 支持外部数据源 =》 mysql/clickhouse/drois => 数据可视化展示。离线计算、实时计算 =》 rpt层 =》 数据存储的库 查询速度一定要快 =》 数据可视化展示。 sqoop =》 mysql/clickhouse/drois => 数据可视化展示。spark => hdfs => tasks数 =》 parition数。2.业务数据 =》采集 =》 sqoop =》 hdfs/hive。
【Hive_Function_调优】 set hive.exec.reducers.bytes.per.reducer =》 每个reduce 处理的数据量。hive.exec.mode.local.auto.input.files.max =》按照文件加载的个数。hive.exec.mode.local.auto.inputbytes.max =》 按照加载的数据量。hive.exec.mode.local.auto.tasks.max =》按照task。sum(if(gender=‘男’,1,0) ) as male_cnt,
【Scala_笔记】 scala是一门多范式的编程语言,类似java,设计初衷是实现可伸缩的语言,并集成面向对象和函数式编程的各种特性。1.scala里面 默认方法体的最后一行 作为该方法的返回值 不需要写return。6.特质 =》 java 接口 =》对一个类的补充 + 某一类事物的共性。1.val xxx:数据类型=值 ,方法返回值类型 可以进行 类型推断。 1.win:安装scala + idea 安装 scala 插件。 1.spark,flink 的底层大部分都是用scala开发的。
【kafka_01】 zookeeper.connect= bigdata32:2181,bigdata33:2181,bigdata34:2181/kafka => zookeeper地址。log.dirs=/home/hadoop/data/kafka => kafka存储数据的目录。1.kafka后面接一个 实时计算的框架 : spark/flink 正确使用。Leader、Replicas、Isr:kafka 机器broker 对应的编号。2.构建 实时的数据通道 、流式数据分析、流式的app。
【zookeeper】 安装包地址:https://dlcdn.apache.org/zookeeper/zookeeper-3.8.0/apache-zookeeper-3.8.0-bin.tar.gz。解压: tar -zxvf apache-zookeeper-3.8.0-bin.tar.gz -C ~/app/软连接:ln -s apache-zookeeper-3.8.0-bin/ zookeeper。1.官网:https://zookeeper.apache.org/3.zk里面所有的目录 都叫做节点 znode。
【Flume_03_笔记】 channel选择器:channel selectors 负责 指定采集的数据 发送到指定的channel。EventTakeSuccessCount(从channel中成功取走的event数量)EventPutSuccessCount(成功放入channel的event数量)EventAcceptedCount(成功放入channel的event数量)AppendAcceptedCount(放入channel的event数量)