走多远才算远-CSDN博客

原创【sparkstreaming整理】

spark提供的实时计算的模块对Dstream进行操作实际上是对rdd进行操作，对rdd进行操作就是对rdd里面分区的元素进行操作。

2023-01-29 17:11:04 438

原创【sparksql整理】

主要处理结构化数据（带有schema信息）

2023-01-29 17:08:30 686

2.kafka 0.10.0版本之后 direct stream的方式加载kafka数据【效率高、代码开发简单】spark 3.x => kafka : 1.kafka版本： 0.10.0 or higher ok。1.获取kafka offset =》处理kafka数据 =》 “提交offset的操作” 没有。一个数据来自于 kafka sss 读取形成 DStream数据【量大】主业务 =》主表。“消费完kafka的数据程序重启之后接着从上次消费的位置接着消费 ”

2023-01-17 17:31:11 529

原创【Sparkstreaming_01】

sss开发与sparkcore 算子开发差不多2.spark Streaming 数据源：Kafka, Kinesis, or TCP sockets =》 input3.处理：算子的方式进行处理 =》 todo 建议不要使用flume 缓冲能力很弱之后数据计算直接把数据干到 spark里面会导致 spark计算程序挂掉指的就是 ReceiverInputDStream（接收器）

2023-01-16 18:03:07 240

原创【Spark_处理hive数据】

Spark_09_处理hive数据。

2023-01-14 13:02:11 746

原创【Spark_08_整合hive】

Spark_08_整合hive。

2023-01-14 12:56:51 209

原创【Spark_07_外部数据源】

Spark_07_外部数据源外部数据源:sparksql 加载外部数据源形成一个 df。

2023-01-14 12:54:28 234

原创【Sparksql_编程模型】

sparksql 主要处理结构化数据 1.1结构化数据：“带有schema信息的数据” 1.1.1：schema：table字段的名称、字段类型半结构化数据：非结构化数据： nosql2.sparksql在spark里面是一个模块，不仅仅是sql，还有dataframe1.sparksql 性能比 spark rdd 高的原因：2.sparksql架构有关：sparksql底层跑的是 Sparkcore rdd 只是spark框架底层给做了优化。

2023-01-14 12:51:49 245

原创【 RDD持久化】

1.cache() 不是action算子是lazy 是懒加载的rdda => cache => action job => rdd持久化生效rdda => action job rdda的数据从 rdd持久化的地方加载数据rddb.cache 之后 rddb之后数据就不用从头开机计算提升计算效率补充：对rdd做持久化就是对rdd里面的分区做持久化好处：1.much faster 【计算效率】2. reuse 复用。

2023-01-14 12:46:34 704

原创【spark作业核心概念】

一个application ：包含 1 到n 个job一个job：包含 1到n个stagerdda => rddb =>rddc action => 一个job一个stage：包含 1个到n个tasktask 和 partition 一一对应1.driver。

2023-01-14 12:38:09 461

原创【Spark-core算子】

【toc】

2023-01-13 16:23:56 267

原创【Spark_02】

1.Spark creates one partition for each block of the file hdfs [没有问题的]1=>2=>3=>4 action => job作业的执行。makeRDD =>了解 =》 parallelize。spark-core =》最终的rdd的分区数。map相关的算子、kv类型的算子、other算子。3.从已经存在rdd转换生成一个新的rdd。1.map 一个作用的rdd里面每一个元素。rdd api => 算子。处理rdd里面每一个元素。

2023-01-11 17:20:38 179

原创【spark_01】

spark、flink 支持外部数据源 =》 mysql/clickhouse/drois => 数据可视化展示。离线计算、实时计算 =》 rpt层 =》数据存储的库查询速度一定要快 =》数据可视化展示。 sqoop =》 mysql/clickhouse/drois => 数据可视化展示。spark => hdfs => tasks数 =》 parition数。2.业务数据 =》采集 =》 sqoop =》 hdfs/hive。

2023-01-11 08:53:48 186

原创【Hive_Function_调优】

set hive.exec.reducers.bytes.per.reducer =》每个reduce 处理的数据量。hive.exec.mode.local.auto.input.files.max =》按照文件加载的个数。hive.exec.mode.local.auto.inputbytes.max =》按照加载的数据量。hive.exec.mode.local.auto.tasks.max =》按照task。sum(if(gender=‘男’,1,0) ) as male_cnt,

2023-01-03 14:49:54 99

原创【Scala_笔记】

scala是一门多范式的编程语言，类似java，设计初衷是实现可伸缩的语言，并集成面向对象和函数式编程的各种特性。1.scala里面默认方法体的最后一行作为该方法的返回值不需要写return。6.特质 =》 java 接口 =》对一个类的补充 + 某一类事物的共性。1.val xxx:数据类型=值，方法返回值类型可以进行类型推断。 1.win：安装scala + idea 安装 scala 插件。 1.spark，flink 的底层大部分都是用scala开发的。

2022-12-27 15:53:18 1048

原创【kafka_02_笔记】

2.后续的segment名称是上一个segment文件的最后一条消息的【offset值+1】来表示。1.【二分查找】

2022-12-27 15:52:36 90

原创【kafka_01】

zookeeper.connect= bigdata32:2181,bigdata33:2181,bigdata34:2181/kafka => zookeeper地址。log.dirs=/home/hadoop/data/kafka => kafka存储数据的目录。1.kafka后面接一个实时计算的框架： spark/flink 正确使用。Leader、Replicas、Isr：kafka 机器broker 对应的编号。2.构建实时的数据通道、流式数据分析、流式的app。

2022-12-20 08:55:14 190

原创【zookeeper】

安装包地址：https://dlcdn.apache.org/zookeeper/zookeeper-3.8.0/apache-zookeeper-3.8.0-bin.tar.gz。解压： tar -zxvf apache-zookeeper-3.8.0-bin.tar.gz -C ~/app/软连接：ln -s apache-zookeeper-3.8.0-bin/ zookeeper。1.官网：https://zookeeper.apache.org/3.zk里面所有的目录都叫做节点 znode。

2022-12-20 08:53:16 62

原创【Flume_03_笔记】

channel选择器：channel selectors 负责指定采集的数据发送到指定的channel。EventTakeSuccessCount（从channel中成功取走的event数量）EventPutSuccessCount（成功放入channel的event数量）EventAcceptedCount（成功放入channel的event数量）AppendAcceptedCount（放入channel的event数量）

2022-12-15 08:16:06 193

原创【 Flume_02_笔记】

hdfs.useLocalTimeStamp false =》true 指定数据罗盘：依照的时间是本地机器时间，不是数据本身的时间。a1.sinks.k1.hive.metastore= => 需要hive 启动metastore 服务。读取1111端口数据数据发送到2222端口最终2222端口把数据写入hdfs？ body：存数据（默认 1 ）目的是：正确的数据落到正确的目录下。先产生的数据后到，后产生的数据先到。数据清洗：正确的数据重新落盘到正确的分区。

2022-12-15 08:15:20 170

原创【flume_01】

linux 1个文件 => flume => hdfs 几个文件 =》 hdfs小文件问题？2.streaming data flows flume采集数据实时采集数据。2.采集过的日志内容 flume挂掉了重启会导致数据重复采集。为什么flume 采集数据到hdfs？avro 序列化框架 source ****taildir Source 日志文件 ****flume采集数据hdfs 小文件问题如何解决？NetCat TCP port采集数据 **

2022-12-12 19:27:21 136

原创【xxl_钉钉报警】

1bf5a7066a72227e2cf2e682c7dd5226804e3d9517de81781fb6feaad2d179aa” “ding” “报警测试” “bigdata32” “18612199560”-d ‘{“msgtype”: “text”,“text”: {“content”:“报警我就是我, 是不一样的烟火”}}’./ding_warning.sh “阿珍” “爱上阿强” “今晚再说” “bigdata33” “15642169035”u01,子航,鼠标,ios 1。

2022-12-12 19:25:53 178

原创【xxl_笔记】

1.初始化"调度数据库" xxl 元数据库 =》在源码中的doc/db/tables 在mysql建一个库，hive的元数据库也部署在mysql。目前较好用的两个任务定时调度框架： xxl、dolphinschduler。假如有a，b，c 三个任务需求：每过10分钟依次执行一次（很难保证准确无误）文档地址：https://www.xuxueli.com/xxl-job/ 1.它们是多任务之间的依赖关系：DAG （有向无环图） 1.老大：调度中心。 2.小第：执行器。

2022-12-12 19:24:39 72

原创【 Superset_02】

1.试着做一个dashboard 【按照自己的想法做】1.图表【各种各样的图表放置在dashboard】数据可视化：把我们数据更好理解数据的内容。结果数据库：相应数据 ms s1-2。8.筛选框【下拉框】ok。

2022-12-08 15:53:19 199

原创【Superset_01】

Unknown error” ](https://www.cnblogs.com/maowenqiang/articles/7728685.html）1.按照区域求最受欢迎的商品的 top3。1.按照区域求最受欢迎的商品的 top3。1.区域商品商品点击次数。

2022-12-08 15:48:16 188

原创【Sqoop_笔记】

官网：sqoop.apache.org应用场景：主要用来把hadoop生态圈和关系型数据库进行数据同步1.部署：[hadoop@bigdata13 software]$ rz 上传【遇到上传失败乱码问题】用命令 rz - bey 解决[hadoop@bigdata32 software]$ tar -zxvf sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz -C ~/app/[hadoop@bigdata32 app]$ ln -s sqoop-1.4.7.bin__hado

2022-12-05 18:00:25 106

原创【Hive_04】

[hadoop@bigdata32 exemple]$ cat user_shop.txtuser_id shopu1,au2,bu1,bu1,au3,cu4,bu1,au2,cu5,bu4,bu6,cu2,cu1,bu2,au2,au3,au5,au5,au5,apv =》页面浏览量 3个用户每个人访问了 10次页面 30uv =》访客次数 3个用户每个人访问了 10次页面 3create table user_shop(user_i

2022-12-05 17:58:56 167

原创【Hive_03】

1.hive 表注释中文显示问题？2.beeline 日志级别设置？1.开启服务常用操作1.shell命令去开启某个服务1.在当前会话直接使用脚本 =》仅仅是测试时候使用弊端：关闭session 那么服务就停止了1.table1.内部表 vs 外部表内部表(MANAGED_TABLE) [受hive管控的表]:外部表：EXTERNAL区别：内部表： data + metadata =》 drop 表中数据和元数据都被删除外部表：metadata =》drop 只有元数据

2022-12-05 17:58:01 417

原创【Hive_02】

DDL：Data Definition Language需求：1.各个部门每年入职的人数selectdeptno,year(hiredate),count(*)from empgroup by deptno year(hiredate); 2.整个公司每年每月的入职人数year,month函数：select year(hiredate),month(hiredate),count(*)from empgroup by year(hiredate),month(hiredate);date_format函

2022-12-05 17:57:10 513

空空如也

空空如也