自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(49)
  • 收藏
  • 关注

原创 【sparkstreaming整理】

spark提供的实时计算的模块对Dstream进行操作实际上是对rdd进行操作,对rdd进行操作就是对rdd里面分区的元素进行操作。

2023-01-29 17:11:04 438

原创 【sparksql整理】

主要处理结构化数据(带有schema信息)

2023-01-29 17:08:30 686

原创 【sparkcore整理】

转换算子都是懒加载的。

2023-01-29 17:05:42 448

原创 【SparkStreaming_整合kafka】

2.kafka 0.10.0版本之后 direct stream的方式加载kafka数据 【效率高、代码开发简单】spark 3.x => kafka : 1.kafka版本: 0.10.0 or higher ok。1.获取kafka offset =》 处理kafka数据 =》 “提交offset的操作” 没有。一个数据 来自于 kafka sss 读取形成 DStream数据 【量大】 主业务 =》 主表。“消费完kafka的数据 程序重启之后接着从上次消费的位置接着消费 ”

2023-01-17 17:31:11 529

原创 【Sparkstreaming_01】

sss开发 与sparkcore 算子开发 差不多2.spark Streaming 数据源:Kafka, Kinesis, or TCP sockets =》 input3.处理: 算子的方式进行处理 =》 todo​ 建议不要使用flume 缓冲能力很弱 之后数据计算 直接把数据干到 spark里面 会导致 spark计算程序挂掉指的就是 ReceiverInputDStream(接收器)

2023-01-16 18:03:07 240

原创 【Spark_处理hive数据】

Spark_09_处理hive数据。

2023-01-14 13:02:11 746

原创 【Spark_08_整合hive】

Spark_08_整合hive。

2023-01-14 12:56:51 209

原创 【Spark_07_外部数据源】

Spark_07_外部数据源外部数据源:sparksql 加载外部数据源 形成一个 df。

2023-01-14 12:54:28 234

原创 【Sparksql_编程模型】

​ sparksql 主要处理结构化数据​ 1.1结构化数据:“带有schema信息的数据”​ 1.1.1:schema:table字段的名称、字段类型半结构化数据:非结构化数据: nosql2.sparksql在spark里面是一个模块,不仅仅是sql,还有dataframe1.sparksql 性能比 spark rdd 高的原因:2.sparksql架构有关:sparksql底层跑的是 Sparkcore rdd 只是spark框架底层给做了优化。

2023-01-14 12:51:49 245

原创 【 RDD持久化】

1.cache() 不是action算子 是lazy 是懒加载的rdda => cache => action job => rdd持久化 生效rdda => action job rdda的数据从 rdd持久化的地方加载数据rddb.cache 之后 rddb之后数据就不用从头开机计算 提升计算效率补充:对rdd做持久化 就是对rdd里面的分区做持久化好处:1.much faster 【计算效率】2. reuse 复用。

2023-01-14 12:46:34 704

原创 【spark作业核心概念】

一个application :包含 1 到n 个job一个job: 包含 1到n个stagerdda => rddb =>rddc action => 一个job一个stage:包含 1个到n个tasktask 和 partition 一一对应1.driver。

2023-01-14 12:38:09 461

原创 【Spark-core算子】

【toc】

2023-01-13 16:23:56 267

原创 【Spark_02】

1.Spark creates one partition for each block of the file hdfs [没有问题的]1=>2=>3=>4 action => job作业的执行。makeRDD =>了解 =》 parallelize。spark-core =》 最终的rdd的分区数。map相关的算子、kv类型的算子、other算子。3.从已经存在rdd转换生成一个新的rdd。1.map 一个作用的rdd里面每一个元素。rdd api => 算子。处理rdd里面每一个元素。

2023-01-11 17:20:38 179

原创 【spark_01】

​ spark、flink 支持外部数据源 =》 mysql/clickhouse/drois => 数据可视化展示。离线计算、实时计算 =》 rpt层 =》 数据存储的库 查询速度一定要快 =》 数据可视化展示。​ sqoop =》 mysql/clickhouse/drois => 数据可视化展示。spark => hdfs => tasks数 =》 parition数。2.业务数据 =》采集 =》 sqoop =》 hdfs/hive。

2023-01-11 08:53:48 186

原创 【Hive_Function_调优】

set hive.exec.reducers.bytes.per.reducer =》 每个reduce 处理的数据量。hive.exec.mode.local.auto.input.files.max =》按照文件加载的个数。hive.exec.mode.local.auto.inputbytes.max =》 按照加载的数据量。hive.exec.mode.local.auto.tasks.max =》按照task。sum(if(gender=‘男’,1,0) ) as male_cnt,

2023-01-03 14:49:54 99

原创 【Scala_笔记】

​ scala是一门多范式的编程语言,类似java,设计初衷是实现可伸缩的语言,并集成面向对象和函数式编程的各种特性。1.scala里面 默认方法体的最后一行 作为该方法的返回值 不需要写return。6.特质 =》 java 接口 =》对一个类的补充 + 某一类事物的共性。1.val xxx:数据类型=值 ,方法返回值类型 可以进行 类型推断。​ 1.win:安装scala + idea 安装 scala 插件。​ 1.spark,flink 的底层大部分都是用scala开发的。

2022-12-27 15:53:18 1048

原创 【kafka_02_笔记】

2.后续的segment名称 是上一个segment文件的最后一条消息的【offset值+1】 来表示。1.【二分查找】

2022-12-27 15:52:36 90

原创 【kafka_01】

zookeeper.connect= bigdata32:2181,bigdata33:2181,bigdata34:2181/kafka => zookeeper地址。log.dirs=/home/hadoop/data/kafka => kafka存储数据的目录。1.kafka后面接一个 实时计算的框架 : spark/flink 正确使用。Leader、Replicas、Isr:kafka 机器broker 对应的编号。2.构建 实时的数据通道 、流式数据分析、流式的app。

2022-12-20 08:55:14 190

原创 【zookeeper】

安装包地址:https://dlcdn.apache.org/zookeeper/zookeeper-3.8.0/apache-zookeeper-3.8.0-bin.tar.gz。解压: tar -zxvf apache-zookeeper-3.8.0-bin.tar.gz -C ~/app/软连接:ln -s apache-zookeeper-3.8.0-bin/ zookeeper。1.官网:https://zookeeper.apache.org/3.zk里面所有的目录 都叫做节点 znode。

2022-12-20 08:53:16 62

原创 【Flume_03_笔记】

​ channel选择器:channel selectors 负责 指定采集的数据 发送到指定的channel。EventTakeSuccessCount(从channel中成功取走的event数量)EventPutSuccessCount(成功放入channel的event数量)EventAcceptedCount(成功放入channel的event数量)AppendAcceptedCount(放入channel的event数量)

2022-12-15 08:16:06 193

原创 【 Flume_02_笔记】

hdfs.useLocalTimeStamp false =》true 指定数据罗盘:依照的时间是本地机器时间,不是数据本身的时间。a1.sinks.k1.hive.metastore= => 需要hive 启动metastore 服务。读取1111端口数据 数据发送到2222端口 最终2222端口 把数据写入hdfs?​ body:存数据 (默认 1 ) 目的是:正确的数据落到正确的目录下。​ 先产生的数据后到,后产生的数据先到。数据清洗:正确的数据重新落盘到正确的分区。

2022-12-15 08:15:20 170

原创 【flume_01】

linux 1个文件 => flume => hdfs 几个文件 =》 hdfs小文件问题?2.streaming data flows flume采集数据 实时采集数据。2.采集过的日志内容 flume挂掉了 重启 会导致 数据重复采集。为什么flume 采集数据 到hdfs?avro 序列化框架 source ****taildir Source 日志文件 ****flume采集数据hdfs 小文件问题如何解决?NetCat TCP port采集数据 **

2022-12-12 19:27:21 136

原创 【xxl_钉钉报警】

1bf5a7066a72227e2cf2e682c7dd5226804e3d9517de81781fb6feaad2d179aa” “ding” “报警测试” “bigdata32” “18612199560”-d ‘{“msgtype”: “text”,“text”: {“content”:“报警我就是我, 是不一样的烟火”}}’./ding_warning.sh “阿珍” “爱上阿强” “今晚再说” “bigdata33” “15642169035”u01,子航,鼠标,ios 1。

2022-12-12 19:25:53 178

原创 【xxl_笔记】

​ 1.初始化"调度数据库" xxl 元数据库 =》在源码中的doc/db/tables 在mysql建一个库,hive的元数据库也 部署在mysql。​ 目前较好用的两个任务定时调度框架: xxl、dolphinschduler。假如有a,b,c 三个任务 需求:每过10分钟依次执行一次(很难保证准确无误)​ 文档地址:https://www.xuxueli.com/xxl-job/​ 1.它们是多任务之间的依赖关系:DAG (有向无环图)​ 1.老大:调度中心。​ 2.小第:执行器。

2022-12-12 19:24:39 72

原创 【 Superset_02】

1.试着做一个dashboard 【按照自己的想法做】1.图表 【各种各样的图表放置在dashboard】数据可视化: 把我们数据 更好理解数据的内容。结果数据库: 相应数据 ms s1-2。8.筛选框【下拉框】ok。

2022-12-08 15:53:19 199

原创 【Superset_01】

Unknown error” ](https://www.cnblogs.com/maowenqiang/articles/7728685.html)1.按照 区域求最受欢迎的商品的 top3。1.按照 区域求最受欢迎的商品的 top3。1.区域 商品 商品点击次数。

2022-12-08 15:48:16 188

原创 【Sqoop_笔记】

官网:sqoop.apache.org应用场景:主要用来把hadoop生态圈和关系型数据库进行数据同步1.部署:[hadoop@bigdata13 software]$ rz 上传 【遇到上传失败乱码问题】用命令 rz - bey 解决[hadoop@bigdata32 software]$ tar -zxvf sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz -C ~/app/[hadoop@bigdata32 app]$ ln -s sqoop-1.4.7.bin__hado

2022-12-05 18:00:25 106

原创 【Hive_04】

[hadoop@bigdata32 exemple]$ cat user_shop.txtuser_id shopu1,au2,bu1,bu1,au3,cu4,bu1,au2,cu5,bu4,bu6,cu2,cu1,bu2,au2,au3,au5,au5,au5,apv =》 页面浏览量 3个用户 每个人 访问了 10次页面 30uv =》 访客次数 3个用户 每个人 访问了 10次页面 3create table user_shop(user_i

2022-12-05 17:58:56 167

原创 【Hive_03】

1.hive 表 注释中文显示问题?2.beeline 日志级别设置?1.开启服务常用操作1.shell命令 去开启 某个服务1.在当前会话直接使用脚本 =》 仅仅是测试时候使用弊端:关闭session 那么服务就停止了1.table1.内部表 vs 外部表内部表(MANAGED_TABLE) [受hive管控的表]:外部表:EXTERNAL区别:内部表: data + metadata =》 drop 表中数据和元数据都被删除外部表:metadata =》drop 只有元数据

2022-12-05 17:58:01 417

原创 【Hive_02】

DDL:Data Definition Language需求:1.各个部门每年入职的人数selectdeptno,year(hiredate),count(*)from empgroup by deptno year(hiredate);​ 2.整个公司每年每月的入职人数year,month函数:select year(hiredate),month(hiredate),count(*)from empgroup by year(hiredate),month(hiredate);date_format函

2022-12-05 17:57:10 513

原创 【Hive_01】

​ SQL on hadoop​ hive sparksql presto impalahadoop :hdfs :命令行、apimapreduce :编程(工作中 几乎不用 但是 核心类 和 思想 必须掌握)yarn : 提交作业 xxx(mr/spark/flink) on yarnyarn的执行流程一定要会的mapreduce弊端:1.开发大量代码【编程基础】2.业务变更 code 修改起来非常非常麻烦3.对于传统 DBA RDBMS 小伙伴来说 是不友好的大数据处理来

2022-12-05 17:56:06 459

原创 【yarn】

回顾:HDFS:​ namenode​ datanode​ snn2.file block:​ 1.size 128m​ 2.副本数3.hdfs命令:​ 1.hadoop fs​ 2.hdfs dfs4.hdfs api :​ Filesystem5.安全模式:​ 1.读文件​ 2.写数据不可以​ 3.命令:6.读写流程7.副本放置策略 rackMapreduce:​ map reduce​ 1.input​ 2.处理​

2022-12-05 17:54:41 159

原创 【mysql】

> 对整张表的age字段进行修改。select * from user_info where name=‘子航01’;delete 删除也要加过滤条件,如果不加,则删除整张表的数据。基于上面的结果 求:age_avg 大于18岁的 信息?以右表为主 数据是全的 左表来匹配 匹配不上就是null。表名后不跟要添加的字段,默认添加所有的字段。

2022-11-25 16:52:54 293

原创 【16_hadoop_reduce】

3.reduce task 个数 最终文件输出的时候 就有多少个文件。1.reduce task个数 > partitions 会有空文件。4.reduce task个数1 就是默认值 最终会有一个文件产生。3.reduce task个数 = partitions 没问题。3.Map task 个数由什么东西决定的?4.Reduce task 个数由什么东西决定的?120M =》 1个切片 =》一个maptask。4.Reduce task 个数由什么东西决定的?一个文件加载的时候会形成几个切片?

2022-11-22 10:22:34 456

原创 【15_hadoop_mapreduce思想】

MapReduce:1.1.in-parallel on large clusters (thousands of nodes) of 【以并行方式处理数据】1.用的不多 ,重点是思想2.为什么说非常容易编写程序:1.非常多的接口业务逻辑+MR api =》 开发完 mr程序 =》 提交到yarn 运行3.mr 适用于 离线数据计算 【不适合流式数据计算】3.mapreduce 做词频统计大数据处理三段论:1.input2.处理3.output。

2022-11-20 10:45:54 364

原创 【hadoop_读写流程】

nn回去检查这个路径的文件是否已经存在,是否有权限能够创建这个文件,2.Client 不一定在DN节点,随机选择一个DN。3.HDFS 副本放置策略 【面试,生产都会用到】此时,任然没有写数据,不关联任何的block块。hadoop 、hive hadoop用户。放置在第一个副本的不同机架上的某个DN节点。杀死进程:kill -9 pid 暴力杀死。hive 创建一个hive用户。生产上读写操作,选择DN节点进行读取。1.放置在client上传的DN节点。杀死进程 : kill id;

2022-11-17 20:56:30 831

原创 【12_hadoop】

4.本地更新1.log 文件内容添加bigdata 并 上传本地文件 1.log 到/hdfspre/01/02/03。7.修改/hdfspre/01/02/1.log 名字为 /hdfspre/01/02/1_blk.log。5.修改/hdfspre/01/02/03/1.log 权限是 765。10.查看hdfs上/hdfspre/01/02/03/ 下文件内容。4.上传本地文件 1.log 到/hdfspre/01/02/03。1.创建/hdfspre/01/02/03 文件夹。

2022-11-17 19:47:41 212

原创 【13_hadoop】

1.fsimage+编辑日志文件 定期拿过来 进行葛冰 备份 推送给 老大。第一块 128M 128M。第二块 128M 128M。管路文件系统的命名空间 其实就是维护文件系统树的文件和文件夹。这样做的目的: 生产上 可能发生 文件块 丢失或损坏。2.每隔一定的时间发送一次 blockreport。1.块大小 128M blocksize。1.存储数据块和完成数据块的校验。1.文件进行拆分 文件块。HDFS:负责存储数据。

2022-11-17 11:10:48 246

原创 【11_hadoop】

hadoop@bigdata32 app]$hdfs namenode -format 【格式化操作 部署时候做一次即可】namenode在哪 就在哪台机器格式化。start-yarn.sh =>resourcemanager在哪 就在哪启动。2.bigdata32 同步 jdk安装目录 到其他机器 33 34。start-dfs.sh =>namenode在哪 就在哪启动。先配置bigdata32 + 同步。3.编写查看 java 进程的脚本。先部署bigdata32+ 同步。

2022-11-15 08:32:39 73

原创 【Linuxday01】

> : 键 命令行模式 =》尾行模式 输入 wq 保存退出。1.全局变量 :/etc/profile 所有用户都可以使用。ls -l 显示额外的信息【权限,用户用户组 大小 时间】2.机器的名字+ 路径:机器存储路径 + 存储路径。中断命令:ctrl +v 或 ctrl + Z。1.关联linux镜像 =》 linux部署。ls -l -a 显示以.开头的文件和文件夹。按键盘 esc键 编辑模式 =》命令行模式。root 默认的管理员 最大的权限用户。vim xx.log => 命令行模式。

2022-11-13 10:34:27 177

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除