走多远才算远
码龄5年
关注
提问 私信
  • 博客:17,597
    17,597
    总访问量
  • 49
    原创
  • 1,642,291
    排名
  • 3
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:四川省
  • 加入CSDN时间: 2020-05-18
博客简介:

weixin_47922102的博客

查看详细资料
个人成就
  • 获得2次点赞
  • 内容获得1次评论
  • 获得6次收藏
创作历程
  • 15篇
    2023年
  • 34篇
    2022年
成就勋章
TA的专栏
  • flume
    3篇
  • xxl
    2篇
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

【sparkstreaming整理】

spark提供的实时计算的模块对Dstream进行操作实际上是对rdd进行操作,对rdd进行操作就是对rdd里面分区的元素进行操作。
原创
发布博客 2023.01.29 ·
489 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

【sparksql整理】

主要处理结构化数据(带有schema信息)
原创
发布博客 2023.01.29 ·
911 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

【sparkcore整理】

转换算子都是懒加载的。
原创
发布博客 2023.01.29 ·
592 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

【SparkStreaming_整合kafka】

2.kafka 0.10.0版本之后 direct stream的方式加载kafka数据 【效率高、代码开发简单】spark 3.x => kafka : 1.kafka版本: 0.10.0 or higher ok。1.获取kafka offset =》 处理kafka数据 =》 “提交offset的操作” 没有。一个数据 来自于 kafka sss 读取形成 DStream数据 【量大】 主业务 =》 主表。“消费完kafka的数据 程序重启之后接着从上次消费的位置接着消费 ”
原创
发布博客 2023.01.17 ·
794 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

【Sparkstreaming_01】

sss开发 与sparkcore 算子开发 差不多2.spark Streaming 数据源:Kafka, Kinesis, or TCP sockets =》 input3.处理: 算子的方式进行处理 =》 todo​ 建议不要使用flume 缓冲能力很弱 之后数据计算 直接把数据干到 spark里面 会导致 spark计算程序挂掉指的就是 ReceiverInputDStream(接收器)
原创
发布博客 2023.01.16 ·
674 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

【Spark_处理hive数据】

Spark_09_处理hive数据。
原创
发布博客 2023.01.14 ·
808 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

【Spark_08_整合hive】

Spark_08_整合hive。
原创
发布博客 2023.01.14 ·
286 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

【Spark_07_外部数据源】

Spark_07_外部数据源外部数据源:sparksql 加载外部数据源 形成一个 df。
原创
发布博客 2023.01.14 ·
364 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

【Sparksql_编程模型】

​ sparksql 主要处理结构化数据​ 1.1结构化数据:“带有schema信息的数据”​ 1.1.1:schema:table字段的名称、字段类型半结构化数据:非结构化数据: nosql2.sparksql在spark里面是一个模块,不仅仅是sql,还有dataframe1.sparksql 性能比 spark rdd 高的原因:2.sparksql架构有关:sparksql底层跑的是 Sparkcore rdd 只是spark框架底层给做了优化。
原创
发布博客 2023.01.14 ·
470 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

【 RDD持久化】

1.cache() 不是action算子 是lazy 是懒加载的rdda => cache => action job => rdd持久化 生效rdda => action job rdda的数据从 rdd持久化的地方加载数据rddb.cache 之后 rddb之后数据就不用从头开机计算 提升计算效率补充:对rdd做持久化 就是对rdd里面的分区做持久化好处:1.much faster 【计算效率】2. reuse 复用。
原创
发布博客 2023.01.14 ·
883 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

【spark作业核心概念】

一个application :包含 1 到n 个job一个job: 包含 1到n个stagerdda => rddb =>rddc action => 一个job一个stage:包含 1个到n个tasktask 和 partition 一一对应1.driver。
原创
发布博客 2023.01.14 ·
482 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

【Spark-core算子】

【toc】
原创
发布博客 2023.01.13 ·
400 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

【Spark_02】

1.Spark creates one partition for each block of the file hdfs [没有问题的]1=>2=>3=>4 action => job作业的执行。makeRDD =>了解 =》 parallelize。spark-core =》 最终的rdd的分区数。map相关的算子、kv类型的算子、other算子。3.从已经存在rdd转换生成一个新的rdd。1.map 一个作用的rdd里面每一个元素。rdd api => 算子。处理rdd里面每一个元素。
原创
发布博客 2023.01.11 ·
191 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

【spark_01】

​ spark、flink 支持外部数据源 =》 mysql/clickhouse/drois => 数据可视化展示。离线计算、实时计算 =》 rpt层 =》 数据存储的库 查询速度一定要快 =》 数据可视化展示。​ sqoop =》 mysql/clickhouse/drois => 数据可视化展示。spark => hdfs => tasks数 =》 parition数。2.业务数据 =》采集 =》 sqoop =》 hdfs/hive。
原创
发布博客 2023.01.11 ·
215 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

【Hive_Function_调优】

set hive.exec.reducers.bytes.per.reducer =》 每个reduce 处理的数据量。hive.exec.mode.local.auto.input.files.max =》按照文件加载的个数。hive.exec.mode.local.auto.inputbytes.max =》 按照加载的数据量。hive.exec.mode.local.auto.tasks.max =》按照task。sum(if(gender=‘男’,1,0) ) as male_cnt,
原创
发布博客 2023.01.03 ·
115 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

【Scala_笔记】

​ scala是一门多范式的编程语言,类似java,设计初衷是实现可伸缩的语言,并集成面向对象和函数式编程的各种特性。1.scala里面 默认方法体的最后一行 作为该方法的返回值 不需要写return。6.特质 =》 java 接口 =》对一个类的补充 + 某一类事物的共性。1.val xxx:数据类型=值 ,方法返回值类型 可以进行 类型推断。​ 1.win:安装scala + idea 安装 scala 插件。​ 1.spark,flink 的底层大部分都是用scala开发的。
原创
发布博客 2022.12.27 ·
1140 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

【kafka_02_笔记】

2.后续的segment名称 是上一个segment文件的最后一条消息的【offset值+1】 来表示。1.【二分查找】
原创
发布博客 2022.12.27 ·
115 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

【kafka_01】

zookeeper.connect= bigdata32:2181,bigdata33:2181,bigdata34:2181/kafka => zookeeper地址。log.dirs=/home/hadoop/data/kafka => kafka存储数据的目录。1.kafka后面接一个 实时计算的框架 : spark/flink 正确使用。Leader、Replicas、Isr:kafka 机器broker 对应的编号。2.构建 实时的数据通道 、流式数据分析、流式的app。
原创
发布博客 2022.12.20 ·
243 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

【zookeeper】

安装包地址:https://dlcdn.apache.org/zookeeper/zookeeper-3.8.0/apache-zookeeper-3.8.0-bin.tar.gz。解压: tar -zxvf apache-zookeeper-3.8.0-bin.tar.gz -C ~/app/软连接:ln -s apache-zookeeper-3.8.0-bin/ zookeeper。1.官网:https://zookeeper.apache.org/3.zk里面所有的目录 都叫做节点 znode。
原创
发布博客 2022.12.20 ·
80 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

【Flume_03_笔记】

​ channel选择器:channel selectors 负责 指定采集的数据 发送到指定的channel。EventTakeSuccessCount(从channel中成功取走的event数量)EventPutSuccessCount(成功放入channel的event数量)EventAcceptedCount(成功放入channel的event数量)AppendAcceptedCount(放入channel的event数量)
原创
发布博客 2022.12.15 ·
280 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏
加载更多