Lovetake
码龄5年
关注
提问 私信
  • 博客:3,726
    3,726
    总访问量
  • 4
    原创
  • 1,834,167
    排名
  • 58
    粉丝

个人简介:本人将自己当初学习大数据的一点点心得和体会作为笔记 希望可以给同样在学习大数据同学提供一点点的帮助 同时也希望可以得到大家的指正!!!!!

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:江苏省
  • 加入CSDN时间: 2020-02-19
博客简介:

weixin_46362494的博客

查看详细资料
个人成就
  • 获得67次点赞
  • 内容获得4次评论
  • 获得74次收藏
创作历程
  • 4篇
    2023年
成就勋章
兴趣领域 设置
  • 大数据
    hadoophivestormsparketl
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

Flink -- 批流一体

-spark和Flink都是粗粒度资源调度(在任务提交之前,将任务资源全部申请下来,这样会节约了任务开始执行时资源申请的时间,但是会浪费资源 -- 和mapreduce(细资源调度)比较)-- 在流出模式中使用常规的关联方式,flink会将两个表的数据一直保持在状态中,状态会越来越大 -- 可以设置状态过期时间,一段时间清理状态,比如值保留最近一天的状态。kv1:KeyValue(word=yujie, num=1) -- kv1中存储的是之前计算的结果,也就是状态(第一条数据除外)
原创
发布博客 2023.12.06 ·
1327 阅读 ·
17 点赞 ·
1 评论 ·
18 收藏

进程和线程到底是什么?

进程的本质:PCB(Process Control Block),类似于java中的类,每一个PCB对象就代表着一个实实在在运行着的程序,也就是进程。它被包含在进程中,是进程中实际运行的单位。6.CPU利用率不同:进程的CPU利用率较低,因为上下文切换开销较大,而线程的CPU的利用率较高,上下文的切换速度快。1.PID:进程ID,是进程的唯一身份标识,但是它不是固定不变的,是每次启动进程时动态分配的。4.拥有资源不同:每个进程有自己的内存和资源,一个进程中的线程会共享这些内存和资源。
原创
发布博客 2023.11.28 ·
387 阅读 ·
10 点赞 ·
0 评论 ·
10 收藏

spark -- 数据计算框架

spark作为大数据组件中不可或缺的一大部分 是我们学习和了解大数据的过程中必须要经历和学习的部分 本人将自己当初学习大数据的一点点心得和体会作为笔记 希望可以给同样在学习大数据同学提供一点点的帮助 同时也希望可以得到大家的指正。
原创
发布博客 2023.11.28 ·
1065 阅读 ·
18 点赞 ·
2 评论 ·
27 收藏

HIVE学习之路

可以看出,删除内部表的时候,表中的数据(HDFS上的文件)会被同表的元数据一起删除删除外部表的时候,只会删除表的元数据,不会删除表中的数据(HDFS上的文件)一般在公司中,使用外部表多一点,因为数据可以需要被多个程序使用,避免误删,通常外部表会结合location一起使用外部表还可以将其他数据源中的数据 映射到 hive中,比如说:hbase,ElasticSearch…3.因为Hive为了能操作HDFS上的数据集,那么他需要知道数据的切分格式,如行列分隔符,存储类型,是否压缩,数据的存储地址等信息。
原创
发布博客 2023.11.28 ·
947 阅读 ·
22 点赞 ·
1 评论 ·
19 收藏