自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

原创 怎么保证从kafka读取数据为顺序读取

当时是电话面试没有想到太多,就这么说了,挂了电话后想这这种方法是不行的。后面想到了,应该根据业务的划分,在不同业务的数据前加上不同的key(相同的业务key相同),因为kafka的分区是通过key的hashcode值来选择分区的,所以我们将不同业务的数据分发到不同的分区,这样可以保证数据吞吐量的增加,也保证了消费数据的一致性。

2023-08-15 23:46:58 236 1

原创 Hive学习

hive是基于hadoop的数据仓库建模工具之一,hive可以使用类sql方言,对存储在HDFS上的数据进行分析和管理。元数据包括表名、表所属的数据库(在hive中默认的数据库为default)、表的拥有者、列/分区字段、表的类型(是否是外部表)、表的数据所在的目录等。Hive本质是将sql转换为mr的任务进行运算的,底层是由HDFS来提供数据存储的,说白了就是将sql转换为mr任务的一个工具。4、hive优势在于处理大数据,对于小数据没有优势,因为hive的执行延迟性较高(因为会不断的开关jvm虚拟机)

2023-05-10 15:06:35 143

原创 Hadoop的优化

这里我们以查询某一年、某一个月的最高温度//随机生成温度代码//创建日期格式i < 10000;i++) {//随机生成时间2000-2023//随机生成一个温度//打印生成的结果。

2023-04-26 16:49:33 166

原创 Hadoop中MapReduce和Yarn相关内容详解

根据Key直接计算出对应的Reduce,分区的数量和Reduce的数量是相等的,hash(key) % partation(reduce的数量) = num,默认分区的算法是Hash然后取余,Object的hashCode()—equals(),如果两个对象equals,那么两个对象的hashcode一定相等,如果两个对象的hashcode相等,但是对象不一定equlas。将内存中的数据循环写到硬盘,不用担心OOM问题,每次会产生一个80M的文件,如果本次Map产生的数据较多,可能会溢写多个文件。

2023-04-19 21:54:43 216

原创 Hadoop中的HDFS相关内容详解

hadoop是一个适用与海量数据的分布式存储和分布式计算的平台。HDFS(Hadoop Distributed FileSystem)是Hadoop自带的一个分布式文件系统,同时HDFS也是MapReduce计算的基础。

2023-04-12 21:02:46 140

原创 HADOOP的完全分布式搭建保姆级教会

此前写过一个hadoop的伪分布式的搭建,前几天刚刚帮别人搭了一个完全分布式的,今天就把完全分布式的搭建也给写出来,给大家做个参考。前期搭建的时候有一些准备工作需要我们去完成。

2023-04-05 21:25:31 81

原创 Maven的核心概念

继上篇,我们安装好Maven后,具体要怎么使用它呢,Maven有哪些注意事项呢,有哪些核心要点呢,我在这篇博客中将自己所理解的一些知识分享给大家,同时也是自我回顾一下。

2023-03-29 22:56:44 56

原创 Maven的超详细安装步骤

Maven字面意思:专家、内行Maven是一款自动化构建工具,专注服务于Java平台的项目构建和依赖管理。依赖管理:jar之间的依赖关系,jar包管理问题统称为依赖管理项目构建:项目构建不等同于项目创建项目构建是一个过程【7步骤组成】,项目创建是瞬间完成的清理:mvn clean编译:mvn compile测试:mvn test报告:打包:mvn package安装:mvn install。

2023-03-29 21:27:53 1189

原创 Java基础语法IF和SWITCH

对应的case的值,那么就执行其中的语句体,直到遇到了break结束,整个语句如果都没有对应的case匹配,那么会最终执行default中的语句体,直到遇到break,从而结束整个switch语句。下面我们来写一个switch的简单列子,这是我作为初学者写的例子,我自己认为还是很好帮助初学者来理解这个函数的。答案是可以的,严格按照执行流程来执行。上面所写的执行语句中,是先计算表达式中的值,然后拿着这个值去匹配对应的case,如果 匹配到。答案也是可以的,但是一般来说为了程序的严谨性,还是需要协商的。

2023-03-08 23:12:59 143

原创 CentOS7克隆虚拟机及配置IP地址

1. 克隆虚拟机1、关机 (PS 这里我们要将所克隆的虚拟机关机才能克隆,这样所占磁盘会小很多)2、右键虚拟机----> 管理--->克隆 3、选择完整克隆(和hadoop01就没有关系了)

2023-02-17 20:33:56 2425 1

原创 力扣第一题《两数之和》

给定一个整数数组 nums 和一个整数目标值 target,请你在该数组中找出 和为目标值 target 的那 两个 整数,并返回它们的数组下标。你可以假设每种输入只会对应一个答案。但是,数组中同一个元素在答案里不能重复出现。你可以按任意顺序返回答案。

2023-02-12 22:04:14 42

原创 hadoop的伪分布式搭建

Hadoop伪分布搭建

2022-12-23 01:00:03 470

CentOS7上安装MySQL数据库

里面有安装步骤的typora形式的文件和四个所需要5.7的安装包

2023-02-19

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除