自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

原创 Spark快速大数据分析---二章(day01)

在交互式Spark-shell中,Spark驱动器已经初始化了一个SparkSession对象,但在Spark应用程序中,需要自行创建一个Spark程序。惰性求值:Spark的惰性求值是指在计算过程中,对于中间结果,只有当它们被使用时才会进行计算。转化操作是将Spark DataFrame转化为新的DataFrame,而不改变原有数据的操作,这赋予了DataFrame不可变的属性。所有的转化操作都是惰性求值的,具体结果不会立即计算出来。Spark对分布式数据的操作可以分为:转化操作、行动操作。

2023-10-30 21:00:36 81 1

原创 Spark学习day1--sparkcore

作用:以指定的随机种子随机抽样出数量为fraction的数据,withReplacement表示抽出的数据是否放回,true为有放回的抽样,false为无放回的抽样,seed用于指定随机数生成器种子。mapPartition:每次处理一个分区的数据,这个分区的数据处理完之后,原RDD中分区的数据能释放,可能导致OOM。作用:将每一个分区形成一个数组,形成新的RDD类型时RDD【Array【T】】作用:返回一个新的RDD,该RDD由每一个输入元素经过func函数转换后组成。一个计算每个分区的函数。

2023-10-18 19:10:28 53 1

原创 企业经验---参数调优---尚硅谷

但注意,存储小文件所需要的磁盘容量和数据块的大小无关。XOR-2-1-1024k:使用XOR编码(速度比RS编码快),每2个数据单元,生成1个校验单元,共3个单元,也就是说:这三个单元中,只要有任意的2个单元存在(不管是数据单元还是校验单元,只要总数是2)就可以得到原始数据。RS-10-4-1024k:使用RS编码,每10个数据单元生成4个校验单元,共14个单元,也就是说:这14个单元中,只要有任意的10个单元存在(不管是数据单元还是校验单元,只要总数=10)就可以得到原始数据。

2023-05-21 14:03:48 659 1

原创 Hadoop之Yarn

②灵活性:如果一个队列中的资源有剩余,可以暂时共享给那些需要资源的队列,而一旦该队列有新的应用程序提交,则其他队列借调的资源会归还给该队列。为了防止同一个用户的作业独占队列中的资源,该调度器会对同一用户提交的作业所占资源量进行限定。为了防止同一个用户的作业独占队列中的资源,该调度器会对同一用户提交的作业所占资源量进行限定。灵活性:如果一个队列中的资源有剩余,可以暂时共享给那些需要资源的队列,而一旦该队列有新的应用程序提交,则。多队列:每个队列可配置一定的资源量,每个队列采用FIFO调度策略。

2023-05-20 18:46:01 92 1

原创 压缩(Hadoop)

压缩方式选择时重点考虑:压缩/解压缩速度、压缩率(压缩后存储大小)、压缩后是否可以支持切片。优点:减少磁盘IO,减少磁盘存储空间。IO密集型的Job,多用压缩。运算密集型Job,少用压缩。四、Hadoop的压缩。缺点:增加CPU开销。

2023-05-20 18:43:44 101 1

原创 MapReduce案例wordcount

三、创建wordcountMapper、wordcountReducer、Driver。二、配置日志文件(在resource下创建log4j.properties)hadoop版本包可从github下载或者私信我。windows系统中的idea编译连接虚拟机。需配置环境变量以及对应的hadoop版本包。

2023-04-20 17:42:17 66 1

原创 大数据技术Hadoop之HDFS

随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多态机器上的按文件,这就是分布式文件管理系统。HDFS(Hadoop Distributed File System)是一个文件系统,用于存储文件,通过目录树来定位文件:其次,他是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。//参数解读:参数1:表示删除原数据 参数2:是否允许覆盖 参数3:原数据路径 参数4:目的地路径。

2023-04-19 16:52:18 123 1

原创 算法——双指针

进行访问,而是使用两个相同方向( 快慢指针 )或者相反方向( 对撞。,指的是在遍历对象的过程中,不是普通的使用单个。平方后,数组变为 [16,1,0,9,100]排序后,数组变为 [0,1,9,16,100])的指针进行扫描,从而达到相应的目的。组成的新数组,要求也按。

2023-03-01 18:46:11 20

原创 二分查找(查找过程及练习)

算法复杂度:二分的基本思想是将n个元素分为大致相等的两部分,取a[n/2]与x作比较,如果a[n/2]=x,算法终止;不幸的是,你的产品的最新版本没有通过质量检测。由于每个版本都是基于之前的版本开发的,所以错误的版本之后的所有版本都是错的。将表分成前、后两个子表,如果中间位置记录的关键字大于查找关键字,则进一步查找前一子表,否则进一步查找后一子表。如果目标值不存在于数组中,返回它将会被按顺序插入的位置。,使查找成功,或直到子表不存在为止,此时查找不成功。,你想找出导致之后所有版本出错的第一个错误的版本。

2023-02-28 17:51:05 56 1

大数据之Kafka学习

Kafka是最初由Linkedin公司开发,是一个分布式、支持分区的(partition)、多副本的(replica),基于zookeeper协调的分布式消息系统,它的最大的特性就是可以实时的处理大量数据以满足各种需求场景:比如基于hadoop的批处理系统、低延迟的实时系统、storm/Spark流式处理引擎,web/nginx日志、访问日志,消息服务等等,用scala语言编写,Linkedin于2010年贡献给了Apache基金会并成为顶级开源 项目。

2024-01-04

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除