weixin_52996387-CSDN博客

原创 Spark快速大数据分析---二章（day01）

在交互式Spark-shell中，Spark驱动器已经初始化了一个SparkSession对象，但在Spark应用程序中，需要自行创建一个Spark程序。惰性求值：Spark的惰性求值是指在计算过程中，对于中间结果，只有当它们被使用时才会进行计算。转化操作是将Spark DataFrame转化为新的DataFrame，而不改变原有数据的操作，这赋予了DataFrame不可变的属性。所有的转化操作都是惰性求值的，具体结果不会立即计算出来。Spark对分布式数据的操作可以分为：转化操作、行动操作。

2023-10-30 21:00:36 106 1

原创 Spark学习day1--sparkcore

作用：以指定的随机种子随机抽样出数量为fraction的数据，withReplacement表示抽出的数据是否放回，true为有放回的抽样，false为无放回的抽样，seed用于指定随机数生成器种子。mapPartition：每次处理一个分区的数据，这个分区的数据处理完之后，原RDD中分区的数据能释放，可能导致OOM。作用：将每一个分区形成一个数组，形成新的RDD类型时RDD【Array【T】】作用：返回一个新的RDD，该RDD由每一个输入元素经过func函数转换后组成。一个计算每个分区的函数。

2023-10-18 19:10:28 81 1

原创企业经验---参数调优---尚硅谷

但注意，存储小文件所需要的磁盘容量和数据块的大小无关。XOR-2-1-1024k：使用XOR编码（速度比RS编码快），每2个数据单元，生成1个校验单元，共3个单元，也就是说：这三个单元中，只要有任意的2个单元存在（不管是数据单元还是校验单元，只要总数是2）就可以得到原始数据。RS-10-4-1024k：使用RS编码，每10个数据单元生成4个校验单元，共14个单元，也就是说：这14个单元中，只要有任意的10个单元存在（不管是数据单元还是校验单元，只要总数=10）就可以得到原始数据。

2023-05-21 14:03:48 704 1

原创 Hadoop之Yarn

②灵活性：如果一个队列中的资源有剩余，可以暂时共享给那些需要资源的队列，而一旦该队列有新的应用程序提交，则其他队列借调的资源会归还给该队列。为了防止同一个用户的作业独占队列中的资源，该调度器会对同一用户提交的作业所占资源量进行限定。为了防止同一个用户的作业独占队列中的资源，该调度器会对同一用户提交的作业所占资源量进行限定。灵活性：如果一个队列中的资源有剩余，可以暂时共享给那些需要资源的队列，而一旦该队列有新的应用程序提交，则。多队列：每个队列可配置一定的资源量，每个队列采用FIFO调度策略。

2023-05-20 18:46:01 120 1

原创压缩（Hadoop）

压缩方式选择时重点考虑：压缩/解压缩速度、压缩率（压缩后存储大小）、压缩后是否可以支持切片。优点：减少磁盘IO，减少磁盘存储空间。IO密集型的Job，多用压缩。运算密集型Job，少用压缩。四、Hadoop的压缩。缺点：增加CPU开销。

2023-05-20 18:43:44 140 1

原创 MapReduce案例wordcount

三、创建wordcountMapper、wordcountReducer、Driver。二、配置日志文件（在resource下创建log4j.properties）hadoop版本包可从github下载或者私信我。windows系统中的idea编译连接虚拟机。需配置环境变量以及对应的hadoop版本包。

2023-04-20 17:42:17 80 1

原创大数据技术Hadoop之HDFS

随着数据量越来越大，在一个操作系统存不下所有的数据，那么就分配到更多的操作系统管理的磁盘中，但是不方便管理和维护，迫切需要一种系统来管理多态机器上的按文件，这就是分布式文件管理系统。HDFS（Hadoop Distributed File System）是一个文件系统，用于存储文件，通过目录树来定位文件：其次，他是分布式的，由很多服务器联合起来实现其功能，集群中的服务器有各自的角色。//参数解读：参数1：表示删除原数据参数2：是否允许覆盖参数3：原数据路径参数4：目的地路径。

2023-04-19 16:52:18 147 1

原创算法——双指针

进行访问，而是使用两个相同方向（快慢指针）或者相反方向（对撞。，指的是在遍历对象的过程中，不是普通的使用单个。平方后，数组变为 [16,1,0,9,100]排序后，数组变为 [0,1,9,16,100]）的指针进行扫描，从而达到相应的目的。组成的新数组，要求也按。

2023-03-01 18:46:11 36

原创二分查找(查找过程及练习)

算法复杂度：二分的基本思想是将n个元素分为大致相等的两部分，取a[n/2]与x作比较，如果a[n/2]=x,算法终止；不幸的是，你的产品的最新版本没有通过质量检测。由于每个版本都是基于之前的版本开发的，所以错误的版本之后的所有版本都是错的。将表分成前、后两个子表，如果中间位置记录的关键字大于查找关键字，则进一步查找前一子表，否则进一步查找后一子表。如果目标值不存在于数组中，返回它将会被按顺序插入的位置。，使查找成功，或直到子表不存在为止，此时查找不成功。，你想找出导致之后所有版本出错的第一个错误的版本。

2023-02-28 17:51:05 75 1

大数据之Kafka学习

Kafka是最初由Linkedin公司开发，是一个分布式、支持分区的（partition）、多副本的（replica），基于zookeeper协调的分布式消息系统，它的最大的特性就是可以实时的处理大量数据以满足各种需求场景：比如基于hadoop的批处理系统、低延迟的实时系统、storm/Spark流式处理引擎，web/nginx日志、访问日志，消息服务等等，用scala语言编写，Linkedin于2010年贡献给了Apache基金会并成为顶级开源项目。

2024-01-04

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人