weixin_52180293-CSDN博客

原创 spark的优化方向

数据压缩：Spark支持对数据进行压缩，可以减少数据在网络传输和磁盘存储时的空间占用，提高性能。数据分区和并行执行：合理划分数据分区，将数据分散到多个节点上并行执行，提高吞吐量和并发处理能力。数据倾斜处理：通过数据重分区、数据均衡、聚合合并等方法，解决数据倾斜问题，提高计算性能。数据预处理和过滤：对数据进行预处理和过滤，减少不必要的计算，提高性能。数据缓存和持久化：将热数据缓存在内存中，避免重复计算，提高查询性能。避免数据倾斜：通过数据倾斜的预处理和解决方案，减少任务执行时间。

2024-06-27 09:11:17 448

原创大数据是什么东西

大数据的概念的提出主要是由于互联网和数字化技术的快速发展，使得数据的产生速度大大加快，数据量也呈现爆发式增长。大数据的分析主要依靠数据挖掘、机器学习、人工智能等技术，通过对海量数据的处理和分析，提取出有价值的信息和知识。在大数据时代，数据成为了一种重要的生产要素，具备大数据处理和分析能力的企业和组织能够更好地适应和应对快速变化的市场环境，获取竞争优势。大数据不仅包含结构化数据（如关系型数据库中的数据），还包括非结构化数据（如文本、音频、图像、视频等），并具有快速生成和传输的特点。

2024-06-27 09:10:06 445

原创 Hadoop2.X的完全分布式安装手册

1. 准备一组可用的服务器节点，建议至少三台服务器，分别作为主节点（NameNode）和多个从节点（DataNode）。2. 确保所有服务器节点的操作系统版本一致。3. 在所有服务器节点上安装Java Development Kit（JDK）。

2024-04-29 09:49:30 275 3

原创 Hadoop伪分布式安装

core-site.xml是Hadoop的核心配置文件,可以用此文件覆盖core-default.xml中的值。启动namenode 与 datanode之后，可以通过web的方式进行访问（前提必须关闭防火墙）完成以上的操作之后，就可以通过操作HDFS 进行文件的上传并且在HDFS文件系统上对文件进行分析。以上的配置，把hdfs 文件块的副本复制的数量设置1 由于在伪分布式环境中，必须设置为1。完成以上的步骤，就可以对HDFS 文件进行格式化操作，命令如下。配置hdfs-site.xml 配置文件如下。

2024-04-29 09:25:29 671 3

TA关注的人

weixin_52180293的博客

原创 spark的优化方向

原创大数据是什么东西

原创 Hadoop2.X的完全分布式安装手册

原创 Hadoop伪分布式安装

空空如也

python怎么解决sort无法同时对10以上和10以下进行排序

java二位数组定义以及数据处理问题

通过按钮切换显示的图片规定不能使用js

原创 spark的优化方向

原创 大数据是什么东西

原创 Hadoop2.X的完全分布式安装手册

原创 Hadoop伪分布式安装

空空如也

python怎么解决sort无法同时对10以上和10以下进行排序

java二位数组定义以及数据处理问题

通过按钮切换显示的图片 规定不能使用js

原创大数据是什么东西

通过按钮切换显示的图片规定不能使用js