自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(53)
  • 收藏
  • 关注

原创 spark MySQL数据库配置

首先需要确保环境准备就绪,包括安装Spark和MySQL,并下载MySQL的JDBC驱动包。接着,通过初始化SparkSession对象和配置JDBC连接属性来建立与MySQL的连接。使用read.jdbc方法从MySQL读取数据并转换为DataFrame,随后可以在Spark中对数据进行处理,如过滤和聚合。处理后的数据可以通过write.jdbc方法写回MySQL。在整个过程中,需要注意SSL连接配置、性能优化以及错误处理,以确保操作的顺利进行和系统的的稳定性。

2025-05-13 09:30:06 473

原创 在scala中sparkSQL连接mysql并添加新数据

在Scala中使用SparkSQL连接MySQL并添加新数据,首先需确保已安装Apache Spark和MySQL,并添加MySQL JDBC驱动。接着,创建SparkSession对象作为与Spark交互的入口点。然后,创建一个包含新数据的DataFrame,并配置MySQL的连接信息,包括数据库地址、用户名、密码等。使用DataFrame.write方法将数据写入MySQL表,可以选择使用jdbc方法或option方法配置连接信息。操作完成后,关闭SparkSession。通过以上步骤,可以轻松地将数据

2025-05-13 09:26:07 341

原创 在scala中sparkSQL读入csv文件

在Scala中使用SparkSQL读取CSV文件并写入MySQL数据库的流程包括环境准备、代码实现和注意事项。首先,确保已安装Apache Spark、MySQL数据库及MySQL JDBC驱动,并将驱动添加到Spark依赖中。代码实现部分,通过创建SparkSession,读取CSV文件,并配置MySQL数据库连接信息,最后将数据写入MySQL。注意事项包括确保CSV文件路径正确、MySQL表结构与DataFrame一致,以及JDBC驱动已正确添加。此流程适用于将CSV数据高效迁移至MySQL数据库。

2025-05-13 09:24:41 463

原创 hadoop中创建MySQL新数据库数据表

在Hadoop环境中创建MySQL数据库和数据表,通常需要通过MySQL命令行工具来完成,而不是直接在Hadoop中操作。将MySQL JDBC驱动包(如mysql-connector-java-8.0.23.jar)复制到Hive的lib目录。可以使用USE命令切换到目标数据库,然后使用CREATE TABLE命令创建表。此命令会在mydb数据库中创建一个名为mytable的表,包含id和name两个字段。登录MySQL后,使用CREATE DATABASE命令创建一个新的数据库。-- 查看所有数据库。

2025-05-13 09:14:39 443

原创 spark sql基本操作

它允许用户使用标准的 SQL 语法来查询数据,并且可以无缝地与 Spark 的其他功能(如 DataFrame、Dataset 和 RDD)结合使用。Spark SQL 支持标准的 SQL 语法,允许用户使用 SQL 查询语句来操作 DataFrame 或 Dataset。SparkSession 是 Spark SQL 的入口点,用于创建 DataFrame 和执行 SQL 查询。以下是一个完整的 Spark SQL 示例代码,展示了如何读取数据、注册视图、执行 SQL 查询并保存结果。

2025-05-13 09:13:45 423

原创 如何同步虚拟机文件夹

中opt文件夹下创建conf文件夹并在其中创建四个文本文件并输入命令rsync -av conf/ root@hadoop101:/opt/conf就能将conf文件夹同步到hadoop101opt文件夹中。先进入hadoop100。

2025-05-13 09:11:46 202

原创 如何将两台虚拟机进行搭桥

输入命令scp -r root@hadoop100:/opt/modules/jdk1.8.0_212 root@hadoop102:/opt/modules/输入yes并输入密码就能完成搭桥。进入hadoop101。

2025-05-13 09:11:14 186

原创 如何使用scp命令拷贝hadoop100中的文件到其他虚拟机中

输入命令scp -r jdk1.8.0_212/ root@hadoop101:/opt/module。启动俩个虚拟机,在有原文件的那个虚拟机中输入命令cd/opt/module来到module中。回车后输入密码回车进入要拷贝的那个虚拟机中再刷新一下文件夹。在新的虚拟机的opt文件夹中创建文件夹module。

2025-05-13 09:10:41 149

原创 如何使用scp命令拉取其他虚拟机中的文件

之后yes并输入密码就能抓取文件hadoop100文件到终点的文件了。中创建modules。

2025-05-13 09:10:05 211

原创 克隆虚拟机组成集群

在随后的设置中,请注意两点:(1)要给其他两台虚拟机取不同的名字。要注意,这里是虚拟机的名称,而不是它的hostname。克隆之后,我们得到了hadoop101,hadoop102,由于它们是从hadoop100直接扣克隆过来的,所以目前他们的ip和hostname都是很hadoop100是一样的,这里就需要修改下。hosts文件中的主机名和ip地址是否与finalshell中的连接的主机名以及对应的虚拟的ip地址一致。vm软件提供了克隆的功能,它可以允许我们从一台虚拟机上快速克隆出其他的一模一样的主机。

2025-05-13 09:07:33 310

原创 配置hosts

现在我们可以通过finalshell这个工具来连接我们的远程服务器,不过我们连接主机的时候,需要填入对方的ip地址,这个很麻烦。hosts 文件是一个本地的文本文件,它的作用是将主机名(www.douyin.com)映射到对应的 IP 地址,在 DNS(域名系统)解析之前,系统会先查询 hosts 文件来确定目标主机的 IP 地址。Yum是一个linux工具,用来从网络下载安装软件到linux操作系统中,在此之前,我们先要确保虚拟机的网络是通畅的(ping www.baidu.com)。

2025-05-13 09:05:48 1424

原创 转换算子和行动算子的区别

转换算子:采用惰性计算机制,只有当遇到行动算子时,才会将之前所有的转换操作组合成一个有向无环图(DAG),然后根据这个图进行优化和执行。行动算子:返回的是具体的计算结果,如一个数值、一个列表,或者是将结果保存到文件系统,不会返回 RDD 或 DataFrame。转换算子:返回一个新的 RDD 或 DataFrame,这意味着可以对其继续进行其他转换操作,形成操作链。行动算子:一旦调用,就会立即触发计算,从数据源开始,按照转换操作的顺序依次执行,最终得到计算结果。

2025-05-13 08:59:58 417

原创 教你学会yarn

通过为每个组织分配专门的队列,然后再为每个队列分配一定的集群资源, 这样整个集群就可以通过设置多个队列的方式给多个组织提供服务了。队列内部又可以垂直划分,这样一个组织内部的多个成员就可以共享这个队列资源了,在一个队列内部,资源的调度是采用的是先进先出(FIFO)策略。但是实际中,资源是有限的,并且在繁忙的群集上, 应用程序通常将需要等待其某些请求得到满足。现在,如果B用户在其他作业仍在运行时开始第二个作业,它将与B的另一个作业共享其资源,因此B的每个作业将拥有资源的四分之一,而A的继续将拥有一半的资源。

2025-05-07 15:59:58 266

原创 配置Hadoop--home的环境变量

生命周期:Maven 定义了一套标准的项目构建生命周期,主要包括 `clean`、`default` 和 `site` 三个生命周期。每个生命周期由多个阶段(phase)组成,例如 `default` 生命周期包含 `compile`、`test`、`package`、`install`、`deploy` 等阶段。Maven 可以帮助你管理这些依赖项,你只需在项目的 `pom.xml` 文件中声明所需的依赖,Maven 就会自动从远程仓库下载这些依赖项,并将其添加到项目的类路径中。

2025-05-07 15:57:29 398

原创 Spark及单机模式运行

在安装Spark时,它就提供了一些示例程序,我们可以直接来调用。进入到spark-local,运行命令spark-submit命令。mv是linux的命令,这里的 \ 是换行输入的意思,整体的代码就只有一句,只不过太长了,我们把它拆开成几个部分来输入,其中\ 的意思就是这里写不下,写在下一行。请注意,它并不会产生新的文件,而是直接在控制台输出结果。接下来的操作,我们把它上传到集群中的节点,并解压运行。1.打开etc/profile.d/my_env.sh文件中,补充设置spark的环境变量。

2025-05-07 15:55:45 423

原创 教你认识Spark

为了实现这样的要求,同时获得最大灵活性,Spark支持在各种集群管理器(Cluster Manager)上运行,包括Hadoop YARN、Apache Mesos,以及Spark自带的一个简易调度器,叫作独立调度器。Spark:Spark Streaming 提供了强大的实时数据处理能力,它可以将实时数据流分割成小的批次进行处理,实现准实时的数据分析。此外,Spark 还支持 Structured Streaming,提供了更高级的、基于 SQL 的实时流处理模型,使得实时数据处理更加容易和高效。

2025-05-07 15:55:03 684

原创 如何流量统计

但是,这里有一个问题:map和reduce这两个函数都是通过key,value的方式来进行数据交互的,这里的key可以设置为手机号,而value值就比较复杂,它有两个信息:上行流量和下行流量要统计。而这就必然引出一个新的问题:因为key,value是需要进行磁盘的读写的,所以它们必须要能序列化,如果我们创建一个新的类来描述流量数据,就必须也实现序列化。我们有一份统计数据,这个数据是关于手机号消耗流量的情况,需求统计每一个手机号耗费的总上行流量、总下行流量、总流量。

2025-05-07 15:53:51 690

原创 如何数据压缩

有损压缩则会在一定程度上牺牲数据的精度来换取更高的压缩比,适用于对数据质量损失有一定容忍度的场景,如图像、音频、视频等多媒体数据。即使你的MapReduce的输入输出文件都是未压缩的文件,你仍然可以对Map任务的中间结果输出做压缩,因为它要写在硬盘并且通过网络传输到Reduce节点,对其压缩可以提高很多性能,这些工作只要设置两个属性即可,我们来看下代码怎么设置。数据压缩是指在不丢失或尽可能少丢失数据信息的前提下,通过特定的算法和技术,对原始数据进行重新编码和处理,以减少数据存储空间或传输带宽的过程。

2025-05-07 15:52:56 326

原创 如何创建Maven项目

步骤一:打开 IDEA,点击 File -> Settings(Windows/Linux)或者 IntelliJ IDEA -> Preferences(Mac),进入设置界面,然后找到 Build, Execution, Deployment -> Build Tools -> Maven。步骤三:可以在 User settings file 中指定 settings.xml 文件的路径(一般使用默认路径即可),Local repository 中指定本地仓库的路径,配置完成后点击 OK 保存设置。

2025-05-07 15:52:21 302

原创 转换算子和行动算子有什么区别

同时由于spark的惰性求值特性,所有的转换算子是不会立即计算结果的,转换算子只记录它应用的数据集,在行动算子需要给drive返回数据时转换算子才会去计算结果。转换算子会从一个已经存在的数据集(RDD)中生成一个新的数据集(RDD),比如map就是一个转换算子,它通过映射关系从一个RDD生成了一个新的RDD。转换算子返回一个数据集而行动算子返回一个具体值,如reduce算子是行动算子 而 reducebykey是转换算子;行动算子在进行数据集计算后会给driver程序返回一个值。

2025-05-07 15:50:08 186

原创 如何在idea中写spark程序

以上步骤可以帮助你在 IntelliJ IDEA 中编写、运行和提交 Spark 程序。如果使用 Scala 编写 Spark 程序,只需在项目中添加 Scala 支持,并编写相应的 Scala 代码即可。可根据实际情况调整。添加完依赖后,Maven 会自动下载所需的库文件。

2025-04-28 19:45:23 689

原创 如何搭建spark yarn模式的集群

【代码】如何搭建spark yarn模式的集群。

2025-04-28 19:44:49 598

原创 spark和Hadoop之间的对比和联系

Spark 也可以作为 Hadoop 生态系统中的计算层,替代或补充 MapReduce 来处理存储在 HDFS 或通过其他 Hadoop 工具访问的数据。在实际应用中,企业可以根据具体需求选择合适的组件进行组合,例如在大规模数据存储和批处理场景中使用 Hadoop,在需要快速处理和实时分析时使用 Spark。通过 YARN,Spark 和 Hadoop 的其他组件(如 MapReduce)可以共享集群资源,合理分配 CPU、内存等资源,避免资源竞争。

2025-04-22 08:24:36 516

原创 一分钟教会你数据清洗

本文链接:一分钟教你数据清洗-CSDN博客

2025-04-02 15:53:50 222

原创 mapreduce的工作原理

Map 任务的输入是一个键值对(key-value pair),其中键(key)通常是文件的偏移量,值(value)是对应的数据记录。通常,分区的规则是基于键的哈希值来确定的。例如,在单词统计任务中,Reduce 任务的输入可能是键为“apple”,值为一个列表 [1, 1, 1],表示单词“apple”在 Map 阶段被统计了三次。在单词统计任务中,Reduce 任务会将列表 [1, 1, 1] 中的所有值相加,得到单词“apple”出现的总次数 3,并输出键值对(“apple”,3)。

2025-03-31 19:55:32 329

原创 Hadoop集群的常用命令

此命令会运行一个 MapReduce 作业,其中 /path/to/your/jar/file.jar 是包含 MapReduce 程序的 JAR 文件路径,MainClass 是程序的主类名,input_path 和 output_path 分别是输入和输出路径。此命令能把本地的 local_file.txt 文件上传到 HDFS 的 /hdfs_directory/ 目录中。该命令会将 HDFS 上的 /hdfs_file.txt 文件下载到本地的 local_directory/ 目录。

2025-03-31 19:54:50 281

原创 虚拟机IP配置

虚拟机IP配置-CSDN博客

2025-02-26 15:54:27 106

原创 教你使用vm虚拟机

1分钟教你使用vm虚拟机-CSDN博客

2025-02-25 11:06:58 349

原创 Linux的指令

mkdir -p dir1/dir2:递归创建。- touch: 创建空文件或更新文件时间戳。- head/tail: 查看文件开头/结尾。- more/less: 分页查看文件。- tail -f:实时查看日志。- mv: 移动或重命名文件/目录。- chown: 修改文件所有者。- chgrp: 修改文件所属组。- chmod: 修改文件权限。- rm -r:递归删除。- rm -f:强制删除。- cp -r:递归复制。ls -l:详细列表。- rm: 删除文件或目录。- cp: 复制文件或目录。

2025-02-25 11:04:56 259

原创 vi编辑器的使用方法

(在当前行下方新开一行进行编辑)等命令,即可切换到编辑模式。:默认进入的模式,可以执行命令,如移动光标、删除文本等。(复制当前行往下 n 行内容)命令复制多行内容。(进入插入模式并在当前光标后开始编辑)或。(n 为数字)删除当前行往下 n 行内容。命令将复制的内容粘贴到当前行的下一行。进入,可以保存文件、退出编辑器等。保存并退出(如果文件有修改)。编辑器时,默认处于命令模式。保存并退出编辑器,或输入。命令删除当前行,或使用。键即可切换回命令模式。进入,可以编辑文本。

2025-02-25 11:03:18 722

原创 隐式对象的用法

【代码】隐式对象的用法。

2024-12-11 16:37:11 282

原创 隐式类的用法

【代码】隐式类的用法。

2024-12-11 15:06:46 273

原创 隐式参数的运用

【代码】隐式参数的运用。

2024-12-11 15:05:53 437

原创 隐式函数的用法

【代码】隐式函数的用法。

2024-12-09 16:54:40 148

原创 正则表达式的应用场景

【代码】正则表达式的应用场景。

2024-12-09 15:34:46 168

原创 正则表达式2

【代码】正则表达式2。

2024-12-04 17:04:34 355

原创 正则表达式

【代码】正则表达式。

2024-12-04 16:46:24 122

原创 Scala匹配数组

【代码】Scala匹配数组。

2024-12-02 16:50:33 139

原创 Scala用math 判断闰年

【代码】Scala用math 判断闰年。

2024-12-02 16:05:22 156

原创 列出总分前三和单科前三,并保存文件

【代码】列出总分前三和单科前三,并保存文件。

2024-11-27 16:47:56 161

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除