小刘要努力。
未来不担心,过去不后悔,现在不犹豫。
展开
-
19 | spark 统计 每列的数据非缺失值
计算CSV文件中每列的数据覆盖率(非缺失值的百分比)时,您可以使用提供的Java代码来完成这项任务。原创 2023-09-05 23:32:18 · 755 阅读 · 0 评论 -
18 | Spark 实现学生等级划分
你有一个包含学生信息的数据集,每个学生都有姓名、年龄和分数。你希望通过Spark进行学生成绩分析。原创 2023-09-04 21:38:48 · 411 阅读 · 0 评论 -
17 | Spark中的map、flatMap、mapToPair mapvalues 的区别
是用于对RDD(Resilient Distributed Dataset)进行转换的不同操作。这些操作可以用来处理分布式数据集中的元素,但它们的用途和行为略有不同。操作,并输出了相应的结果。请确保您的Spark环境已正确配置,并且Spark依赖已包含在项目中,以使上述代码能够运行。以下是完整的Apache Spark Java代码示例,包括创建SparkContext和RDD,并使用。请注意,这些示例仅用于演示目的,需要根据您的环境和数据进行适当调整。上述代码创建了一个Spark应用程序,依次执行了。原创 2023-09-04 20:57:20 · 981 阅读 · 0 评论 -
16 | Spark SQL 的 UDF(用户自定义函数)
UDF允许您定义自己的函数,以便在DataFrame或SQL查询中使用。在本教程中,我们将演示如何创建一个UDF,该UDF将字符串的长度作为输入,并返回该字符串的长度作为输出。UDF允许您定义自己的函数,并将其应用于Spark DataFrame或Dataset。:在DataFrame操作或SQL查询中,您可以使用注册的UDF函数。方法将UDF函数注册到SparkSession中,以便后续可以在SQL查询或DataFrame操作中使用。:您需要创建一个包含要应用UDF的数据的DataFrame。原创 2023-09-03 13:45:04 · 1182 阅读 · 0 评论 -
15 | Spark SQL 的 SQL API 操作
Spark SQL 允许使用标准 SQL 语句来查询和分析数据。用户可以通过 SparkSession 执行 SQL 查询,并将结果返回为 DataFrame。这使得熟悉 SQL 的用户能够方便地使用 Spark SQL 进行数据处理。原创 2023-09-03 13:19:23 · 975 阅读 · 0 评论 -
14 | Spark SQL 的 DataFrame API 读取CSV 操作
在这个需求中,我们将使用 Apache Spark 的 DataFrame API 对包含销售数据的 CSV 文件进行不同类型的数据操作。当使用 Spark SQL 的 DataFrame API 读取 CSV 文件时,你可以按照以下步骤进行操作。从包含销售数据的 CSV 文件中加载数据,并创建一个 DataFrame 来存储它。方法显示 DataFrame 的前几行数据,以便查看数据的内容。将包含多个值的列拆分成多个列,以便更细粒度地处理数据。将多个列的值合并成一个新的列,以便创建更有用的信息。原创 2023-09-03 13:14:29 · 1883 阅读 · 2 评论 -
13 | Spark SQL 的 DataFrame API
DataFrame 是 Spark SQL 中的核心数据结构,它是一个分布式的带有命名列的数据集,类似于传统数据库表或 Pandas 数据帧。DataFrame API 提供了多种操作和转换方法,包括选择、过滤、分组、聚合、连接等,用于处理和分析数据。:将数据按照一个或多个列进行分组,然后对每个组进行聚合操作(如计数、平均值、总和等)。:连接两个或多个 DataFrame,可以进行内连接、外连接等不同类型的连接操作。:选择一个或多个列以构建新的 DataFrame。:将多个列的值合并成一个新的列。原创 2023-09-03 10:30:28 · 804 阅读 · 0 评论 -
12 | 使用 Spark SQL执行CURL
SparkSession 是 Spark SQL 2.0 引入的一个关键概念,它是 Spark 2.0 之后的版本中取代了旧版的 SparkConf、SparkContext 和 SQLContext 的核心入口点。:Spark SQL 是一个用于处理结构化数据的 Spark 组件,它结合了 Spark 引擎的强大性能和 SQL 查询的表达力,允许用户在大规模数据上执行 SQL 查询和数据分析。在这个教程中,我们将介绍Spark SQL的基本概念和示例代码,帮助你入门Spark SQL的使用。原创 2023-09-03 09:33:45 · 870 阅读 · 1 评论 -
11 | Spark计算数据文件中每行数值的平均值
需求:计算数据文件中的数值的平均值。原创 2023-09-02 21:31:07 · 973 阅读 · 0 评论 -
10 | Spark 查找每个单词的最大行号
假设你有一个包含文本行号和文本内容的RDD,现在你想找出每个单词出现在哪些行,并计算它们出现的最大行号。需求是从包含文本行号和文本内容的RDD中找出每个单词出现在哪些行,并计算它们出现的最大行号。代码首先将每行文本内容拆分成单词,并将每个单词与其所在的行号映射为键值对(单词, 行号)。代码从一个包含文本行号和文本内容的RDD中读取数据,示例数据包括四行文本。分析文本数据,找出每个单词在文本中的位置,然后找出每个单词出现的最大行号。操作对相同单词的行号进行聚合,并找出每个单词出现的最大行号。原创 2023-09-02 11:06:39 · 592 阅读 · 0 评论 -
9 | 求出不同性别和不同科目的学生平均分数
我们有一组学生的成绩数据,其中包括学生的姓名、性别和科目,我们需要分析不同性别和不同科目的学生平均分数。原创 2023-09-02 10:54:36 · 300 阅读 · 0 评论 -
8 | Spark计算学生的平均分数
我们有一组学生的姓名和分数数据,我们需要计算每个学生的平均分数。原创 2023-09-02 10:47:21 · 526 阅读 · 0 评论 -
7 | 计算每个键对应的平均值,并按降序排序
假设您有一个包含销售订单的RDD,其中每个元素是一个键值对,其中键表示产品名称,值表示销售数量。是一个Spark转换操作,它用于将一个键值对RDD中的每个元素映射到另一个键值对RDD,同时可以对元素进行转换或重新排列。操作将每行数据转换为键值对形式的RDD,其中键是CSV文件的第一列,值是CSV文件的第二列。操作的作用是将原始RDD中的元素转换成键值对,然后返回一个新的键值对RDD。中的每个元素进行转换,将每个键(String类型)映射到一个新的键值对。操作中进行聚合,以计算每个键对应的总和和计数。原创 2023-09-01 23:30:33 · 832 阅读 · 0 评论 -
6 | 从文本文件中读取单词并输出不重复的单词列表
Transformation 操作是用于从一个 RDD(Resilient Distributed Dataset)创建一个新的 RDD,通常是通过对原始 RDD 的元素进行映射、筛选、分组等操作来实现的。Transformation 操作不会立即执行,而是惰性计算,只有在 Action 操作触发时才会真正执行。Action 操作会导致 Spark 集群上的计算任务立即执行。在一个数据处理项目中,我们需要从一个文本文件中提取单词,并生成一个包含不重复单词的列表,以进行进一步的分析或处理。原创 2023-09-01 21:41:41 · 561 阅读 · 0 评论 -
5 | Java Spark WordCount打成Jar 包测试
使用 Maven 或 Gradle 等构建工具,将您的项目编译并打包成一个包含依赖项的 JAR 文件。这个 JAR 文件将包含您的 WordCount 代码以及 Spark 依赖项。运行此命令将在 Spark 集群上启动 WordCount 作业,它将读取指定的输入文件,执行 WordCount 操作,然后将结果打印到控制台。首先,确保 编写了 WordCount 代码,已经提供了正确的输入文件路径。将生成的 JAR 文件上传到您的 Spark 集群中,然后使用。原创 2023-09-01 21:09:01 · 1060 阅读 · 0 评论 -
4 | Java Spark实现 WordCount
简单的 Java Spark 实现 WordCount 的教程,它将教您如何使用 Apache Spark 来统计文本文件中每个单词的出现次数。首先,确保您已经安装了 Apache Spark 并设置了运行环境。您需要准备一个包含文本内容的文本文件,以便对其进行 WordCount 分析。原创 2023-09-01 19:56:47 · 1437 阅读 · 0 评论 -
3 | Java Spark 配置和 数据筛选
下面将演示如何使用 Apache Spark 的 Java API 来加载数据、筛选出偶数,并计算它们的总和。Apache Spark 是一个强大的分布式计算框架,适用于大规模数据处理任务。原创 2023-09-01 19:19:35 · 748 阅读 · 0 评论 -
2 | Window 搭建单机 Hadoop 和Spark
搭建单机 Hadoop 和 Spark 环境可以学习和测试大数据处理的基础知识。在开始之前,请确保你已经安装了 Java 开发工具包(JDK),并且已经下载了 Hadoop 和 Spark 的最新版本。你可以从官方网站或镜像站点获取它们。原创 2023-09-01 18:47:55 · 764 阅读 · 0 评论 -
六、Hive中的内部表、外部表、分区表和分桶表
文章目录内部表外部表分区表分桶表在Hive数据仓库中,重要点就是Hive中的四个表。Hive 中的表分为内部表、外部表、分区表和分桶表。内部表默认创建的表都是所谓的内部表,有时也被称为管理表。因为这种表,Hive 会(或多或少地)控制着数据的生命周期。Hive 默认情况下会将这些表的数据存储在由配置项hive.metastore.warehouse.dir(例如,/user/hive/warehouse)所定义的目录的子目录下。当我们删除一个管理表时,Hive 也会删除这个表中数据。管理表不适合和其原创 2021-04-14 17:25:16 · 985 阅读 · 0 评论 -
五、Hive数据类型和简单使用
Hive使用的语句是Hql,和sql百分之九十都是相近的,因此,只要对SQL比较熟悉的,Hql基本不用怎么学。原创 2021-04-12 16:50:01 · 1043 阅读 · 0 评论 -
四、数据仓库和Hive环境搭建
上次介绍了HDFS,本来想进入Mapreduce,但感觉Mapreduce基本废弃,于是直接进入了Hive中来。数据仓库数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库顾名思义,是一个很大的数据存储集合,出于企业的分析性报告和决策支持目的而创建,对多样的业务数据进行筛选与整合。它为企业提供一定的BI(商业智能)能力,指导业务流程改进、监视时间、成本、质量以及控制。数据仓库的输入方是各种各样的数据源,最终的输出用于企业的数据分析、数据挖掘、数据报表等方向。数据库和.原创 2021-04-12 14:57:11 · 894 阅读 · 0 评论 -
三、HDFS中的Java和Python API接口连接
上次介绍了HDFS的简单操作,今天进入HDFS中的Java和Python的API操作,后面可能介绍Scala的相关的。原创 2021-04-12 00:33:16 · 961 阅读 · 0 评论 -
二、分布式文件系统HDFS及其简单使用
在现代的企业环境中,单机容量往往无法存储大量数据,需要跨机器存储。统一管理分布在集群上的文件系统称为分布式文件系统。HDFSHDFS(Hadoop Distributed File System)是 Apache Hadoop 项目的一个子项目. Hadoop 非常适于存储大型数据 (比如 TB 和 PB), 其就是使用 HDFS 作为存储系统. HDFS 使用多台计算机存储文件, 并且提供统一的访问接口。HDFS是根据谷歌的论文:《The Google File System》进行设计的HDF.原创 2021-04-11 21:20:40 · 877 阅读 · 0 评论 -
一、使用两台Centos7系统搭建Hadoop-3.1.4完全分布式集群
一、使用两台Centos7系统搭建Hadoop-3.1.4完全分布式集群原创 2021-03-22 18:50:59 · 1327 阅读 · 1 评论 -
看完这篇Kafka,你也许就会了Kafka
看完这篇Kafka,你也许就会了Kafka原创 2021-02-23 23:59:59 · 1115 阅读 · 0 评论 -
Kafka安装和基本指令
Kafka安装和基本指令原创 2021-02-23 23:52:44 · 918 阅读 · 0 评论 -
【大数据教程】MapReduce基本架构、统计每个人三次考试成绩的最高分,统计每一个人花费的总流量、按地区,统计每一个人花费的总流量
文章目录Writable - 序列化概述案例Flow类Mapper类Reducer类Driver类结果练习Student类Mapper类最高分Reducer类平均分Reducer类最高分Driver类平均分Driver类结果Partitioner - 分区概述案例Flow类Mapper类Partitioner类Reducer类Driver类结果练习Score类Mapper类Partitioner类Reducer类Driver类结果Comparable - 排序概述案例Score类Mapper类Reducer原创 2021-02-17 15:43:51 · 2030 阅读 · 1 评论 -
【大数据教程】MapReduce基本架构、统计文件中每个字符出现的次数,IP去重、计算每个人的最高分,总分
【大数据教程】MapReduce基本架构、统计文件中每个字符出现的次数,IP去重、计算每个人的最高分,总分原创 2021-02-17 15:37:56 · 1371 阅读 · 0 评论 -
【大数据教程】HDFS基本架构、基本命令、回收站机制和API操作
【大数据教程】HDFS基本架构、基本命令、回收站机制和API操作原创 2021-02-17 15:32:42 · 982 阅读 · 1 评论 -
十三、手把手带你搭建Clouders Manager
手把手带你搭建Clouders Manager原创 2020-08-03 16:21:51 · 1211 阅读 · 0 评论 -
十、 RDD编程和Spark SQL
@Author : By Runsen@Date : 2020/6/21作者介绍:Runsen目前大三下学期,专业化学工程与工艺,大学沉迷日语,Python, Java和一系列数据分析软件。导致翘课严重,专业排名中下。.在大学60%的时间,都在CSDN。在一月到四月都没怎么写博客,因为决定写书,结果出书方说大学生就是一个菜鸟,看我确实还是一个菜鸟,就更新到博客算了。我把第九章更新到博客上。文章目录9.6 Spark9.6.2 RDD编程(1)Spark核心(2)创建RDD(3)Action操作原创 2020-08-03 16:23:00 · 1309 阅读 · 0 评论 -
九、Spark模块和安装
@Author : By Runsen@Date : 2020/6/21作者介绍:Runsen目前大三下学期,专业化学工程与工艺,大学沉迷日语,Python, Java和一系列数据分析软件。导致翘课严重,专业排名中下。.在大学60%的时间,都在CSDN。在一月到四月都没怎么写博客,因为决定写书,结果出书方说大学生就是一个菜鸟,看我确实还是一个菜鸟,就更新到博客算了。我把第九章更新到博客上。9.6 Spark9.6.1 Spark模块和安装(1)Spark模块Apache Spark是一个原创 2020-08-03 16:23:23 · 1227 阅读 · 1 评论 -
八、Flume的构架,安装和基本使用
@Author : By Runsen@Date : 2020/6/21作者介绍:Runsen目前大三下学期,专业化学工程与工艺,大学沉迷日语,Python, Java和一系列数据分析软件。导致翘课严重,专业排名中下。.在大学60%的时间,都在CSDN。在一月到四月都没怎么写博客,因为决定写书,结果出书方说大学生就是一个菜鸟,看我确实还是一个菜鸟,就更新到博客算了。我把第九章更新到博客上。文章目录9.5 Sqoop和Flume9.5.3 Flume基本架构和安装(1) Flume基本架构(2)原创 2020-08-03 16:22:50 · 1117 阅读 · 1 评论 -
三、HDFS中的Python 和JavaAPI
@Author : By Runsen@Date : 2020/6/20作者介绍:Runsen目前大三下学期,专业化学工程与工艺,大学沉迷日语,Python, Java和一系列数据分析软件。导致翘课严重,专业排名中下。.在大学60%的时间,都在CSDN。在一月到四月都没怎么写博客,因为决定写书,结果出书方说大学生就是一个菜鸟,看我确实还是一个菜鸟,就更新到博客算了。我把第九章更新到博客上。文章目录9、大数据Hadoop框架9.2.3 Python API9.2.4 Java API9、大数据原创 2020-08-03 16:20:58 · 1176 阅读 · 1 评论 -
二、HDFS基本架构和shell操作
@Author : By Runsen@Date : 2020/6/19作者介绍:Runsen目前大三下学期,专业化学工程与工艺,大学沉迷日语,Python, Java和一系列数据分析软件。导致翘课严重,专业排名中下。.在大学60%的时间,都在CSDN。在一月到四月都没怎么写博客,因为决定写书,结果出书方说大学生就是一个菜鸟,看我确实还是一个菜鸟,就更新到博客算了。我把第九章更新到博客上。9.2 HDFS9.2.1 HDFS基本架构HDFS英文全称Hadoop Distributed Fi原创 2020-08-03 16:20:50 · 1131 阅读 · 0 评论 -
1 | hadoop分布式集群的搭建
搭建三节点 Hadoop分布式集群,其中node01作为Master,node2和node3作为slaves。参考:http://hadoop.apache.org/docs/r3.2.1/hadoop-project-dist/hadoop-common/ClusterSetup.html永久设置主机名,需要修改hosts文件,设置虚拟机的ip和主机名的映射关系,并关闭防火墙。原创 2020-08-03 16:20:26 · 2029 阅读 · 1 评论 -
创建hadoop用户并配置ssh免密码登录
[root@node01]# adduser hadoop[root@node01]# passwd hadoop更改用户 hadoop 的密码 。新的 密码:重新输入新的 密码:passwd:所有的身份验证令牌已经成功更新。[root@node01]# #添加hadoop授权[root@node01]# chmod -v u+w /etc/sudoersmode of "/etc...原创 2020-02-26 23:54:05 · 2237 阅读 · 0 评论