![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
文章平均质量分 51
连胜是我偶像
软件工程学生
展开
-
基于命令行方式使用Kafka
1. 创建主题输入:kafka-topics.sh --create --topic itcasttopic --partitions 3 --replication-factor 1 --zookeeper hadoop01:2181,hadoop02:2181,hadoop03:21812. 创建生产者生产消息hadoop01中,输入:kafka-console-producer.sh --broker-list hadoop01:9092,hadoop02:9092,hadoop0原创 2022-04-18 19:46:10 · 392 阅读 · 0 评论 -
Spark——Linux环境下 Kafka集群的安装与配置
1. 下载 解压 安装 Kafka安装包下载地址: Apache Kafka在hadoop01中输入:cd /export/software/输入:rz -E选择Kafka安装包打开并上传,输入ls查看,第一行第二个是Kafka解压安装包到 /export/servers输入:tar -zxvf kafka_2.11-2.0.0.tgz -C /export/servers/验证安装输入:cd /export/servers/输入:ls..原创 2022-04-15 11:16:09 · 2469 阅读 · 0 评论 -
Spark DataFrame的创建
目录1. 环境准备2. 从 txt 文件创建 DataFrame3.从 RDD中创建 DataFrame4. 一些错误1. 环境准备开启虚拟机、开启hadoop集群、开启spark集群、开启spark-shell、在spark-shell中导入隐式转换包hadoop集群 输入:start-all.shspark集群 输入:cd /export/servers/spark................. 输入:sbin/start-all.shspark-shell.原创 2022-04-01 10:25:05 · 3855 阅读 · 0 评论 -
IDEA setting.xml在哪里?配置阿里云仓库的setting.xml?
右键pom.xml文件原创 2022-03-30 23:46:33 · 587 阅读 · 0 评论 -
IDEA中新建中没有Scala Class文件
问题:如果没有新建中没有出现最右边框框中的选项,就得去添加scala SDK解决:原创 2022-03-30 22:57:11 · 2096 阅读 · 0 评论 -
IDEA开发WordCount程序(1)———— 本地模式执行 Spark 程序 未写完
1. 创建 Maven 项目 ,新建资源文件夹1.1创建一个maven工程项目,名为“spark chapter02”。1.2 在main和test目录下分别创建一个名称为scala的文件夹。test下同样操作1.3 把Scala文件夹标记成资源文件夹、测试资源文件夹右键 src->main->scala,光标移动到 Mark Directory as ,点击Sources Root,标记成资源文件夹右键 src->test->sc..原创 2022-03-30 21:51:15 · 1133 阅读 · 0 评论 -
Spark RDD弹性分布式数据集(3)——常见行动算子
目录1.RDD的处理过程2.行动算子2.1 count()返回元素个数2.2 first() 返回第一个元素2.3 take(n) 返回前n个元素2.4 reduce(func) 返回所有元素的累加值2.5 collect() 返回所有元素2.6 foreach(func)3. 总览1.RDD的处理过程2.行动算子常见行动算子2.1 count()...原创 2022-03-30 13:36:25 · 375 阅读 · 0 评论 -
Spark RDD弹性分布式数据集(2)——转换算子
1.RDD的处理过程2.转换算子转换:根据已有RDD创建新的RDD,每一次通过转换算子计算后都会返回一个新的RDD,供给下一个转换算子使用常用转换算子:2.1 filter(func) 筛选在上一章RDD的创建中,/data目录下有test.txt文件加载成RDD输入:val lines=sc.textFile("file:///export/data/test.txt")使用filter(func) 筛选输入:val lineswitSpark = lines.原创 2022-03-30 12:13:45 · 1245 阅读 · 0 评论 -
虚拟机中,怎么进入spark shell?
前提:spark已经安装在虚拟机中输入:cd /export/servers/spark输入:bin/spark-shell --master local[2]出现一个很大的spark即可。原创 2022-03-30 11:24:57 · 3369 阅读 · 0 评论 -
Spark RDD弹性分布式数据集(1)——RDD的创建方式
目录1.从文件系统加载数据创建RDD1.1从Linux本地文件系统加载数据创建RDD1.1.1在hadoop01 /export/data/ 目录创建test.txt文件1.1.2进入Spark shell交互窗口1.1.3在Linux本地系统读取test.txt文件数据创建RDD1.2从HDFS中加载数据创建RDD1.2.1查看HDFS是否有/data目录1.2.2将test.txt文件上传到HDFS的data目录下1.2.3HFDS读取test.txt文件数...原创 2022-03-29 21:44:48 · 1295 阅读 · 0 评论 -
Spark基础(1)——搭建Spark开发环境、UI界面查看spark集群
1.环境前提1.1已经搭建好hadoop环境Hadoop环境部署,参考我专栏里Hadoop专栏1.2我的参考配置环境Linux系统:CentOS-6.8版本Hadoop:2.7.4版本JDK:1.8版本Spark:2.3.2版本2.Spark部署Standalone模式(主从)2.1下载spark安装包安装包下载网址:Downloads | Apache Spark标1:现在比较稳定的版本为3.2.1。和支持的Hadoop版本标2、标3:.原创 2022-03-24 16:14:44 · 6710 阅读 · 0 评论 -
spark能取代Hadoop吗?
不能。因为spark只能进行运算,运算速度高于Hadoop,但是不能进行存储。原创 2022-03-23 20:06:17 · 1717 阅读 · 0 评论 -
hadoop与spark的简单对比
相同点:Hadoop和spark都是大数据计算框架。不同点:1.编程方式Hadoop:使用MapReduce计算数据时,计算过程必须转化为Map和Reduce两个过程spark:不止以上两种操作,还提供多种数据集的操作类型2.数据存储Hadoop:计算产生的中间结果,存储在本地磁盘中spark:存储在内存中3.数据处理Hadoop:执行数据处理时,都需要从磁盘中加载数据,磁盘IO开销较大spark:执行数据处理时,将数据加载到内存中,直接在内存中进行计算。4数原创 2022-03-22 21:49:03 · 702 阅读 · 0 评论 -
‘List.type‘ does not take parameters
目录报错指示:'List.type' does not take parameters报错代码:报错原因:解决:延申:参考文章: 报错指示:'List.type' does not take parameters List类型不接受参数 报错代码: 报错原因:包里面有之前编写的一个List类,编译时优先调用了包里的List而没有调用java.util里面的List。即:注意看上图代码,左上蓝框,的类名,和,右上蓝框,的名字一样,代码里面调用了自己L.原创 2022-03-09 19:55:04 · 2018 阅读 · 0 评论