spark编程基础
文章平均质量分 56
向往自由的金鱼姬
一边生活,一边记录
展开
-
在虚拟机里怎么安装Hive?Hive与SQL的交互应用
遗漏的命令语句是解压:tar -zxvf 包名。原创 2023-11-24 10:45:08 · 599 阅读 · 1 评论 -
Spark Streaming编程实现流的词频操作
往ch6 文件夹下传输三个文本文件,用来模拟真实输入的数据流,以spark-submit命令运行上面编写好的py文件。套接字流的输入:这里使用nc命令,linux自带的写入程序;还是老样子,Spark Streaming 编程翻译过来就是创建一个新的.py文件实现词频统计的操作。在/opt/apps/code/ch6目录下新建一个.py文件,用来编写流的操作。提前准备好两个终端,一个用作套接字流的输入,一个用作程序的运行。运行程序 -- 查看各个地方购买行为的统计结果。运行程序 - 产生文件。原创 2023-11-18 23:14:26 · 242 阅读 · 1 评论 -
1. 掌握Hadoop的安装和配置
配置 ResourceManager,NodeManager 的通信端口,web监控端口等,负责管理集群中的资源,并为运行在集群上的应用程序分配资源,其中参数可以影响YARN的资源分配、调度、容错等方面的行为,可以配置YARN的最大内存使用量、最大CPU使用量、最大磁盘使用量,还可以配置YARN的日志输出路径、节点管理器的心跳间隔、应用程序的最大重试次数等。HDFS的相关设定,如文件副本的个数、块大小及是否使用强制权限等,此中的参数会覆盖hdfs-default.xml文件中默认设置。原创 2023-11-09 10:43:23 · 45 阅读 · 1 评论 -
linux虚拟机安装java环境
linux虚拟机安装Java环境。写出安装步骤并截图显示Java版本号的命令和结果原创 2023-11-08 18:07:46 · 322 阅读 · 1 评论 -
采用Spark Streaming编程实现套接字流统计词频操作并将结果存入到文件和数据库中
② 执行nc 命令,linux自带的写入程序,参数 [- l] :local(主机),[- k] :端口号。①在vm虚拟机上运行code,创建一个新的py文件,编写程序(socket_streaming.py)③以spark-submit 方式运行socket_streaming.py。原创 2023-11-08 17:51:15 · 126 阅读 · 1 评论 -
spark实现kafka流数据的操作
本次目标:kafka的安装和配置kafka测试spark读取kafka数据。原创 2023-11-08 17:18:02 · 226 阅读 · 1 评论