是否W-CSDN博客

原创 Spark RDD概述

Spark提供了一种对数据的核心抽象，称为弹性分布式数据集（Resilient Distributed Dataset，简称RDD）。这个数据集的全部或部分可以缓存在内存中，并且可以在多次计算时重用。RDD其实就是一个分布在多个节点上的数据集合。 RDD的弹性主要是指：当内存不够时，数据可以持久化到磁盘，并且RDD具有高效的容错能力。分布式数据集是指：一个数据集存储在不同的节点上，每个节点存储数据集的一部分。

2024-06-21 08:00:00 334

原创 Spark RDD算子

reduceByKey()算子的作用对象是元素为(key,value)形式（Scala元组）的RDD，使用该算子可以将key相同的元素聚集到一起，最终把所有key相同的元素合并成一个元素。 rightOuterJoin()算子的使用方法与leftOuterJoin()算子相反，其与数据库的右外连接类似，以右边的RDD为基准（例如rdd1.rightOuterJoin(rdd2)，以rdd2为基准），右边RDD的记录一定会存在。Spark会将RDD中的每个元素传入该函数的参数中。

2024-06-20 10:30:00 1932

原创项目：热点搜索词统计

项目要求根据用户上网的搜索记录对每天的热点搜索词进行统计，以了解用户所关心的热点话题。要求完成：统计每天搜索数量前3名的搜索词（同一天中同一用户多次搜索同一个搜索词视为1次）。数据。

2024-06-19 19:00:00 198

原创 spark介绍及配置

唯一不同的是，Spark Shell本身为集群的client提交方式运行，不支持cluster提交方式，即使用Spark Shell时，Driver运行于本地客户端，而不能运行于集群中。因此，Spark处理速度比MapReduce更快。 Driver为主控进程，负责执行应用程序的main()方法，创建SparkContext对象（负责与Spark集群进行交互），提交Spark作业，并将作业转化为Task（一个作业由多个Task任务组成），然后在各个Executor进程间对Task进行调度和监控。

2024-06-19 10:00:00 938

原创 Scala安装

其运行时候的性能通常与Java程序不分上下，并且Scala代码可以调用Java方法、继承Java类、实现Java接口等，几乎所有Scala代码都大量使用了Java类库。到Scala官网[https://www.scala-lang.org/download/]下载Windows安装包scala-2.12.7.msi。由于Spark主要是由Scala语言编写的，为了后续更好的学习Spark以及使用Scala编写Spark应用程序，需要首先学习使用Scala语言。变量名：SCALA_HOME。

2024-06-18 17:30:00 264

原创在idea-maven中运行时遇到的问题

https://mvnrepository.com/找自己所需的依赖。在代码运行过程中出现的依赖问题可以去。将Application改为App。也可以修改自己的依赖。

2024-06-18 09:30:00 368

原创 HBase部署与基本操作

HBase 是一个面向列式存储的分布式数据库，HBase 底层存储基于 HDFS 实现，集群的管理基于 ZooKeeper 实现。

2024-06-17 20:30:00 1034

原创伪集群zookeeper安装

进入/export/software目录下，将tar包解压到/export/servers目录下。ZooKeeper服务器是用Java创建的，它运行在JVM之上。需要安装JDK 7或更高版本。zookeeper启动成功。standalone代表zk没有搭建集群，现在是单节点。将下载的ZooKeeper放到/export/software目录下。修改存储目录：dataDir=/export/data/zkdata。进入到conf目录拷贝一个zoo_sample.cfg并完成配置。

2024-06-17 10:05:13 175 2

原创 Hive配置

(8)拷贝mysql驱动jar 到/export/servers/apache-hive-3.1.3-bin/lib。(4)修改$HADOOP_HOME/etc/hadoop/core-site.xml 开启hadoop代理功能。第二种：beeline -u jdbc:hive2://localhost:10000 -n root。(5) 拷贝hive-env.sh.template模版配置文件为hive-env.sh。(9) 删除冲突的log4j（log4j-slf4j-impl-2.4.1.jar）

2024-06-17 09:59:40 550 2

weixin_61676991的博客

原创 Spark RDD概述

原创 Spark RDD算子

原创项目：热点搜索词统计

原创 spark介绍及配置

原创 Scala安装

原创在idea-maven中运行时遇到的问题

原创 HBase部署与基本操作

原创伪集群zookeeper安装

原创 Hive配置

原创电商日志分析三

原创电商日志分析二

原创电商日志分析项目一

原创手机流量统计项目

原创 day2-启动hadoop运行jar包时收获

原创 day1-hadoop伪分布式集群配置

空空如也

空空如也