自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 收藏
  • 关注

原创 Spark RDD概述

​ Spark提供了一种对数据的核心抽象,称为弹性分布式数据集(Resilient Distributed Dataset,简称RDD)。这个数据集的全部或部分可以缓存在内存中,并且可以在多次计算时重用。RDD其实就是一个分布在多个节点上的数据集合。​ RDD的弹性主要是指:当内存不够时,数据可以持久化到磁盘,并且RDD具有高效的容错能力。​ 分布式数据集是指:一个数据集存储在不同的节点上,每个节点存储数据集的一部分。

2024-06-21 08:00:00 334

原创 Spark RDD算子

​ reduceByKey()算子的作用对象是元素为(key,value)形式(Scala元组)的RDD,使用该算子可以将key相同的元素聚集到一起,最终把所有key相同的元素合并成一个元素。​ rightOuterJoin()算子的使用方法与leftOuterJoin()算子相反,其与数据库的右外连接类似,以右边的RDD为基准(例如rdd1.rightOuterJoin(rdd2),以rdd2为基准),右边RDD的记录一定会存在。Spark会将RDD中的每个元素传入该函数的参数中。

2024-06-20 10:30:00 1932

原创 项目:热点搜索词统计

项目要求根据用户上网的搜索记录对每天的热点搜索词进行统计,以了解用户所关心的热点话题。要求完成:统计每天搜索数量前3名的搜索词(同一天中同一用户多次搜索同一个搜索词视为1次)。数据。

2024-06-19 19:00:00 198

原创 spark介绍及配置

唯一不同的是,Spark Shell本身为集群的client提交方式运行,不支持cluster提交方式,即使用Spark Shell时,Driver运行于本地客户端,而不能运行于集群中。因此,Spark处理速度比MapReduce更快。​ Driver为主控进程,负责执行应用程序的main()方法,创建SparkContext对象(负责与Spark集群进行交互),提交Spark作业,并将作业转化为Task(一个作业由多个Task任务组成),然后在各个Executor进程间对Task进行调度和监控。

2024-06-19 10:00:00 938

原创 Scala安装

其运行时候的性能通常与Java程序不分上下,并且Scala代码可以调用Java方法、继承Java类、实现Java接口等,几乎所有Scala代码都大量使用了Java类库。到Scala官网[https://www.scala-lang.org/download/]下载Windows安装包scala-2.12.7.msi。由于Spark主要是由Scala语言编写的,为了后续更好的学习Spark以及使用Scala编写Spark应用程序,需要首先学习使用Scala语言。变量名:SCALA_HOME。

2024-06-18 17:30:00 264

原创 在idea-maven中运行时遇到的问题

https://mvnrepository.com/找自己所需的依赖。在代码运行过程中出现的依赖问题可以去。将Application改为App。也可以修改自己的依赖。

2024-06-18 09:30:00 368

原创 HBase部署与基本操作

HBase 是一个面向列式存储的分布式数据库,HBase 底层存储基于 HDFS 实现,集群的管理基于 ZooKeeper 实现。

2024-06-17 20:30:00 1034

原创 伪集群zookeeper安装

进入/export/software目录下,将tar包解压到/export/servers目录下。ZooKeeper服务器是用Java创建的,它运行在JVM之上。需要安装JDK 7或更高版本。zookeeper启动成功。standalone代表zk没有搭建集群,现在是单节点。将下载的ZooKeeper放到/export/software目录下。修改存储目录:dataDir=/export/data/zkdata。进入到conf目录拷贝一个zoo_sample.cfg并完成配置。

2024-06-17 10:05:13 175 2

原创 Hive配置

(8)拷贝mysql驱动jar 到/export/servers/apache-hive-3.1.3-bin/lib。(4)修改$HADOOP_HOME/etc/hadoop/core-site.xml 开启hadoop代理功能。第二种:beeline -u jdbc:hive2://localhost:10000 -n root。(5) 拷贝hive-env.sh.template模版配置文件为hive-env.sh。(9) 删除冲突的log4j(log4j-slf4j-impl-2.4.1.jar)

2024-06-17 09:59:40 550 2

原创 电商日志分析三

为什么要ETL:没有必要解析出所有数据,只需要解析出有价值的字段即可。本项目中需要解析出:ip、url、pageId(topicId对应的页面Id)、country、province、city。日志的ETL操作(ETL:数据从来源端经过抽取(Extract)、转换(Transform)、加载(Load)至目的端的过程)EtlReducer类。EtlMapper类。EtlDriver类。

2024-06-13 14:38:54 93

原创 电商日志分析二

问题二:统计各个省份的浏览量 (需要解析IP)ProvinceReducer类。ProvinceMapper类。ProvinceDriver类。

2024-06-13 14:31:39 108

原创 电商日志分析项目一

为什么要ETL:没有必要解析出所有数据,只需要解析出有价值的字段即可。本项目中需要解析出:ip、url、pageId(topicId对应的页面Id)、country、province、city。日志的ETL操作(ETL:数据从来源端经过抽取(Extract)、转换(Transform)、加载(Load)至目的端的过程)导入hadoop依赖以及工具包依赖,pom.xml。问题一:统计页面浏览量(每行记录就是一次浏览)统计各个省份的浏览量 (需要解析IP)使用mapreduce编程。

2024-06-13 14:25:39 274

原创 手机流量统计项目

​ 继承org.apache.hadoop.mapreduce.Partitioner类,"13"开头的手机号交给第一个ReduceTask任务处理,最终输出到0号分区,"15"开头的手机号交给第二个ReduceTask任务处理,最终输出到1号分区,其余手机号交给第三个ReduceTask任务处理,最终输出到2号分区。​ 统计每个手机号上行流量和、下行流量和、总流量和(上行流量和+下行流量和),并且:将统计结果按照手机号的前缀进行区分,并输出到不同的输出文件中去。

2024-06-13 14:04:16 409

原创 day2-启动hadoop运行jar包时收获

如果把所有项目依赖的其他库和代码打成一个 jar,可以选择extract to the target JAR。比如如果你项目里依赖了 fastjson.jar 等第三方 jar,可以把这些第三方 jar 也打到最终生成的 jar 里面。确认要生成的 jar 名称(默认是项目或模块名),确认 jar 包的输出的目录,确认最终输出的 jar 里包含的依赖,点击 Apply 和 Ok。点击Build->Build Artifact,选择刚才自己打包jar,点击Build,就可以看见打包的jar文件。

2024-06-05 15:04:19 268 2

原创 day1-hadoop伪分布式集群配置

进入Linux操作系统中存放应用安装包的目录/export/software/(该目录需提前创建),然后执行rz -bey命令将JDK安装包上传到虚拟的/export/software/目录下。(13)修改 start-yarn.sh文件(在hadoop-3.2.0/sbin目录下),在文件前面增加如下内容。(14)修改stop-yarn.sh 文件(在hadoop-3.2.0/sbin目录下),在文件前面增加如下内容。(2)解压 hadoop 安装包到/export/servers目录下。

2024-06-05 15:04:06 936 3

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除