大数据平台技术
文章平均质量分 80
沐风797
这个作者很懒,什么都没留下…
展开
-
12,以文件和socket为数据源的Spark streaming实践
以Socket为数据源Pom文件源代码:import org.apache.spark.streaming.{Seconds, StreamingContext}object SocketWordCount { def main(args :Array[String]) = { //创建一个streamingContext对象,在本地运行,两个线程 //设置划分数据流为片段的时间间隔为20秒,可以根据需要更改时间,但是不宜太慢...原创 2021-07-16 13:07:04 · 526 阅读 · 0 评论 -
11,基于pySpark的TF-IDF算法实现
from pyspark import SparkConf, SparkContextimport math#以下为计算过程中需要用到的几个函数# 该函数主要是统计一个文档中包含哪些单词def word_contains(words_list): words_set=set(words_list)#将列表转为set,去除重复的单词 return list(words_set)#再将set转为列表返回# 计算每个单词的逆文档频率idfdef computeI...原创 2021-07-16 13:04:26 · 874 阅读 · 0 评论 -
pySpark与Kmeans算法实现
一、实践Spark的共享变量不使用广播变量时:Spark的执行过程中,Spark的一个或者多个函数操作会作为一个Task分发到某个节点上的Executor中去执行,当函数用到程序中定义的变量,那么那么Spark会将这些变量创建一个副本,并与这些函数一起打包到相应的task中。那么当有很多个task都应用到同一个变量时,spark会多次复制并打包传输这些变量,但变量本身有可能是一个很大的字典或者集合,这就会引起大量的网络传输,也有可能会造成一个Executor的内存溢出。广播变量的意义:就原创 2021-07-16 13:02:04 · 1788 阅读 · 0 评论 -
9,基于Scala的wordcount Spark程序
一,在IDEA中安装Scala插件与SDK安装插件在IDEA欢迎页面,点击右下角Configure选项,并选择其中的Plugins选项,选择browse repositories按钮,在新弹出的窗口的左上角的输入框中输入Scala,找到Scala插件,点击右边的install.加载Scala插件与SDKSpark中已经自带了Scala开发套件,因此无需重新下载安装Scala SDK。Scala插件上面已经下载,自动加载完毕;SDK需要在新建项目时加载。二、基于IDEA编辑和运行w原创 2021-07-16 12:56:40 · 566 阅读 · 0 评论 -
基于Spark Shell的worldcount程序
(一),基于Spark Shell的worldcount程序1.启动spark首先进入/usr/local/spark/bin目录,执行spark-shell 启动spark便成功进入Spark Shell提供以Scala和Python语言为接口的交互式Spark编程环境。2.创建example.txt文件新打开一个终端,进入/home/hadoop创建一个example文件,并输入内容。3.在交互式面板依次输入并执行程序val textFile = sc.t原创 2021-07-16 12:54:00 · 542 阅读 · 0 评论 -
Spark的安装部署与基本原理总结 (linux系统)
安装部署Spark1. 将安装包拖入到Linux虚拟机的桌面,然后进入桌面所在的文件路径,对Spark进行解压和重命名等操作2.通过如下Linux命令进入Spark解压文件中的conf文件夹,并根据Spark自带的模板创建spark-env.sh配置文件3.通过在Linux终端使用命令“vim spark-env.sh”修改配置文件spark-env.sh。在配置文件的空白处,添加如下内容4.在spark-env.sh修改完成之后,我们进一步配置Spark的环境变量。使原创 2021-07-16 12:43:03 · 1404 阅读 · 0 评论 -
Hbase的实践操作(虚拟机Linux系统)
(一).Hbase的shell操作1.进入hbase shell在启动HDFS和Hbase之后,在Linux客户端输入“hbase shell”命令将进入Hbase Shell。打开Hbase Shell之后,首先输入“help”命令,Hbase Shell会显示Hbase所提供的所有Shell命令。2.创建、查看、删除命名空间建立一个test的命名空间,具体的命令如下通过如下describe命令来查看所建立的命名空间的详细信息我们也可以通过如下命令来查看当前Hba.原创 2021-07-16 12:40:34 · 4014 阅读 · 0 评论 -
5,Hbase的安装部署
(1)安装部署hbase1:安装zookeeper(1)将压缩包拷贝进主目录。打开终端将压缩包解压安装但未输入安装路径,默认安装在当前目录。mv命令将zookeeper 改名,再用mv命令将zookeeper转移到/usr/localcd命令进入/usr/local。Ls查看当前目录。用chown命令赋予hadoop用户使用当前目录的权限。但是因为当前用户是guan所以后面发生权限不够的问题。文件夹无法建立。重新赋予guan用户使用当前目录的权限。原创 2021-07-16 12:37:21 · 637 阅读 · 0 评论 -
4,wordcount 多MapReduce任务的串联
一,combiner实验: Map阶段结束后,产生的键值对的value全为1,为了减少map将键值对传到节点上时用过多的时间和内存,减少reduce端聚合的次数,在map之后reduce之前,先将每个map任务产生的相同key值的value进行一次合并。由于在wordcount中combiner操作与reduce操作是一样的,所以Mycombiner类代码内容与reducer一样。在编写完combiner类之后,要在主类下进行设置。如下图:其他类不变。二,多mapRedu...原创 2021-07-16 12:25:32 · 602 阅读 · 0 评论 -
3,自定义Hadoop数据类型实践
尝试改变wordcount程序的结构,mapper和reducer类独立出来。首先新建立两个类,分别将WordCount类中的mapper类,reducer类和包含main 方法的wordcount类的内容粘贴到新类中,同时删除static 关键字。MyMapper类:MYReducer类:注意独立出mapper ,reducer和包含main方法的主类要在一个包里。新建一个WordCountAndLen类,实现hadoop数据类型的自定义。修改 MyReducer类:.原创 2021-07-16 12:12:59 · 571 阅读 · 0 评论 -
1,虚拟机下安装hadoop生态系统
2.1虚拟机的创建... 172.1.1 虚拟化软件的安装... 172.1.2 虚拟机的创建... 172.1.3 Vmware tools的安装... 232.2 Linux的常用命令... 252.3 JDK的安装... 252.4 IDEA+Maven的安装... 272.4.1 IDEA的安装... 272.4.2 Maven的安装... 282.4.3 在IDEA项目中配置JDK和Maven. 292.5 Hadoop的安装... 312.5.1 SS原创 2021-07-15 12:44:33 · 155 阅读 · 0 评论 -
2,HDFS的操作实践 ,(1)、HDFS Shell 实践 (2)、HDFS Web客户端 (3)、HDFS Java API 实践
实验目的: 了解HDFS分布式文件系统 学会建立maven项目,查看文件系统 实验环境(硬件和软件) 普通PC机,wondows10系统,VMware,ubuntu虚拟机,idea编译器实验步骤:hadoop生态系统安装过程比较复杂,建议拷贝同学的,或者去一点一点的搜步骤。此实验是在虚拟机环境下运行的。HDFS Shell 实践执行start-all.s...原创 2021-07-15 09:34:32 · 411 阅读 · 0 评论