大数据
风雨「83」
木秀于林,风必崔之。出外言行,慎之慎之!
展开
-
docker 配置spark环境
1.拖取Spark镜像docker pull bde2020/spark-master2.运行Spark镜像# -h 主机名 -e 是否开机自启动,我选了truedocker run -itd --name spark-master -h spark-master -e ENABLE_INIT_DAEMON=true bde2020/spark-master 3.启动Sparkdocker exec -it spark-master bash4.启动Pytho原创 2020-08-11 11:12:35 · 716 阅读 · 0 评论 -
docker hadoop集群配置
环境1、操作系统: CentOS 64位网路设置hostname ip cluster-master 172.18.0.2 cluster-slave1 172.18.0.3 cluster-slave2 172.18.0.4 cluster-slave3 172.18.0.5 一、docker 安装二、拉去centos最新版本镜像docker pull centos 2.1 按照集群的架构,创建容器时需要设置固定IP,所..原创 2020-08-10 15:47:47 · 463 阅读 · 1 评论 -
Spark Streaming详解《八》
一、Spark Steaming概述Spark流是核心Spark API的扩展,支持可伸缩、高吞吐量、容错的实时数据流处理。数据可以从许多来源获取,如Kafka、Flume、Kinesis或TCP套接字,并且可以使用复杂的算法进行处理,这些算法用高级函数表示,如map、reduce、join和window。最后,处理后的数据可以推送到文件系统、数据库和活动指示板。事实上,您可以将Spark的机器学习和图形处理算法应用于数据流。二、常用实时流处理框架Storm:真正实时流处理 yoJav...原创 2020-05-27 09:38:47 · 14360 阅读 · 0 评论 -
PySpark之Spark SQL的使用《七》
Spark SQLis Apache Spark's module for working with structured data.原创 2020-05-26 10:22:42 · 15851 阅读 · 0 评论 -
PySpark之Spark Core调优《六》
一、WEBUI-HistoryserverEvery SparkContext launches a web UI, by default on port 4040, that displays useful information about the application. This includes:A list of scheduler stages and tasks A summary of RDD sizes and memory usage Environmental infor原创 2020-05-25 08:42:36 · 15824 阅读 · 0 评论 -
Spark Core解析《五》
一、Spark核心概念(1)Spark运行架构(2)重要概念Client客户端进程,负责提交作业Application提交一个作业就是一个Application,一个Application只有一个SparkContextMaster(图中的Cluster Manager),就像Hadoop中有NameNode和DataNode一样,Spark有Master和Worker。Master是集群的领导者,负责管理集群的资源,接收Client提交的作业,以及向Worker发送命令。原创 2020-05-20 19:52:49 · 19105 阅读 · 1 评论 -
Spark运行模式以及部署《四》
Spark运行模式有5种:1)local本地模式或者开发测试模式,./bin/pyspark \ --master local[4] \ --name spark001通过$SPARK_HOME/bin/pyspark --help 可查看帮助2)standalonestandalone为spark自带集群管理,分为master和worker节点。首先配置conf/slaves.temlate,增加集群节点。# A Spark Worker will.原创 2020-05-16 23:50:44 · 20724 阅读 · 0 评论 -
zsh: command not found:XXX
hadoop 执行 hadoop fs -ls/ 出现报错:zsh: command not found:hadoop原因:zsh主题插件oh_my_zsh,环境变量问题解决:open .zshrc --》vim ~/.zshrc 找到# User configuration 下面添加source ~/.bash_profile原创 2022-01-07 16:26:37 · 3436 阅读 · 0 评论 -
PySpark之算子综合实战案例《三》
一、词频统计需求:统计一个或者多个文件中单词次数。文本样式如下:分析:首先将文本数据读入转为为rdd,并通过flatmap进行切分成单词,然后进行map转化成(k,num),再通过reducebykey累加, def wordCount(): # file = 'file:///Users/wangyun/Documents/BigData/script/data/data.txt' # sys.argv[1] rdd = sc.tex原创 2020-05-15 18:04:33 · 22307 阅读 · 0 评论 -
Spark RDD操作,常用算子《二》
RDD官方操作原文如下:http://spark.apache.org/docs/latest/rdd-programming-guide.html#rdd-operations一、RDD OperationsRDDs support two types of operations: transformations, which create a new dataset from an existing one, and actions, which return a value to the dr原创 2020-05-14 17:48:00 · 22012 阅读 · 0 评论 -
hadoop,pySpark环境安装与运行实战《一》
一、环境准备1)安装java jdk下载java jdk 并在~/.bash_profile配置#export JAVA_HOME=/Users/wangyun/Documents/BigData/App/jdk1.8.0_60#export PATH=$JAVA_HOME/bin:$PATHexport JAVA_HOME=$(/usr/libexec/java_home)export PATH=$JAVA_HOME/bin:$PATHexport CLASS_PATH=$JAVA原创 2020-05-13 17:26:19 · 22210 阅读 · 1 评论 -
Mac ssh: connect to host localhost port 22: Connection refused spark启动
sbin ./start-dfs.shWARNING: An illegal reflective access operation has occurredWARNING: Illegal reflective access by org.apache.hadoop.security.authentication.util.KerberosUtil (file:/Users/wangyu...原创 2020-05-08 15:05:21 · 21185 阅读 · 0 评论