spark
文章平均质量分 72
清萝卜头
做快乐的事,做幸福的人
展开
-
docker+centos7启动spark2.4.5+hadoop2.10.0集群 for macOS
一、制作镜像1. centos 容器# 下载centos镜像 docker pull centos# 创建一个容器 docker run --name centos -itd centos /bin/bash# 进入已启动的容器docker attach centos2.下载安装包# 安装wget、ssh等基础服务yum install -y net-tools ...原创 2020-04-09 18:04:52 · 1441 阅读 · 1 评论 -
运行Spark遇到的问题
1. 运行在yarn集群上时报错: Failed to send RPC5111091680910991783 to /192.168.xxx.xxxx:49208:java.nio.channels.ClosedChannelException解决办法:配置yarn-site.xml一下内容 yarn.nodemanager.pmem-check-ena原创 2018-03-13 11:44:00 · 3555 阅读 · 0 评论 -
spark获取数据解读(部分)
本系列文章是下载的是spark2.2.1版本的源码进行相关分析和学习。理解dbData=sc.read.schema(mySchema).format("com.xxxx.spark.sql").options(uri=dbUrl, database= myDatabase, collection=myCollection).load()1.SparkSession类的概括(今天我们主原创 2018-01-15 15:50:57 · 3157 阅读 · 0 评论 -
pyspark源码之SparkSubmit学习( SparkSubmit.scala)
本系列文章是下载的是spark2.2.1版本的源码进行相关分析和学习。SparkSubmit.scala包含了3个Object和1个class,分别是SparkSubmitAction、SparkSubmit、SparkSubmitUtil和OptionAssigner。(1)首先来看一下SparkSubmitActionSparkSubmitAction是一个只允许在deploy包中原创 2018-01-15 15:34:43 · 2163 阅读 · 0 评论 -
pyspark源码之SparkContext学习(context.py)
本系列文章是下载的是spark2.2.1版本的源码进行相关分析和学习。## Licensed to the Apache Software Foundation (ASF) under one or more# contributor license agreements. See the NOTICE file distributed with# this work for additi翻译 2018-01-03 20:37:14 · 5122 阅读 · 0 评论 -
pyspark源码之SparkConf学习(conf.py)
本系列文章是下载的是spark2.2.1版本的源码进行相关分析和学习。## Licensed to the Apache Software Foundation (ASF) under one or more# contributor license agreements. See the NOTICE file distributed with# this work for addi翻译 2018-01-03 11:55:29 · 4424 阅读 · 0 评论 -
pyspark之DataFrame学习【指定dataFrame模式】(2)
指定dataFrame模式原创 2017-12-11 15:01:18 · 1586 阅读 · 2 评论 -
pyspark之MLlib学习【数据统计】(2)
pyspark系列文章是本人根据《PySpark实战指南》学习pyspark中学习笔记,这本书是一本译文,有些地方感觉有点小问题,不过在本人的这些笔记中都是亲自测试跑通后的小例子。仅作参考和学习。在前一篇文章中,我们已经清理我们的原始数据,本文将了解数据的各种统计信息。1.基本统计在spark的DataFrame中通过.discribe()方法实现数据的各种统计信息,但在使用MLib时原创 2017-12-15 16:58:54 · 2675 阅读 · 0 评论 -
pyspark之数据处理学习【离群值】(3)
pyspark系列文章是本人根据《PySpark实战指南》学习pyspark中学习笔记,这本书是一本译文,有些地方感觉有点小问题,不过在本人的这些笔记中都是亲自测试跑通后的小例子。仅作参考和学习。在做数据分析等时候,时长会碰到与样本其余数据的分布有显著偏离的数据,这种数据被称为离群值。在普遍的形式中,如果所有的值大致在Q1-1.5IQR和Q3+1.5IQR范围内(IQR指的是四分位范围,定义为...原创 2017-12-12 16:31:14 · 4172 阅读 · 2 评论 -
pyspark之数据处理学习【缺失值处理】(2)
在我们拿到的数据集中常常会存在某个属性的数值缺失这种情况。面对这种情况有两种办法:删除这种数据(如果你的数据负担得起) 对缺失值进行填充处理(有如下方法) 如果是离散布尔型,可以简单地添加第三个类别--missing,将其转化为一个分类变量 对于数值类型的数据,可以填充任何平均数、中值或者一些其他预定义的值。 from pyspark.sql import Sp...原创 2017-12-12 14:00:49 · 13678 阅读 · 3 评论 -
pyspark之数据处理学习【数据去重】(1)
1.重复数据例如spark = SparkSession.builder.appName("dataDeal").getOrCreate()df = spark.createDataFrame([ (1, 144.5, 5.9, 33, 'M'), (2, 167.2, 5.4, 45, 'M'), (3, 124.1, 5.2, 23, 'F'),原创 2017-12-11 18:01:45 · 6353 阅读 · 0 评论 -
pyspark之DataFrame学习【dataFrame应用实例】(4)
1.准备源数据集下载地址:https://github.com/drabastomek/learningPySpark原始数据截图如下:airport-code-na.txtdeparturedelays.csv首先通过制定数据集的文件路径位置以及使用SparkSession 导入数据集,来处理机场和飞行性能源数据集from pyspark.sql im原创 2017-12-11 16:59:48 · 2990 阅读 · 1 评论 -
pyspark之DataFrame学习【dataFrame查询】(3)
在查看dataFrame的信息时,可以通过collect()、show()、或者take()、来查看DataFrame中的数据(show()和take()包含了限制返回行数的选项)1.查看行数可以使用count()方法查看DataFrame的行数from pyspark.sql import SparkSessionspark= SparkSession\原创 2017-12-11 16:09:46 · 8932 阅读 · 0 评论 -
pyspark之DataFrame学习(1)
pyspark构建dataFrame并查看模式原创 2017-12-11 14:54:36 · 1624 阅读 · 0 评论