2017年12月_清萝卜头

12月 11月 10月 09月 08月 07月 04月 03月 01月

原创 SPSS学习(2)之数据窗口常用操作技巧

SPSS系列文章是本人根据张文彤的《SPSS20.0统计分析基础教程第2版》学习SPSS的学习笔记，仅作参考和学习。范文芳

2017-12-21 18:58:09 7802

原创 SPSS学习(1)之数据录入与数据获取

SPSS系列文章是本人根据张文彤的《SPSS20.0统计分析基础教程第2版》》学习SPSS中学习笔记，仅作参考和学习。在SPSS中建立数据文件大致有两种情况：一种是非电子化的原始数据资料，需要直接将调查问卷中的数据录入SPSS软件，建立数据文件；另一种是已经被录入为其他数据格式的资料，需要将其内容直接读入SPSS中。针对这两种情况，我们一起来研究下，如何将数据录入到SPSS

2017-12-20 21:02:34 33974

原创 pyspark之MLlib学习【数据统计】(2)

pyspark系列文章是本人根据《PySpark实战指南》学习pyspark中学习笔记，这本书是一本译文，有些地方感觉有点小问题，不过在本人的这些笔记中都是亲自测试跑通后的小例子。仅作参考和学习。在前一篇文章中，我们已经清理我们的原始数据，本文将了解数据的各种统计信息。1.基本统计在spark的DataFrame中通过.discribe()方法实现数据的各种统计信息，但在使用MLib时

2017-12-15 16:58:54 2628

原创 pyspark之MLlib学习【加载和转换数据】(1)

1.概述MLlib概括了单个核心机器学习功能：数据准备：特征提取、变换、选择、分类特征的散列和一些自然语言处理方法。机器学习算法：实现了一些流行和高级的回归，分类和聚类算法。使用程序：统计方法，如描述性统计、卡方检验、线性回归（稀疏稠密矩阵和向量）和模型评估方法。2.加载和转换数据虽然MLlib是着重为RDD和DStream设计的，但是为了方便转换数据，我们将读取数据并

2017-12-14 14:31:25 1855

pyspark系列文章是本人根据《PySpark实战指南》学习pyspark中学习笔记，这本书是一本译文，有些地方感觉有点小问题，不过在本人的这些笔记中都是亲自测试跑通后的小例子。仅作参考和学习。在做数据分析等时候，时长会碰到与样本其余数据的分布有显著偏离的数据，这种数据被称为离群值。在普遍的形式中，如果所有的值大致在Q1-1.5IQR和Q3+1.5IQR范围内（IQR指的是四分位范围，定义为...

2017-12-12 16:31:14 4106 2

原创 pyspark之数据处理学习【缺失值处理】(2)

在我们拿到的数据集中常常会存在某个属性的数值缺失这种情况。面对这种情况有两种办法：删除这种数据（如果你的数据负担得起）对缺失值进行填充处理（有如下方法）如果是离散布尔型，可以简单地添加第三个类别--missing，将其转化为一个分类变量对于数值类型的数据，可以填充任何平均数、中值或者一些其他预定义的值。 from pyspark.sql import Sp...

2017-12-12 14:00:49 13583 3

原创 pyspark之数据处理学习【数据去重】(1)

1.重复数据例如spark = SparkSession.builder.appName("dataDeal").getOrCreate()df = spark.createDataFrame([ (1, 144.5, 5.9, 33, 'M'), (2, 167.2, 5.4, 45, 'M'), (3, 124.1, 5.2, 23, 'F'),

2017-12-11 18:01:45 6276

原创 pyspark之DataFrame学习【dataFrame应用实例】（4）

1.准备源数据集下载地址：https://github.com/drabastomek/learningPySpark原始数据截图如下：airport-code-na.txtdeparturedelays.csv首先通过制定数据集的文件路径位置以及使用SparkSession 导入数据集，来处理机场和飞行性能源数据集from pyspark.sql im

2017-12-11 16:59:48 2949 1

原创 pyspark之DataFrame学习【dataFrame查询】（3）

在查看dataFrame的信息时，可以通过collect()、show()、或者take()、来查看DataFrame中的数据（show()和take()包含了限制返回行数的选项）1.查看行数可以使用count()方法查看DataFrame的行数from pyspark.sql import SparkSessionspark= SparkSession\

2017-12-11 16:09:46 8823