- 博客(11)
- 资源 (19)
- 收藏
- 关注
原创 SPSS学习(2)之数据窗口常用操作技巧
SPSS系列文章是本人根据张文彤的《SPSS20.0统计分析基础教程第2版》学习SPSS的学习笔记,仅作参考和学习。范文芳
2017-12-21 18:58:09 7802
原创 SPSS学习(1)之数据录入与数据获取
SPSS系列文章是本人根据张文彤的《SPSS20.0统计分析基础教程第2版》》学习SPSS中学习笔记,仅作参考和学习。在SPSS中建立数据文件大致有两种情况:一种是非电子化的原始数据资料,需要直接将调查问卷中的数据录入SPSS软件,建立数据文件;另一种是已经被录入为其他数据格式的资料,需要将其内容直接读入SPSS中。针对这两种情况,我们一起来研究下,如何将数据录入到SPSS
2017-12-20 21:02:34 33974
原创 pyspark之MLlib学习【数据统计】(2)
pyspark系列文章是本人根据《PySpark实战指南》学习pyspark中学习笔记,这本书是一本译文,有些地方感觉有点小问题,不过在本人的这些笔记中都是亲自测试跑通后的小例子。仅作参考和学习。在前一篇文章中,我们已经清理我们的原始数据,本文将了解数据的各种统计信息。1.基本统计在spark的DataFrame中通过.discribe()方法实现数据的各种统计信息,但在使用MLib时
2017-12-15 16:58:54 2628
原创 pyspark之MLlib学习【加载和转换数据】(1)
1.概述MLlib概括了单个核心机器学习功能:数据准备:特征提取、变换、选择、分类特征的散列和一些自然语言处理方法。机器学习算法:实现了一些流行和高级的回归,分类和聚类算法。使用程序:统计方法,如描述性统计、卡方检验、线性回归(稀疏稠密矩阵和向量)和模型评估方法。2.加载和转换数据虽然MLlib是着重为RDD和DStream设计的,但是为了方便转换数据,我们将读取数据并
2017-12-14 14:31:25 1855
原创 pyspark之数据处理学习【离群值】(3)
pyspark系列文章是本人根据《PySpark实战指南》学习pyspark中学习笔记,这本书是一本译文,有些地方感觉有点小问题,不过在本人的这些笔记中都是亲自测试跑通后的小例子。仅作参考和学习。在做数据分析等时候,时长会碰到与样本其余数据的分布有显著偏离的数据,这种数据被称为离群值。在普遍的形式中,如果所有的值大致在Q1-1.5IQR和Q3+1.5IQR范围内(IQR指的是四分位范围,定义为...
2017-12-12 16:31:14 4106 2
原创 pyspark之数据处理学习【缺失值处理】(2)
在我们拿到的数据集中常常会存在某个属性的数值缺失这种情况。面对这种情况有两种办法:删除这种数据(如果你的数据负担得起) 对缺失值进行填充处理(有如下方法) 如果是离散布尔型,可以简单地添加第三个类别--missing,将其转化为一个分类变量 对于数值类型的数据,可以填充任何平均数、中值或者一些其他预定义的值。 from pyspark.sql import Sp...
2017-12-12 14:00:49 13583 3
原创 pyspark之数据处理学习【数据去重】(1)
1.重复数据例如spark = SparkSession.builder.appName("dataDeal").getOrCreate()df = spark.createDataFrame([ (1, 144.5, 5.9, 33, 'M'), (2, 167.2, 5.4, 45, 'M'), (3, 124.1, 5.2, 23, 'F'),
2017-12-11 18:01:45 6276
原创 pyspark之DataFrame学习【dataFrame应用实例】(4)
1.准备源数据集下载地址:https://github.com/drabastomek/learningPySpark原始数据截图如下:airport-code-na.txtdeparturedelays.csv首先通过制定数据集的文件路径位置以及使用SparkSession 导入数据集,来处理机场和飞行性能源数据集from pyspark.sql im
2017-12-11 16:59:48 2949 1
原创 pyspark之DataFrame学习【dataFrame查询】(3)
在查看dataFrame的信息时,可以通过collect()、show()、或者take()、来查看DataFrame中的数据(show()和take()包含了限制返回行数的选项)1.查看行数可以使用count()方法查看DataFrame的行数from pyspark.sql import SparkSessionspark= SparkSession\
2017-12-11 16:09:46 8823
代码整洁之道及代码整洁之道(姐妹篇):程序员的职业素养_带书签_高清完整版
2019-03-19
Notepad++里设置scala的语法高亮(包含使用说明)
2018-01-04
Spark Cookbook.pdf(清晰英文版)
2017-08-31
LogViewPro中文版 超大文本文件打开工具
2017-08-01
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人