自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 资源 (19)
  • 收藏
  • 关注

原创 SPSS学习(2)之数据窗口常用操作技巧

SPSS系列文章是本人根据张文彤的《SPSS20.0统计分析基础教程第2版》学习SPSS的学习笔记,仅作参考和学习。范文芳

2017-12-21 18:58:09 7802

原创 SPSS学习(1)之数据录入与数据获取

SPSS系列文章是本人根据张文彤的《SPSS20.0统计分析基础教程第2版》》学习SPSS中学习笔记,仅作参考和学习。在SPSS中建立数据文件大致有两种情况:一种是非电子化的原始数据资料,需要直接将调查问卷中的数据录入SPSS软件,建立数据文件;另一种是已经被录入为其他数据格式的资料,需要将其内容直接读入SPSS中。针对这两种情况,我们一起来研究下,如何将数据录入到SPSS

2017-12-20 21:02:34 33974

原创 pyspark之MLlib学习【数据统计】(2)

pyspark系列文章是本人根据《PySpark实战指南》学习pyspark中学习笔记,这本书是一本译文,有些地方感觉有点小问题,不过在本人的这些笔记中都是亲自测试跑通后的小例子。仅作参考和学习。在前一篇文章中,我们已经清理我们的原始数据,本文将了解数据的各种统计信息。1.基本统计在spark的DataFrame中通过.discribe()方法实现数据的各种统计信息,但在使用MLib时

2017-12-15 16:58:54 2628

原创 pyspark之MLlib学习【加载和转换数据】(1)

1.概述MLlib概括了单个核心机器学习功能:数据准备:特征提取、变换、选择、分类特征的散列和一些自然语言处理方法。机器学习算法:实现了一些流行和高级的回归,分类和聚类算法。使用程序:统计方法,如描述性统计、卡方检验、线性回归(稀疏稠密矩阵和向量)和模型评估方法。2.加载和转换数据虽然MLlib是着重为RDD和DStream设计的,但是为了方便转换数据,我们将读取数据并

2017-12-14 14:31:25 1855

原创 pyspark之数据处理学习【离群值】(3)

pyspark系列文章是本人根据《PySpark实战指南》学习pyspark中学习笔记,这本书是一本译文,有些地方感觉有点小问题,不过在本人的这些笔记中都是亲自测试跑通后的小例子。仅作参考和学习。在做数据分析等时候,时长会碰到与样本其余数据的分布有显著偏离的数据,这种数据被称为离群值。在普遍的形式中,如果所有的值大致在Q1-1.5IQR和Q3+1.5IQR范围内(IQR指的是四分位范围,定义为...

2017-12-12 16:31:14 4106 2

原创 pyspark之数据处理学习【缺失值处理】(2)

在我们拿到的数据集中常常会存在某个属性的数值缺失这种情况。面对这种情况有两种办法:删除这种数据(如果你的数据负担得起) 对缺失值进行填充处理(有如下方法) 如果是离散布尔型,可以简单地添加第三个类别--missing,将其转化为一个分类变量 对于数值类型的数据,可以填充任何平均数、中值或者一些其他预定义的值。 from pyspark.sql import Sp...

2017-12-12 14:00:49 13583 3

原创 pyspark之数据处理学习【数据去重】(1)

1.重复数据例如spark = SparkSession.builder.appName("dataDeal").getOrCreate()df = spark.createDataFrame([ (1, 144.5, 5.9, 33, 'M'), (2, 167.2, 5.4, 45, 'M'), (3, 124.1, 5.2, 23, 'F'),

2017-12-11 18:01:45 6276

原创 pyspark之DataFrame学习【dataFrame应用实例】(4)

1.准备源数据集下载地址:https://github.com/drabastomek/learningPySpark原始数据截图如下:airport-code-na.txtdeparturedelays.csv首先通过制定数据集的文件路径位置以及使用SparkSession 导入数据集,来处理机场和飞行性能源数据集from pyspark.sql im

2017-12-11 16:59:48 2949 1

原创 pyspark之DataFrame学习【dataFrame查询】(3)

在查看dataFrame的信息时,可以通过collect()、show()、或者take()、来查看DataFrame中的数据(show()和take()包含了限制返回行数的选项)1.查看行数可以使用count()方法查看DataFrame的行数from pyspark.sql import SparkSessionspark= SparkSession\

2017-12-11 16:09:46 8823

原创 pyspark之DataFrame学习【指定dataFrame模式】(2)

指定dataFrame模式

2017-12-11 15:01:18 1547 2

原创 pyspark之DataFrame学习(1)

pyspark构建dataFrame并查看模式

2017-12-11 14:54:36 1574

用户故事与敏捷方法之Mike Cohn 著.zip

用户故事与敏捷方法_Mike Cohn 著 PDF。 带书签完整版

2019-07-02

代码整洁之道及代码整洁之道(姐妹篇):程序员的职业素养_带书签_高清完整版

代码整洁之道(中文版)和代码整洁之道姐妹篇 带完整书签 清晰扫描版 注:本电子资源仅供大家学习,如做他用,请尊重版权

2019-03-19

Notepad++里设置scala的语法高亮(包含使用说明)

Notepad++里对常用的语言都进行了相关的语法高亮提示,但是没有scala语言的,本资源作用于在notepad++中设置scala的语法高亮(包含使用说明)

2018-01-04

Spark快速大数据分析.pdf

Spark快速大数据分析.pdf ,挺清晰实用的。当然,电子档只是互相学习参考之用,如果需要还是支持版权购书。

2017-09-01

Spark Cookbook.pdf(清晰英文版)

Spark Cookbook.pdf(清晰英文版),本打算找中文版,但是没有找到资源,只找到英文版,结果去读的时候还好,简单易于理解,资源清晰,可读性还是挺高的,所以分享给大家

2017-08-31

网络调试助手

网络调试助手

2017-08-28

securcrt.pc141.com.rar(解压就可用)

windows机器上的访问linux的机器的终端

2017-08-21

pymongo-2.7.tar.gz

pymongo-2.7.tar.gz

2017-08-16

MongoDB实战.pdf

MongoDB实战.pdf

2017-08-09

阿里Hadoop集群运.pdf

阿里Hadoop集群运.pdf

2017-08-09

CDH4.3.0 HDFS 读写性能测试

HDFS 读写性能测试

2017-08-09

深入理解Spark 核心思想与源码分析 ,耿嘉安著<完成版>

深入理解Spark 核心思想与源码分析 ,耿嘉安著<完成版>

2017-08-04

Spark大数据分析实战 ,高彦杰,倪亚宇著 ,P214.pdf

Spark大数据分析实战 ,高彦杰,倪亚宇著

2017-08-03

Hadoop权威指南 第4版 修订版(英文版).pdf

Hadoop权威指南 第4版 修订版(英文版).pdf

2017-08-02

Hadoop权威指南 第3版 修订版(中文版).pdf

Hadoop权威指南 第3版 修订版(中文版).pdf )

2017-08-02

LogViewPro中文版 超大文本文件打开工具

LogViewPro中文版 超大文本文件打开利器 不论多少G的文本文件 全部秒开,秒杀ultraedit 等一切自称能够秒开的程序。

2017-08-01

红透半边天的VR(1)_刘国柱

讲的还挺不错的,虽然很初级,但是比较全面细致了。

2016-10-25

线程组/线程池

这是对线程组和线程池解释,个人参考一些文章后根据个人理解做的小总结。

2016-10-22

什么是面向对象?什么是面向过程?

这是对面向过程和面向对象的解释,个人参考一些文章后做的小总结。

2016-10-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除