自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

原创 Numpy

简介Numpy的主要对象是同种元素的多维数组。所有元素都是同一种类型,通过一个正整数元素索引的元素表格。Numpy中维度dimensions,叫做轴axes,轴的个数叫做秩(rank).[1,2,3] 秩=1 [[1,0,0],[0,1,2]] 秩=2 [[0,1,2,3,4],[4,5,6,7,7,8],[1,2,3,4,5]] 秩=2 ...

2019-06-21 21:45:22 140

原创 pandas学习

pandas是基于numpy的一种工具,该工具是为了解决数据分析人物而创建的。pandas纳入了大量库和一些标准的数据模型,提供了高效的操作大型数据集所需的工具(函数和方法)。pandas是一个数据分析包。Series一维数组,与numpy中的一维array类似。(Series可以保存不同种数据类型)DataFrame 二维的表格型数据结构。可以将DataFrame理解为Se...

2019-06-21 20:06:27 112

原创 RDD与DataFrame之间的转换

RDD转换为DataFrame方法1:1. 需要import spark.implicits._2. case class + toDF创建DataFrame//use case class Person case class Person(name:String,age:Int) def rddToDFCase(sparkSession : SparkSession):D

2018-01-29 20:00:00 8440

原创 spark-scala 函数定义

最简单的函数:def hello() = {"Hello World!"}带返回类型的函数:def hello():String = {"Hello World!"} 带参数的函数:def square (i:Int) = {i*i} 带多个参数的函数:def add(x: Int, y: Int): Int =

2018-01-25 22:57:51 532

翻译 RDD Programming Guide

1. spark的贡献:   a) RDD 分布在各个节点上,并且可以并行运行;     b) 共享变量可以并行使用,如果spark在多个节点上并行运行某个函数,那么spark会把函数使用到的变量复制到每个节点上。spark支持两种贡献变量:i) 广播变量:将一个只读变量缓存到集群的每个节点上;ii) 累加变量:只允许add操作,用于计数求和2. 使用spark之前,要先import两

2018-01-24 23:33:50 146

翻译 Spark SQL, DataFrames and Datasets Guide

1. Spark SQL 是Spark的一个模块,用来进行结构化数据处理。与RDD不同,Spark SQL提供了更多的数据和计算能力。2. Spark SQL的其中一个功能就是执行SQL查询:    (1) 可以使用hive sql    (2)用sql查询返回的是Data/DataFrame3. Dataset: 分布式数据集合4. DataFrame: Dataset+列名

2018-01-21 23:47:14 150

翻译 Spark使用指南

1. Spark 2.0之前,Spark主要使用RDD(Resilient Distributed Dataset 弹性分布式数据集);   Spark 2.0之后,RDD被Dataset所取代,Dataset很像RDD,但是比RDD表现更好。建议使用Dataset。2. 读取数据从文件读取数据val textFile = spark.read.textFile("READ

2018-01-21 22:49:47 359

翻译 GraphX guide (1)

1. 导入Spark和GraphX到项目中import org.apache.spark._import org.apache.spark.graphx._// To make some of the examples work we will also need RDDimport org.apache.spark.rdd.RDD2. Graph提供了获取vertices和edge

2018-01-21 22:36:52 156

转载 python ——numpy各函数简介之生成数组函数(Array creation routines)

1、empty(shape[, dtype, order])  依据给定形状和类型(shape[, dtype, order])返回一个新的空数组。参数:shape : 整数或者整型元组  定义返回数组的形状;dtype : 数据类型,可选  定义返回数组的类型。order : {‘C’, ‘F’}, 可选  规定返回数组元素在内存的存储顺序:C(C语言)-

2014-06-25 20:37:09 1653

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除