自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(21)
  • 资源 (9)
  • 收藏
  • 关注

原创 pyspark lit 常量

import org.apache.spark.sql.functions._val longLength = udf((bookTitle: String, length: Int) => bookTitle.length > length)import sqlContext.implicits._val booksWithLongTitle = dataFrame.filter(lo

2017-05-31 18:10:08 8346

原创 常用api网址

python api,前端api:http://www.runoob.com/sitemappyspark api:http://spark.apache.org/docs/latest/api/python/

2017-05-31 18:01:32 986

原创 python pass 空语句 do nothing

关于pass,百度查到的常用的解释如下:1、空语句 do nothing2、保证格式完整 3、保证语义完整 以if语句为例,在c或c++/java中:?123456if(true);//do nothingelse{//do somet

2017-05-31 17:46:28 2691

转载 spark dataframe操作集锦(提取前几行,合并,入库等)

转载:http://blog.csdn.net/sparkexpert/article/details/51042970Spark dataframe派生于RDD类,但是提供了非常强大的数据操作功能。当然主要对类SQL的支持。在实际工作中会遇到这样的情况,主要是会进行两个数据集的筛选、合并,重新入库。首先加载数据集,然后在提取数据集的前几行过程中

2017-05-31 16:17:36 3056

原创 sparksql的agg函数,作用:在整体DataFrame不分组聚合

1、 agg(expers:column*) 返回dataframe类型 ,同数学计算求值df.agg(max("age"), avg("salary"))df.groupBy().agg(max("age"), avg("salary"))2、 agg(exprs: Map[String, String])  返回dataframe类型 ,同数学计算求值 map类型的df.a

2017-05-31 16:13:23 43103 1

原创 如何在windows下安装配置pyspark notebook

如何在windows下安装配置pyspark notebook第一步:安装anacondaanaconda自带一系列科学计算包下载链接:http://pan.baidu.com/s/1b4jWlg 密码:fqq3接着配置环境变量:如我安装在D盘下   试一下命令行启动,确保ipython从anaconda启动 第二步:安装spark(需要提前安装

2017-05-30 13:45:32 2286

转载 spark dataFrame 新增一列函数withColumn

http://blog.csdn.net/sparkexpert/article/details/51023375往一个dataframe新增某个列是很常见的事情。然而这个资料还是不多,很多都需要很多变换。而且一些字段可能还不太好添加。不过由于这回需要增加的列非常简单,倒也没有必要再用UDF函数去修改列。利用withColumn函数就能实现对da

2017-05-30 11:34:02 63751 5

原创 spark concat_ws,collect_set

hive > select product_id, concat_ws('_',collect_set(promotion_id)) as promotion_ids from product_promotion group by product_id;OK5112 960024_960025_960026_960027_9600285113 960043_960044_960045_960

2017-05-30 11:19:04 7182

原创 spark DaraFrame 和hive互转

//在目前企业级大数据Spark开发的时候,绝大多数情况下是采用Hive作为数据仓库    //Spark提供了HIve的支持功能,Spark通过HiveContext可以直接操作Hive中的数据    //基于HiveContext我们可以使用sql/hql两种方式才编写SQL语句对Hive进行操作,    //包括创建表、删除表、往表里导入数据 以及用SQL语法构造 各

2017-05-30 10:06:58 741

原创 常用的python

from datetime import datetime as dat,timedelta#今天的日期print dat.today()#输出结果 2017-05-30 09:33:32.284000#今天的日期 格式yyyy-mm-ddprint dat.today().date()#输出结果 2017-05-30dt_today=dat.strftime(

2017-05-30 09:36:57 248

原创 Python time strptime()方法

Python time strptime()方法描述Python time strptime() 函数根据指定的格式把一个时间字符串解析为时间元组。语法strptime()方法语法:time.strptime(string[, format])参数string -- 时间字符串。format -- 格式化字符串。返回值

2017-05-29 10:47:08 5274

转载 Win7 Python2.7 安装教程

转载自:http://www.cnblogs.com/denny402/p/5121501.html一提到数字图像处理编程,可能大多数人就会想到matlab,但matlab也有自身的缺点:1、不开源,价格贵2、软件容量大。一般3G以上,高版本甚至达5G以上。3、只能做研究,不易转化成软件。因此,我们这里使用Python这个脚本语言来进行数字图像处

2017-05-29 10:14:34 2842

原创 Python sorted() 函数

http://www.runoob.com/python/python-func-sorted.htmlPython sorted() 函数 Python 内置函数描述sorted() 函数对所有可迭代的对象进行排序操作。sort 与 sorted 区别:sort 是应用在 list 上的方法,sorted 可以对所有可迭代的对象进行

2017-05-27 16:05:21 857

原创 Python Tuple(元组) tuple()方法

Python Tuple(元组) tuple()方法Python 元组描述Python 元组 tuple() 函数将列表转换为元组。语法tuple()方法语法:tuple( seq )参数seq -- 要转换为元组的序列。返回值返回元组。实例以下实例展示了 tuple()函数的使用方法:

2017-05-27 15:58:01 781

转载 Spark将RDD转换成DataFrame的两种方式

http://zhao-rock.iteye.com/blog/2328161介绍一下Spark将RDD转换成DataFrame的两种方式。 1.通过是使用case class的方式,不过在scala 2.10中最大支持22个字段的case class,这点需要注意 2.是通过spark内部的StructType方式,将普通的RDD转换成DataFrame 装换成DataFrame

2017-05-27 15:05:58 1861

原创 spark 上python启动脚本

#!/usr/bin/python# -*- coding: utf-8 -*-__author__ = 'hh'# import os# os.system("export PYSPARK_PYTHON=python2.7.5")from subprocess import callfile_path = "./ip_top10.py"

2017-05-27 14:14:17 455

原创 【python】subprocess模块中的Popen与call的区别

1.subprocess.call(*popenargs, **kwargs)  运行命令。该函数将一直等待到子进程运行结束,并返回进程的returncode。如果子进程不需要进行交互,就可以使用该函数来创建。2.subprocess.Popensubprocess模块中只定义了一个类: Popen。可以使用Popen来创建进程,并与进程进行复杂的交互。它的构造函数如下:s

2017-05-27 14:10:54 6444

原创 spark sql 模板 (python版)

#!/usr/bin/env python3# -*- coding: utf-8 -*-__author__ = 'hh'import sysimport osimport datetimeimport timefrom pyspark.sql import SparkSessionfrom pyspark.sql import Row

2017-05-27 14:02:03 1323

转载 spark sql基本使用方法介绍

转载:http://blog.csdn.net/lansetiankong12/article/details/51992463spark sql基本使用方法介绍Spark中可以通过spark sql 直接查询Hive或impala中的数据, 一、启动方法/data/spark-1.4.0-bin-cdh4/bin/spark-sql --master

2017-05-27 13:59:34 1047

原创 python 使用datetime模块timedelta实现日期时间相加

python使用datetime模块timedelta实现日期时间相加:python计算明天的日期:from datetime import datetimefrom datetime import timedeltanow = datetime.now()aDay = timedelta(days=1)now = now + aDayprint now.strftime(

2017-05-27 13:47:45 11159 1

原创 Python time strftime()方法

Python time strftime()方法描述Python time strftime() 函数接收以时间元组,并返回以可读字符串表示的当地时间,格式由参数format决定。语法strftime()方法语法:time.strftime(format[, t])参数format -- 格式字符串。t -- 可选的参数t是一个str

2017-05-27 13:41:16 527

概率论与数理统计(第四版)浙大 盛骤

机器学习所需-概率论与数理统计(第四版)浙大 盛骤

2017-08-27

数理统计学简史 陈希孺

机器学习所需-数理统计学简史 陈希孺

2017-08-27

求导与积分课件

机器学习所需-求导与积分课件

2017-08-27

机器学习数学基础(全集)

机器学习数学基础(全集),包括概率论与数理统计,数学统计简史,高数、矩阵等

2017-08-27

Spark源码解读迷你书

Spark源码解读迷你书

2017-05-29

Hadoop源代码分析(完整版)

Hadoop源代码分析(完整版)

2017-05-27

MapReduce与Spark异同点和优势比较

MapReduce与Spark异同点和优势比较

2017-05-27

AVA API官方文档中文版

JAVA API官方文档中文版

2017-05-27

jQuery_API(速查表)

jQuery_API(速查表)

2017-05-27

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除