- 博客(21)
- 资源 (9)
- 收藏
- 关注
原创 pyspark lit 常量
import org.apache.spark.sql.functions._val longLength = udf((bookTitle: String, length: Int) => bookTitle.length > length)import sqlContext.implicits._val booksWithLongTitle = dataFrame.filter(lo
2017-05-31 18:10:08 8346
原创 常用api网址
python api,前端api:http://www.runoob.com/sitemappyspark api:http://spark.apache.org/docs/latest/api/python/
2017-05-31 18:01:32 986
原创 python pass 空语句 do nothing
关于pass,百度查到的常用的解释如下:1、空语句 do nothing2、保证格式完整 3、保证语义完整 以if语句为例,在c或c++/java中:?123456if(true);//do nothingelse{//do somet
2017-05-31 17:46:28 2691
转载 spark dataframe操作集锦(提取前几行,合并,入库等)
转载:http://blog.csdn.net/sparkexpert/article/details/51042970Spark dataframe派生于RDD类,但是提供了非常强大的数据操作功能。当然主要对类SQL的支持。在实际工作中会遇到这样的情况,主要是会进行两个数据集的筛选、合并,重新入库。首先加载数据集,然后在提取数据集的前几行过程中
2017-05-31 16:17:36 3056
原创 sparksql的agg函数,作用:在整体DataFrame不分组聚合
1、 agg(expers:column*) 返回dataframe类型 ,同数学计算求值df.agg(max("age"), avg("salary"))df.groupBy().agg(max("age"), avg("salary"))2、 agg(exprs: Map[String, String]) 返回dataframe类型 ,同数学计算求值 map类型的df.a
2017-05-31 16:13:23 43103 1
原创 如何在windows下安装配置pyspark notebook
如何在windows下安装配置pyspark notebook第一步:安装anacondaanaconda自带一系列科学计算包下载链接:http://pan.baidu.com/s/1b4jWlg 密码:fqq3接着配置环境变量:如我安装在D盘下 试一下命令行启动,确保ipython从anaconda启动 第二步:安装spark(需要提前安装
2017-05-30 13:45:32 2286
转载 spark dataFrame 新增一列函数withColumn
http://blog.csdn.net/sparkexpert/article/details/51023375往一个dataframe新增某个列是很常见的事情。然而这个资料还是不多,很多都需要很多变换。而且一些字段可能还不太好添加。不过由于这回需要增加的列非常简单,倒也没有必要再用UDF函数去修改列。利用withColumn函数就能实现对da
2017-05-30 11:34:02 63751 5
原创 spark concat_ws,collect_set
hive > select product_id, concat_ws('_',collect_set(promotion_id)) as promotion_ids from product_promotion group by product_id;OK5112 960024_960025_960026_960027_9600285113 960043_960044_960045_960
2017-05-30 11:19:04 7182
原创 spark DaraFrame 和hive互转
//在目前企业级大数据Spark开发的时候,绝大多数情况下是采用Hive作为数据仓库 //Spark提供了HIve的支持功能,Spark通过HiveContext可以直接操作Hive中的数据 //基于HiveContext我们可以使用sql/hql两种方式才编写SQL语句对Hive进行操作, //包括创建表、删除表、往表里导入数据 以及用SQL语法构造 各
2017-05-30 10:06:58 741
原创 常用的python
from datetime import datetime as dat,timedelta#今天的日期print dat.today()#输出结果 2017-05-30 09:33:32.284000#今天的日期 格式yyyy-mm-ddprint dat.today().date()#输出结果 2017-05-30dt_today=dat.strftime(
2017-05-30 09:36:57 248
原创 Python time strptime()方法
Python time strptime()方法描述Python time strptime() 函数根据指定的格式把一个时间字符串解析为时间元组。语法strptime()方法语法:time.strptime(string[, format])参数string -- 时间字符串。format -- 格式化字符串。返回值
2017-05-29 10:47:08 5274
转载 Win7 Python2.7 安装教程
转载自:http://www.cnblogs.com/denny402/p/5121501.html一提到数字图像处理编程,可能大多数人就会想到matlab,但matlab也有自身的缺点:1、不开源,价格贵2、软件容量大。一般3G以上,高版本甚至达5G以上。3、只能做研究,不易转化成软件。因此,我们这里使用Python这个脚本语言来进行数字图像处
2017-05-29 10:14:34 2842
原创 Python sorted() 函数
http://www.runoob.com/python/python-func-sorted.htmlPython sorted() 函数 Python 内置函数描述sorted() 函数对所有可迭代的对象进行排序操作。sort 与 sorted 区别:sort 是应用在 list 上的方法,sorted 可以对所有可迭代的对象进行
2017-05-27 16:05:21 857
原创 Python Tuple(元组) tuple()方法
Python Tuple(元组) tuple()方法Python 元组描述Python 元组 tuple() 函数将列表转换为元组。语法tuple()方法语法:tuple( seq )参数seq -- 要转换为元组的序列。返回值返回元组。实例以下实例展示了 tuple()函数的使用方法:
2017-05-27 15:58:01 781
转载 Spark将RDD转换成DataFrame的两种方式
http://zhao-rock.iteye.com/blog/2328161介绍一下Spark将RDD转换成DataFrame的两种方式。 1.通过是使用case class的方式,不过在scala 2.10中最大支持22个字段的case class,这点需要注意 2.是通过spark内部的StructType方式,将普通的RDD转换成DataFrame 装换成DataFrame
2017-05-27 15:05:58 1861
原创 spark 上python启动脚本
#!/usr/bin/python# -*- coding: utf-8 -*-__author__ = 'hh'# import os# os.system("export PYSPARK_PYTHON=python2.7.5")from subprocess import callfile_path = "./ip_top10.py"
2017-05-27 14:14:17 455
原创 【python】subprocess模块中的Popen与call的区别
1.subprocess.call(*popenargs, **kwargs) 运行命令。该函数将一直等待到子进程运行结束,并返回进程的returncode。如果子进程不需要进行交互,就可以使用该函数来创建。2.subprocess.Popensubprocess模块中只定义了一个类: Popen。可以使用Popen来创建进程,并与进程进行复杂的交互。它的构造函数如下:s
2017-05-27 14:10:54 6444
原创 spark sql 模板 (python版)
#!/usr/bin/env python3# -*- coding: utf-8 -*-__author__ = 'hh'import sysimport osimport datetimeimport timefrom pyspark.sql import SparkSessionfrom pyspark.sql import Row
2017-05-27 14:02:03 1323
转载 spark sql基本使用方法介绍
转载:http://blog.csdn.net/lansetiankong12/article/details/51992463spark sql基本使用方法介绍Spark中可以通过spark sql 直接查询Hive或impala中的数据, 一、启动方法/data/spark-1.4.0-bin-cdh4/bin/spark-sql --master
2017-05-27 13:59:34 1047
原创 python 使用datetime模块timedelta实现日期时间相加
python使用datetime模块timedelta实现日期时间相加:python计算明天的日期:from datetime import datetimefrom datetime import timedeltanow = datetime.now()aDay = timedelta(days=1)now = now + aDayprint now.strftime(
2017-05-27 13:47:45 11159 1
原创 Python time strftime()方法
Python time strftime()方法描述Python time strftime() 函数接收以时间元组,并返回以可读字符串表示的当地时间,格式由参数format决定。语法strftime()方法语法:time.strftime(format[, t])参数format -- 格式字符串。t -- 可选的参数t是一个str
2017-05-27 13:41:16 527
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人