2017年05月_zhuiqiuuuu

12月 11月 10月 09月 08月 07月 06月 05月

原创 pyspark lit 常量

import org.apache.spark.sql.functions._val longLength = udf((bookTitle: String, length: Int) => bookTitle.length > length)import sqlContext.implicits._val booksWithLongTitle = dataFrame.filter(lo

2017-05-31 18:10:08 8346

原创常用api网址

python api,前端api:http://www.runoob.com/sitemappyspark api:http://spark.apache.org/docs/latest/api/python/

2017-05-31 18:01:32 986

原创 python pass 空语句 do nothing

关于pass，百度查到的常用的解释如下：1、空语句 do nothing2、保证格式完整 3、保证语义完整以if语句为例，在c或c++/java中：?123456if(true);//do nothingelse{//do somet

2017-05-31 17:46:28 2691

转载 spark dataframe操作集锦（提取前几行，合并，入库等）

转载：http://blog.csdn.net/sparkexpert/article/details/51042970Spark dataframe派生于RDD类，但是提供了非常强大的数据操作功能。当然主要对类SQL的支持。在实际工作中会遇到这样的情况，主要是会进行两个数据集的筛选、合并，重新入库。首先加载数据集，然后在提取数据集的前几行过程中

2017-05-31 16:17:36 3056

原创 sparksql的agg函数，作用：在整体DataFrame不分组聚合

1、 agg(expers:column*) 返回dataframe类型，同数学计算求值df.agg(max("age"), avg("salary"))df.groupBy().agg(max("age"), avg("salary"))2、 agg(exprs: Map[String, String]) 返回dataframe类型，同数学计算求值 map类型的df.a

2017-05-31 16:13:23 43103 1

原创如何在windows下安装配置pyspark notebook

如何在windows下安装配置pyspark notebook第一步：安装anacondaanaconda自带一系列科学计算包下载链接：http://pan.baidu.com/s/1b4jWlg 密码：fqq3接着配置环境变量：如我安装在D盘下试一下命令行启动，确保ipython从anaconda启动第二步：安装spark（需要提前安装

2017-05-30 13:45:32 2286

转载 spark dataFrame 新增一列函数withColumn

http://blog.csdn.net/sparkexpert/article/details/51023375往一个dataframe新增某个列是很常见的事情。然而这个资料还是不多，很多都需要很多变换。而且一些字段可能还不太好添加。不过由于这回需要增加的列非常简单，倒也没有必要再用UDF函数去修改列。利用withColumn函数就能实现对da

2017-05-30 11:34:02 63751 5

原创 spark concat_ws,collect_set

hive > select product_id, concat_ws('_',collect_set(promotion_id)) as promotion_ids from product_promotion group by product_id;OK5112 960024_960025_960026_960027_9600285113 960043_960044_960045_960

2017-05-30 11:19:04 7182

原创 spark DaraFrame 和hive互转

//在目前企业级大数据Spark开发的时候，绝大多数情况下是采用Hive作为数据仓库 //Spark提供了HIve的支持功能，Spark通过HiveContext可以直接操作Hive中的数据 //基于HiveContext我们可以使用sql/hql两种方式才编写SQL语句对Hive进行操作， //包括创建表、删除表、往表里导入数据以及用SQL语法构造各

2017-05-30 10:06:58 741

原创常用的python

from datetime import datetime as dat,timedelta#今天的日期print dat.today()#输出结果 2017-05-30 09:33:32.284000#今天的日期格式yyyy-mm-ddprint dat.today().date()#输出结果 2017-05-30dt_today=dat.strftime(

2017-05-30 09:36:57 248

原创 Python time strptime()方法

Python time strptime()方法描述Python time strptime() 函数根据指定的格式把一个时间字符串解析为时间元组。语法strptime()方法语法：time.strptime(string[, format])参数string -- 时间字符串。format -- 格式化字符串。返回值

2017-05-29 10:47:08 5274

转载 Win7 Python2.7 安装教程

转载自：http://www.cnblogs.com/denny402/p/5121501.html一提到数字图像处理编程，可能大多数人就会想到matlab，但matlab也有自身的缺点：1、不开源，价格贵2、软件容量大。一般3G以上，高版本甚至达5G以上。3、只能做研究，不易转化成软件。因此，我们这里使用Python这个脚本语言来进行数字图像处

2017-05-29 10:14:34 2842

原创 Python sorted() 函数

http://www.runoob.com/python/python-func-sorted.htmlPython sorted() 函数 Python 内置函数描述sorted() 函数对所有可迭代的对象进行排序操作。sort 与 sorted 区别：sort 是应用在 list 上的方法，sorted 可以对所有可迭代的对象进行

2017-05-27 16:05:21 857

原创 Python Tuple(元组) tuple()方法

Python Tuple(元组) tuple()方法Python 元组描述Python 元组 tuple() 函数将列表转换为元组。语法tuple()方法语法：tuple( seq )参数seq -- 要转换为元组的序列。返回值返回元组。实例以下实例展示了 tuple()函数的使用方法：

2017-05-27 15:58:01 781

转载 Spark将RDD转换成DataFrame的两种方式

http://zhao-rock.iteye.com/blog/2328161介绍一下Spark将RDD转换成DataFrame的两种方式。 1.通过是使用case class的方式，不过在scala 2.10中最大支持22个字段的case class,这点需要注意 2.是通过spark内部的StructType方式，将普通的RDD转换成DataFrame 装换成DataFrame

2017-05-27 15:05:58 1861

原创 spark 上python启动脚本

#!/usr/bin/python# -*- coding: utf-8 -*-__author__ = 'hh'# import os# os.system("export PYSPARK_PYTHON=python2.7.5")from subprocess import callfile_path = "./ip_top10.py"

2017-05-27 14:14:17 455

原创【python】subprocess模块中的Popen与call的区别

1.subprocess.call(*popenargs, **kwargs)　　运行命令。该函数将一直等待到子进程运行结束，并返回进程的returncode。如果子进程不需要进行交互,就可以使用该函数来创建。2.subprocess.Popensubprocess模块中只定义了一个类: Popen。可以使用Popen来创建进程，并与进程进行复杂的交互。它的构造函数如下：s

2017-05-27 14:10:54 6444

原创 spark sql 模板（python版）

#!/usr/bin/env python3# -*- coding: utf-8 -*-__author__ = 'hh'import sysimport osimport datetimeimport timefrom pyspark.sql import SparkSessionfrom pyspark.sql import Row

2017-05-27 14:02:03 1323

转载 spark sql基本使用方法介绍

转载：http://blog.csdn.net/lansetiankong12/article/details/51992463spark sql基本使用方法介绍Spark中可以通过spark sql 直接查询Hive或impala中的数据，一、启动方法/data/spark-1.4.0-bin-cdh4/bin/spark-sql --master

2017-05-27 13:59:34 1047

原创 python 使用datetime模块timedelta实现日期时间相加

python使用datetime模块timedelta实现日期时间相加：python计算明天的日期：from datetime import datetimefrom datetime import timedeltanow = datetime.now()aDay = timedelta(days=1)now = now + aDayprint now.strftime(

2017-05-27 13:47:45 11159 1

原创 Python time strftime()方法

Python time strftime()方法描述Python time strftime() 函数接收以时间元组，并返回以可读字符串表示的当地时间，格式由参数format决定。语法strftime()方法语法：time.strftime(format[, t])参数format -- 格式字符串。t -- 可选的参数t是一个str

2017-05-27 13:41:16 527