spark
简单点1024
熟悉ML,DM过程,参与ETL架构搭建,进行BI分析,热爱新技术
展开
-
pyspark-wordcount
#===test-data.txt a b c aaa bbb ccc a b c c b a===#!/usr/bin/env python#-*-conding:utf-8-*-import loggingfrom operator import addfrom pyspark import SparkContextlogging.basicConfig(format='%转载 2017-08-28 15:59:18 · 1550 阅读 · 0 评论 -
spark-broadcast&accumulator使用
累加器Accumulator是spark提供的累加器,顾名思义,该变量只能够增加。只有driver能获取到Accumulator的值(使用value方法),Task只能对其做增加操作(使用 +=)。你也可以在为Accumulator命名(不支持Python),这样就会在spark web ui中显示,可以帮助你了解程序运行的情况。使用Accumulator时,为了保证准确性,只使用一次acti原创 2017-08-31 08:54:50 · 374 阅读 · 0 评论 -
sparkSQL官网简单解析
###sparksql1. sql:访问方式:python;command-line;JDBC/ODBC;2. Datasets and DataFrames:datasets只支持java,scala(2.2.0);Dataframe:structured data files, tables in Hive, external databases, or existing RDDs.原创 2017-08-31 10:40:59 · 1914 阅读 · 0 评论 -
Spark机器学习之模型选择和超参数调整
模型选择(超参数调谐)ML中的一个重要任务是模型选择,或使用数据找到给定任务的最佳模型或参数。 这也叫调音。 可以针对个体估算器(如Logistic回归)或包括多个算法,特征化和其他步骤的整个管道完成调整。 用户可以一次调整整个流水线,而不是单独调整管道中的每个元素。MLlib支持使用CrossValidator和TrainValidationSplit等工具进行模型选择。 这些工具需要以转载 2017-08-31 17:06:42 · 1061 阅读 · 0 评论