spark
文章平均质量分 95
yhao浩
关注机器学习,关注NLP
展开
-
spark简介
本文将围绕以下几个问题展开讨论:1. 什么是spark2. spark有什么特点3. spark框架结构及工作流程一、什么是spark Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于map reduce算法实现的分布式计算,拥有Hadoop Map原创 2014-10-13 15:38:34 · 1366 阅读 · 0 评论 -
[Spark2.0]ML 调优:模型选择和超参数调优
本节讲述如何使用MLlib提供的工具来对ML算法和Pipline进行调优。内建的交叉验证和其他工具允许用户在算法和Pipline中优化超参数。 模型选择(又名超参数调优) 在ML中一个重要的任务就是模型选择,或者使用给定的数据为给定的任务寻找最适合的模型或参数。这也叫做调优。调优可以是对单个的Estimator,比如LogisticRegression,或翻译 2016-08-20 01:13:08 · 7161 阅读 · 0 评论 -
[Spark2.0]Spark SQL, DataFrames 和Datasets指南
综述 Spark SQL是Spark提供的针对结构化数据处理的模块。不同于基本的Spark RDD API,SparkSQL提供的接口提供了更多的关于数据和计算执行的信息。在内部,SparkSQL使用这些额外信息完成额外的优化。这里有几种方式可以和SparkSQL相互操作,包括SQL和Dataset API。计算结果的时候使用相同的执行 本页中所有示例使翻译 2016-08-16 00:00:28 · 7448 阅读 · 0 评论 -
[Spark2.0]ML piplines管道模式
在本部分,我们将介绍ML Pipline的概念。ML Pipline提供了一整套建立在DataFrame上的高级API,它能帮助用户创建和调优实际机器学习管道。Pipline的主要思想 Mllib标准化了机器学习算法的API,使得将多个算法融合到一个简单的管道或工作流更为简单。本部分将覆盖Pipline API的关键思想,这里的pipline概念是受scikit翻译 2016-08-17 23:26:57 · 3957 阅读 · 0 评论 -
java和scala分别实现WordCount
WordCount作为大数据领域的经典范例,如同HelloWorld在程序设计中的地位一样,是一个入门程序。在此使用并行化处理介绍WordCount程序过程。原创 2015-03-17 09:48:15 · 2844 阅读 · 0 评论 -
java和scala分别实现TopK
本文是对spark经典例子topK的实现原创 2015-04-01 10:48:17 · 3021 阅读 · 0 评论 -
基于spark mllib的LDA模型训练源码解析
一直想写一篇关于LDA模型训练的源代码走读,但是因为个人水平以及时间原因未能如愿,今天想起来就记录了一下源码走读过程。有什么解释的不太清楚或者错误的地方请大家指正。LDA模型训练大致经过以下这些步骤:输入数据(已转换为Vector)和参数设置根据LDA选择的算法初始化优化器迭代优化器获得LDA模型下面对每一步的源码进行代码跟进。完整的项目可以到我的github下载原创 2016-04-13 17:14:16 · 8065 阅读 · 5 评论 -
spark1.6.0集群安装
1. 概述本文是对spark1.6.0分布式集群的安装的一个详细说明,旨在帮助相关人员按照本说明能够快速搭建并使用spark集群。 2. 安装环境本安装说明的示例环境部署如下:IP外网IPhostname备注10.47.110.38120.27.153.137iZ237654q6qZMaster、Slaver原创 2016-03-31 18:34:08 · 2570 阅读 · 0 评论 -
Windows下使用sbt打造Intellij Idea环境下Spark源码阅读环境
Spark源码阅读环境的准备Spark源码是有Scala语言写成的,目前,IDEA对Scala的支持要比eclipse要好,大多数人会选在在IDEA上完成Spark平台应用的开发。因此,Spark源码阅读的IDE理所当然的选择了IDEA。本文介绍的是Windows下的各项配置方法(默认已经装了java,JDK)。原创 2015-03-09 11:27:29 · 2940 阅读 · 0 评论 -
Spark1.3.0新特性概览
自2013年3月面世以来,Spark SQL已经成为除Spark Core以外最大的Spark组件。除了接过Shark的接力棒,继续为Spark用户提供高性能的SQL on Hadoop解决方案之外,它还为Spark带来了通用、高效、多元一体的结构化数据处理能力。在刚刚发布的1.3.0版中,Spark SQL的两大升级被诠释得淋漓尽致。DataFrame就易用性而言,对比传转载 2015-04-10 14:23:15 · 1585 阅读 · 0 评论 -
Intellij idea使用java编写并执行spark程序
初学使用Intellij idea编写spark程序。由于公司要求用java编写,但网上基本又是用scala来写spark程序(虽然确实用scala来写比java好很多),摸索之后决定把整个流程记录下来.原创 2015-03-13 11:30:22 · 8991 阅读 · 0 评论 -
基于LR的新闻多分类(基于spark2.1.0, 附完整代码)
自从引进DataFrame之后,spark在ml方面,开始使用DataFrame作为RDD的上层封装,以屏蔽RDD层次的复杂操作,对应用开发者提供简单的DataFrame,以减少开发量。本文以最新的spark2.1.0版本为基础,构建从数据预处理、特征转换、模型训练、数据测试到模型评估的一整套处理流程。原创 2017-03-04 13:47:29 · 14016 阅读 · 9 评论