- 博客(3)
- 资源 (9)
- 问答 (1)
- 收藏
- 关注
翻译 [Spark2.0]ML 调优:模型选择和超参数调优
本节讲述如何使用MLlib提供的工具来对ML算法和Pipline进行调优。内建的交叉验证和其他工具允许用户在算法和Pipline中优化超参数。 模型选择(又名 超参数调优) 在ML中一个重要的任务就是模型选择,或者使用给定的数据为给定的任务寻找最适合的模型或参数。这也叫做 调优。调优可以是对单个的Estimator,比如LogisticRegression,或
2016-08-20 01:13:08 7147
翻译 [Spark2.0]ML piplines管道模式
在本部分,我们将介绍ML Pipline的概念。ML Pipline提供了一整套建立在DataFrame上的高级API,它能帮助用户创建和调优实际机器学习管道。 Pipline的主要思想 Mllib标准化了机器学习算法的API,使得将多个算法融合到一个简单的管道或工作流更为简单。本部分将覆盖Pipline API的关键思想,这里的pipline概念是受scikit
2016-08-17 23:26:57 3945
翻译 [Spark2.0]Spark SQL, DataFrames 和Datasets指南
综述 Spark SQL是Spark提供的针对结构化数据处理的模块。不同于基本的Spark RDD API,SparkSQL提供的接口提供了更多的关于数据和计算执行的信息。在内部,SparkSQL使用这些额外信息完成额外的优化。这里有几种方式可以和SparkSQL相互操作,包括SQL和Dataset API。计算结果的时候使用相同的执行 本页中所有示例使
2016-08-16 00:00:28 7435
从logstash向elasticsearch导入数据出错
2015-06-19
TA创建的收藏夹 TA关注的收藏夹
TA关注的人