Spark MLlib和Spsrk GraphX

最新推荐文章于 2023-12-31 01:32:18 发布

hsiehchou

最新推荐文章于 2023-12-31 01:32:18 发布

阅读量579

点赞数 1

分类专栏：大数据 Spark 文章标签： Spark MLlib Spsrk GraphX

本文链接：https://blog.csdn.net/xzddfgj/article/details/89409631

版权

大数据同时被 2 个专栏收录

37 篇文章 0 订阅

订阅专栏

Spark

5 篇文章 0 订阅

订阅专栏

- Spark MLlib
  - 一、MLlib概述
    - 1、机器学习算法
    - 2、通信
  - 二、什么是机器学习
- Spark Graphx
  - 一、Spark Graphx 是什么？
  - 二、Spark GraphX 有哪些抽象？

Spark MLlib

MLlib 是 Spark 可以扩展的机器学习库

MLlib is Apache Spark’s scalable machine learning library.

一、MLlib概述

MLlib 是 Spark 可以扩展的机器学习库

Spark在机器学习方面具有得天独厚的有事，有以下几个原因：

1、机器学习算法

一般都有多个步骤迭代计算，需要在多次迭代后，获得足够小的误差或者收敛才会停止


 
 
  
  double wucha = 
  
  1.0

 
 
 
 
  
  while(wucha>=0.00001){

 
 
 
 
  
      建模  wucha -= 某个值

 
 
 
 
  
  }

模型计算完毕

当迭代使用Hadoop的MapReduce计算框架时，每次都要读写硬盘以及任务启动工作，导致很大的IO开销

而Spark基于内存的计算模型天生擅长迭代计算。只有在必要时，才会读写硬盘

所以Spark是机器学习比较理想的平台

2、通信

Hadoop的MapReduce计算框架，通过heartbeat方式来进行通信和传递数据，执行速度慢

spark 有高效的 Akka 和 Netty 的通信系统，通行效率高

Spark MLlib 是Spark 对常用的机器学习算法的实现库，同时包括相关测试和数据生成器

二、什么是机器学习

1、机器学习的定义

A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P,
if its performance at tasks in T, as measured by P, improves with experience E

三个关键词：算法、经验、模型评价

在数据的基础上，通过算法构建出模型，并进行评价
如果达到要求，则用该模型测试其他数据
如果不达到要求，要调整算法来重新建立模型，再次进行评估
循环往复，知道获得满意的经验

应用：金融反欺诈、语音识别、自然语言处理、翻译、模式识别、智能控制等等

2、基于大数据的机器学习

传统的机器学习算法，由于技术和单机存储的现值，只能在少量数据上使用
即，依赖于数据抽样
问题：很难做好随机，导致学习的模型不准确

在大数据上进行机器学习，直接处理全量数据并进行大量迭代计算

Spark本身计算优势，适合机器学习

另外 spark-shell pyspark 都可以提供及时查询工具

3、MLlib

MLlib是Spark机器学习库，简化机器学习的工程实践工作，方便扩展到更大规模
集成了通用的学习算法：分类、回归、聚类、协同过滤、降维等等

另外，MLlib本身在Spark中，数据清洗、SQL、建模放在一起

sample_linear_regression_data.txt
1 1:1.9
2 1:3.1
3 1:4
3.5 1:4.45
4 1:5.02
9 1:9.97
-2 1:-0.98


 
 
  
  package day7

 
 
 
 
  
  

 
 
 
 
  
  import org.apache.spark.sql.
  
  SparkSession

 
 
 
 
  
  import org.apache.spark.ml.regression.
  
  LinearRegression

 
 
 
 
  
  

 
 
 
 
  
  /*

 
 
 
 
  
   * 1.3850645873427236 1:0.14476184437006356 2:-0.11280617018445871 3:-0.4385084538142101 4:-0.5961619435136434 5:0.419554626795412 6:-0.5047767472761191 7:0.457180284958592 8:-0.9129360314541999 9:-0.6320022059786656 10:-0.44989608519659363

 
 
 
 
  
   * 

 
 
 
 
  
   */

 
 
 
 
  
  object Demo1 {

 
 
 
   
  
  def main(args: 
  
  Array[
  
  String]): 
  
  Unit = {

 
 
 
     
  
  val spark = 
  
  SparkSession.builder().appName(
  
  "Demo1").master(
  
  "local").getOrCreate()

 
 
 
 
  
  

 
 
 
     
  
  val data_path = 
  
  "H:\\sample_linear_regression_data.txt"

 
 
 
 
  
  

 
 
 
     
  
  //读取训练数据

 
 
 
     
  
  val trainning = spark.read.format(
  
  "libsvm").load(data_path)

 
 
 
 
  
  

 
 
 
     
  
  //定义模型

 
 
 
     
  
  val lr = 
  
  new 
  
  LinearRegression().setMaxIter(
  
  10000)

 
 
 
 
  
  

 
 
 
     
  
  //训练模型

 
 
 
     
  
  val lrModel = lr.fit(trainning)

 
 
 
 
  
  

 
 
 
     
  
  //获取模型训练结果

 
 
 
     
  
  val trainningSummary = lrModel.summary

 
 
 
 
  
  

 
 
 
     
  
  //获取预测值

 
 
 
 
  
      trainningSummary.predictions.show()

 
 
 
 
  
  

 
 
 
     
  
  //获取误差

 
 
 
 
  
      print(trainningSummary.rootMeanSquaredError)

 
 
 
 
  
  

 
 
 
 
  
      spark.stop()

 
 
 
 
  
    }

 
 
 
 
  
  }

Spark Graphx

一、Spark Graphx 是什么？

1、是Spark 的一个模块，主要用于进行以图为核心的计算，还有分布式图计算

2、Graphx 底层基于RDD计算，和RDD共用一种存储形态。在展示形态上，可以用数据集来表示，也可以用图来表示

二、Spark GraphX 有哪些抽象？

1、顶点

RDD[(VertexId,VD)]表示
VertexId 代表了顶点的ID，是Long类型
VD 是顶点的属性，可以是任何类型

2、边

RDD[Edge[ED]]表示
Edge表示一个边
包含一个ED类型参数来设定属性
另外，边还包含了源顶点ID和目标顶点ID

3、三元组

三元组结构用RDD[EdgeTriplet[VD,ED]]表示
三元组包含一个边、边的属性、源顶点ID、源顶点属性、目标顶点ID、目标顶点属性

4、图

Graph表示，通过顶点和边来构建


 
 
  
  package day7

 
 
 
 
  
  

 
 
 
 
  
  import org.apache.spark.
  
  SparkConf

 
 
 
 
  
  import org.apache.spark.
  
  SparkContext

 
 
 
 
  
  import org.apache.spark.graphx.
  
  Edge

 
 
 
 
  
  import org.apache.spark.graphx.
  
  Graph

 
 
 
 
  
  

 
 
 
 
  
  object Demo2 {

 
 
 
   
  
  def main(args: 
  
  Array[
  
  String]): 
  
  Unit = {

 
 
 
     
  
  val conf = 
  
  new 
  
  SparkConf().setAppName(
  
  "Demo2").setMaster(
  
  "local")

 
 
 
 
  
  

 
 
 
     
  
  //创建Spark Context对象

 
 
 
     
  
  val sc = 
  
  new 
  
  SparkContext(conf)

 
 
 
 
  
  

 
 
 
     
  
  //定义点

 
 
 
     
  
  val users = sc.parallelize(
  
  Array((
  
  3L,(
  
  "TIme",
  
  "student")),(
  
  5L,(
  
  "Andy",
  
  "student")),

 
 
 
 
  
          (
  
  7L,(
  
  "Mary",
  
  "student")),(
  
  2L,(
  
  "Lily",
  
  "post"))))

 
 
 
 
  
  

 
 
 
     
  
  //定义边

 
 
 
     
  
  val relationship = sc.parallelize(
  
  Array(
  
  Edge(
  
  3L,
  
  7L,
  
  "col"),
  
  Edge(
  
  5L,
  
  3L,
  
  "ad"),
  
  Edge(
  
  2L,
  
  5L,
  
  "col"),
  
  Edge(
  
  5L,
  
  7L,
  
  "heh"))) 

 
 
 
 
  
  

 
 
 
     
  
  //构建图

 
 
 
     
  
  val graph = 
  
  Graph(users, relationship)

 
 
 
 
  
  

 
 
 
     
  
  //图的操作

 
 
 
     
  
  val post_count = graph.vertices.filter{ 
  
  case (id,(name,pos)) => pos==
  
  "post"}.count

 
 
 
 
  
  

 
 
 
 
  
      println(
  
  "post count is " + post_count)

 
 
 
 
  
  

 
 
 
     
  
  val edges_count = graph.edges.filter(e => e.srcId > e.dstId).count()

 
 
 
 
  
  

 
 
 
 
  
      println(
  
  "the value is " + edges_count)

 
 
 
 
  
    }

 
 
 
 
  
  }