Spark学习四:网站日志分析案例

Spark学习四:网站日志分析案例

标签(空格分隔): Spark


一,创建maven工程

1,执行maven命令创建工程

mvn archetype:generate -DarchetypeGroupId=org.scala-tools.archetypes -DarchetypeArtifactId=scala-archetype-simple -DremoteRepositories=http://scala-tools.org/repo-releases -DgroupId=com.ibeifeng.bigdata.spark.app -DartifactId=analyzer-logs -Dversion=1.0

2,idea导入maven工程
001.PNG-23.3kB

002.PNG-27.5kB

003.PNG-21.4kB

004.PNG-42.7kB

二,创建模板

001.PNG-82.9kB

#if ((${PACKAGE_NAME} && ${PACKAGE_NAME} != ""))package ${PACKAGE_NAME} #end
import org.apache.spark.SparkContext
import org.apache.spark.SparkConf
#parse("File Header.java")
object ${NAME} {
  def main(args:Array[String]){
    // create SparkConf
    val sparkConf=new SparkConf().setAppName("Test").setMaster("local[2]")
    //create sc
    val sc=new SparkContext(sparkConf)

    sc.stop()

  }
}

三,日志分析案例

1,准备数据
2,完成代码
001.PNG-15.9kB

ApacheAccessLog.scala

package com.ibeifeng.bigdata.spark.app

/**
 * Created by hadoop001 on 4/27/16.
 */
case class ApacheAccessLog(
    ipAddress: String ,
    clientIdentd: String ,
    userId: String ,
    dataTime: String ,
    method: String ,
    endPoint: String ,
    protocol: String ,
    responseCode: Int ,
    contentSize: Long
    ) {

}

object ApacheAccessLog{
  // regex
  // 64.242.88.10 - - [   07/Mar/2004:16:05:49 -0800       ]
  // "GET /twiki/bin/edit/Main/Double_bounce_sender?topicparent=Main.ConfigurationVariables HTTP/1.1"
  // 401 12846
  val PARTTERN = """^(\S+) (\S+) (\S+) \[([\w:/]+\s[+|-]\d{4})\] "(\S+) (\S+) (\S+)" (\d{3}) (\d+)""".r
  def isValidatelogLine(log:String):Boolean={
    val res=PARTTERN.findFirstMatchIn(log)
    if(res.isEmpty){
      false
    }else{
      true
    }

  }
  def parseLogLine(log:String):ApacheAccessLog={
    val res=PARTTERN.findFirstMatchIn(log)
    if(res.isEmpty){
      throw new RuntimeException("Cannot parse log line: " + log)
    }
    val m=res.get

    ApacheAccessLog(
      m.group(1) ,
      m.group(2) ,
      m.group(3) ,
      m.group(4) ,
      m.group(5) ,
      m.group(6) ,
      m.group(7) ,
      m.group(8).toInt ,
      m.group(9).toLong
    )
  }
}

OrderingUtils.scala

package com.ibeifeng.bigdata.spark.app

/**
 * Created by hadoop001 on 4/28/16.
 */
object OrderingUtils {
  object SecondValueOrdering extends Ordering[(String, Int)]{
    /** Returns an integer whose sign communicates how x compares to y.
      *
      * The result sign has the following meaning:
      *
      *  - negative if x < y
      *  - positive if x > y
      *  - zero otherwise (if x == y)
      */
    def compare(x: (String, Int), y: (String, Int)): Int ={
      x._2.compare(y._2)
    }
  }
}

3,maven进行打包

mvn clean package

002.PNG-9.8kB

4,提交应用

//本地模式
bin/spark-submit --class com.ibeifeng.bigdata.spark.app.LogAnalyzer analyzer-logs-1.0.jar

001.PNG-22.8kB

//集群模式 需要启动master和worknode
bin/spark-submit \
--class com.ibeifeng.bigdata.spark.app.LogAnalyzer \
--deploy-mode cluster \
analyzer-logs-1.0.jar \
spark://spark.com.cn:7077

002.PNG-25.3kB

四,spark launch on yarn
003.PNG-323.2kB
1) 编译Spark时,指定选择-Pyarn
2) 在提交应用时,指定HADOOP_CONF,读取配置信息
–master yarn

第一种运行模式:yarn-client

/opt/modules/spark-1.3.0-bin-2.5.0/bin/spark-submit \
--class com.ibeifeng.bigdata.spark.app.LogAnalyzer \
analyzer-logs-1.0.jar \
yarn-client

第二种运行模式:yarn-cluster
004.PNG-32.7kB

005.PNG-342.6kB

/opt/modules/spark-1.3.0-bin-2.5.0/bin/spark-submit \
--master yarn-cluster \
--class com.ibeifeng.bigdata.spark.app.LogAnalyzer \
analyzer-logs-1.0.jar
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

forrestxingyunfei

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值