朴素贝叶斯算法原理及Scala实现

朴素贝叶斯分类器基于一个简单的假定:给定目标值时属性之间相互条件独立。
P( Category | Document) = P ( Document | Category ) * P( Category) / P(Document)
更多学习其理论可以参看:http://wenku.baidu.com/link?url=Hu9YryuNlmH-bZcU_dcKYDOsOKU8Wm3ysTVsTI76ZZLynjUWnVmL_XuJdvRkiM7DH3e5Ec8h9gpCUy-d7576NI3TuaAOtZ58DGlTvzwXk27
代码编写思想:
两层循环一层循环实列,第二层循环每一个实列的属性对其进行操作。
具体案列:
一个人买电脑的预测,假定影响一个买电脑的影响因素有两个他的身份,还有收入。
样本数据:
by:买电脑,bn:不买,sty:表示学生,stn:非学生,inh:收入高
inl:收入低
1,by sty inh
2,by sty inh
3,bn sty inl
4,by stn inh
5,bn stn inh
6,by stn inh
7,bn stn inl
8,bn stn inl
9,by stn inl

Scala代码:

    import org.apache.spark.mllib.linalg.Vectors
import org.apache.spark.mllib.regression.LabeledPoint
import org.apache.spark.{SparkContext, SparkConf}

/**
 * Created by Administrator on 2016/7/19.
 */
object MyNaiveBayes {
  def main(args: Array[String]) {
    val conf =new SparkConf().setAppName("WordCount").setMaster("local");
    val sc = new SparkContext(conf)
    val data = sc.textFile("file///F:/1/buycomputer.txt")
    val feature=data.map(_.split(","))
    val feature1=feature.toArray()
    var sty : Float = 0
    var by : Float=0
    var ihy: Float=0

    var ihn:Float=0
    var stn:Float=0
    var bn:Float=0
    for(j <- 0 to feature1.length-1){
      var flags:Boolean=false
      var flag:Boolean=false
      var flagsn:Boolean=false
      var flagn:Boolean=false
      val feature2=feature1(j)
      //println("--------------"+feature2(1))//.toString.split(" ").toList(0)+"==========")
      val feature3=feature2(1).toString.split(" ").toList
      for(i <-0 to feature3.length-1){
        if(feature3(i).equals("by")){
          by+=1
          flags=true
          flag=true
        }
        if(feature3(i).equals("sty")&& flags){
          sty+=1
          flags=false
        }
        if(feature3(i).equals("inh") && flag){
          ihy=ihy+1
          flag=false
        }
        if(feature3(i).equals("bn")){
          bn+=1
          flagsn=true
          flagn=true
        }
        if(feature3(i).equals("inh") && flagn){
          ihn=ihn+1
          flagn=false
        }
        if(feature3(i).equals("sty") && flagsn){
          stn=stn+1
          flagsn=false
        }

      }
    }

   var allby : Float=by/(feature1.length).toFloat
    var sby :Float=sty/by
    var iny: Float=ihy/by
    var py:Float=allby*sby*iny


  var allbn:Float=bn/(feature1.length).toFloat
    var sbn:Float=stn/bn
    var inn:Float=ihn/by
    var pn:Float=allbn*sbn*inn

  if(py>pn){
    println("通过该样本分析会购买电脑!!!!")
  }else{
    println("通过该样本分析不会购买电脑!!!!")
  }


  }
}
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值