spark mllib实现 广告点击率预测

本文尝试使用Spark提供的机器学习算法 Gradient-Boosted Trees来预测一个用户是否会点击广告。
训练和测试数据使用Kaggle Avazu CTR 比赛的样例数据,下载地址:https://www.kaggle.com/c/avazu-ctr-prediction/data
数据格式如下:
这里写图片描述
包含24个字段:
• 1-id: ad identifier
• 2-click: 0/1 for non-click/click
• 3-hour: format is YYMMDDHH, so 14091123 means 23:00 on Sept. 11, 2014 UTC.
• 4-C1 — anonymized categorical variable
• 5-banner_pos
• 6-site_id
• 7-site_domain
• 8-site_category
• 9-app_id
• 10-app_domain
• 11-app_category
• 12-device_id
• 13-device_ip
• 14-device_model
• 15-device_type
• 16-device_conn_type
• 17~24—C14-C21 — anonymized categorical variables
其中5到15列为分类特征,16~24列为数值型特征。
Spark代码如下:
1. package com.lxw1234.test
2.
3. import scala.collection.mutable.ListBuffer
4. import scala.collection.mutable.ArrayBuffer
5.
6. import org.apache.spark.SparkContext
7. import org.apache.spark.SparkContext._
8. import org.apache.spark.SparkConf
9. import org.apache.spark.rdd.RDD
10.
11. import org.apache.spark.mllib.classification.NaiveBayes
12. import org.apache.spark.mllib.regression.LabeledPoint
13. import org.apache.spark.mllib.linalg.Vectors
14.
15. import org.apache.spark.mllib.tree.GradientBoostedTrees
16. import org.apache.spark.mllib.tree.configuration.BoostingStrategy
17. import org.apache.spark.mllib.tree.model.GradientBoostedTreesModel
18.
19. /**
20. * By: lxw
21. * http://lxw1234.com
22. */
23. object CtrPredict {
2

  • 3
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值