Spark大数据比赛经验记录(含sparksubmit 提交方法)

十月底, 参加了公司的一个spark大数据比赛, 题目比较简单, 但是由于自己缺乏此方面的业务知识, 所以对我来说解答的过程还是很有收获的 , 现在记录如下:

题目

数据表:
CREATE EXTERNAL TABLE fact_ipp_flux_limit(
clttime timestamp,
clttimeint bigint,
imsi string,
ci bigint,
url string,
tcpwrldelay bigint
)
PARTITIONED BY (
reportdate string,
reporthour int,
reportneid int)
ROW FORMAT DELIMITED FIELDS TERMINATED BY ‘,’
STORED AS TEXTFILE LOCATION ‘/zxvmax/telecom/cn/test_data/fact_ipp_flux_limit’;

该数据表是统计的某地区电信用户手机上网情况, 其中clttime是访问对应url的时间, imsi是手机卡标识, ci是小区ID, url则是访问链接. 数据如下图所示:

数据示例

问题 :
1. 根据提供的数据,输出每五分钟,人流量最大的TOP3小区。(简单)
时间:14:00 – 17:00
字段:时间(clttime),小区(ci), 用户(imsi)
2. 根据URL识别搜索引擎的关键词,并给出搜索热度排名。(中等)
时间:00:00 – 23:59
字段:url,时间(clttime)
3. 根据URL识别什么时段大家更喜欢看新闻。(中等)
时间:00:00 – 23:59
字段:url,时间(clttime)
4. 根据URL识别最受欢迎的网站。(中等)
时间:00:00 – 23:59
字段:url,时间(clttime)**

提交指南

我们以wordcount为例介绍下在linux环境下的提交方式

示例代码(wordcount.scala):

package bigdata
import org.apache.spark.SparkConf
import org.apache.spark.SparkContext
import org.apache.spark.SparkContext._

object WordCount
{
    def main(args: Array[String])
    {
        if (args.length < 1)
        {
            System.err.println("Usage: <file>")
            System.exit(1)
        }
        val conf = new SparkConf()
        val sc = new SparkContext(conf)
        val line = sc.textFile(args(0))
        val array = line.flatMap(_.split(" ")).map((_, 1)).reduceByKey(_ + _)
        array.saveAsTextFile("/odpp/files/output")
        sc.stop()
    }
}

编译

scalac -classpath /home/mr/spark/lib/spark-assembly-1.4.1-hadoop2.5.0-cdh5.3.2.jar -d wordcount.jar wordcount.scala
此处要注意scala的版本要与spark-assembly的scala编译版本最好一致, 不然可能在运行时出错.上述jar是由scala 2.10.4编译的

提交

spark-submit  --master yarn-cluster --queue user07_space --driver-memory 3G --executor-memory 2G -
  • 4
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值