spark练习案例(升级版)

第一步 先准备环境

1,IDEA 安装的SDK是2.13.8版本
2,新建maven项目,依赖如下

  <dependency>
      <groupId>org.apache.spark</groupId>
      <artifactId>spark-core_2.13</artifactId>
      <version>3.3.0</version>
    </dependency>

    <!-- https://mvnrepository.com/artifact/org.apache.spark/spark-sql -->
    <dependency>
      <groupId>org.apache.spark</groupId>
      <artifactId>spark-sql_2.13</artifactId>
      <version>3.3.0</version>
      <!--      <scope>provided</scope>-->
    </dependency>

    <!-- https://mvnrepository.com/artifact/org.apache.spark/spark-streaming -->
    <dependency>
      <groupId>org.apache.spark</groupId>
      <artifactId>spark-streaming_2.13</artifactId>
      <version>3.3.0</version>
      <scope>provided</scope>
    </dependency>

    <!-- https://mvnrepository.com/artifact/org.apache.spark/spark-mllib -->
    <dependency>
      <groupId>org.apache.spark</groupId>
      <artifactId>spark-mllib_2.13</artifactId>
      <version>3.3.0</version>
      <scope>provided</scope>
    </dependency>

    <!-- https://mvnrepository.com/artifact/org.apache.spark/spark-hive -->
    <dependency>
      <groupId>org.apache.spark</groupId>
      <artifactId>spark-hive_2.13</artifactId>
      <version>3.3.0</version>
      <scope>provided</scope>
    </dependency>

案例一

对spark1.txt文件进行筛选,将A或者包含A的字母筛选出来并统计个数,然后输出到dome1文件中。
数据如下

id	编号	内容
A	B	C
AB	A	B
C	A	B
AB	AB	AB

代码如下

def main(args: Array[String]): Unit = {
    var sparkConf = new SparkConf().setAppName("demo1").setMaster("local")
    var sc = new SparkContext(sparkConf)

    var filepath = "data/spark1.txt"
    //获取第一行
    var fileFirst = sc.textFile(filepath).first()

    sc.textFile(filepath).filter(!_.equals(fileFirst)).flatMap(_.split("\t")).filter(_.contains("A"))
      .map((_,1)).reduceByKey(_+_).saveAsTextFile("data/demo1")

  }

结果如下图
在这里插入图片描述

案例二

对spark2文件进行筛选,去除掉第一行数据然后统计各同学的高考总分数和平均分然后输出保存到dome2文件中。
保存格式(样例)间隔符是\t
数据

姓名	语文	数学	英语	理综
张三	90	89	100	120
李四	78	89	100	23
王美美	90	78	100	120

代码如下

def main(args: Array[String]): Unit = {
    var sparkConf = new SparkConf().setAppName("demo2").setMaster("local")
    var sc = new SparkContext(sparkConf)

    var filepath = "data/spark2.txt"

    var fileFirst = sc.textFile(filepath).first()
    sc.textFile(filepath).filter(!_.equals(fileFirst)).map(line=>{
      var arr = line.split("\t")
      var name = arr(0)
      var yw = arr(1).toInt
      var sx = arr(2).toInt
      var english = arr(3).toInt
      var lz = arr(4).toInt
      //输出
      name+"\t"+(yw+sx+english+lz)+"\t"+(yw+sx+english+lz)/4
    }).saveAsTextFile("data/demo2")

  }

结果如下
在这里插入图片描述

案例三

读取move.csv文件,把第一行的文件头去除,将电影名,时长,评分,上映时间四个字段中有空值的数据给去除掉,然后打印出去除的数据条数,并且将数据保存到dome3文件中

保存格式:
数据如下

电影名,时长,评分,上映时间
放牛班的春天,97,8.9,2004-10-16
大话西游之月光宝盒,87,8.9,2014-10-24
闻香识女人,157,8.9,1992-12-23
风之谷,117,8.9,
三傻大闹宝莱坞,171,8.9,2011-12-08
末代皇帝,163,8.9,1987-10-23
勇敢的心,177,8.9,1995-05-18
黑客帝国3:矩阵革命,129,8.8,2003-11-05
飞屋环游记,96,8.8,2009-08-04
驯龙高手,98,8.8,2010-05-14
蝙蝠侠:黑暗骑士,152,9.0,2008-07-14
指环王1:护戒使者,178,9.0,2002-04-04
活着,132,9.0,1994-05-17
拯救大兵瑞恩,169,8.9,1998-11-13
指环王2:双塔奇兵,179,9.0,2003-04-25
忠犬八公的故事,93,8.9,2009-06-13
射雕英雄传之东成西就,113,9.0,1993-02-05
美国往事,229,8.8,2015-04-23
狮子王,89,9.0,1995-07-15
教父2,202,9.0,1974-12-12
楚门的世界,103,9.0,
喜剧之王,85,9.5,1999-02-13
魂断蓝桥,108,9.5,1940-05-17
辛德勒的名单,195,9.5,1993-11-30
速度与激情5,130,8.9,2011-05-12
音乐之声,174,9.0,1965-03-02
天堂电影院,155,9.0,1988-11-17
天空之城,125,9.0,1992-05-01
大闹天宫,114,9.0,1965-12-31
机器人总动员,98,9.0,2008-06-27
加勒比海盗,143,9.0,2003-11-21
剪刀手爱德华,105,9.0,1990-12-06
黑客帝国,136,9.0,2000-01-14
完美的世界,138,8.8,1993-11-24
指环王3:王者无敌,201,9.0,2004-03-15
乱世佳人,238,9.5,1939-12-15
泰坦尼克号,194,9.5,1998-04-03
无间道,101,9.0,2003-09-05
哈利·波特与魔法石,152,9.0,2002-01-26
肖申克的救赎,142,9.5,1994-09-10
楚门的世界,103,9.0,
霸王别姬,171,9.5,1993-07-26
唐伯虎点秋香,102,9.5,1993-07-01
喜剧之王,85,9.5,1999-02-13
狮子王,89,9.0,1995-07-15
乱世佳人,238,9.5,1939-12-15
泰坦尼克号,194,9.5,1998-04-03
罗马假日,118,9.5,1953-08-20
这个杀手不太冷,110,9.5,1994-09-14
唐伯虎点秋香,102,9.5,1993-07-01
七武士,207,8.8,1954-04-26
龙猫,86,9.1,2018-12-14
这个杀手不太冷,110,9.5,1994-09-14
阿飞正传,94,9.1,2018-06-25
罗马假日,118,9.5,1953-08-20
7号房的礼物,127,8.8,2013-01-23
肖申克的救赎,142,9.5,1994-09-10
海洋,104,9.1,2011-08-12
春光乍泄,96,9.0,1997-05-17
黄金三镖客,161,9.1,1966-12-23
阿凡达,162,8.9,2010-01-04
十二怒汉,96,8.9,1957-04-13
搏击俱乐部,139,8.9,1999-09-10
当幸福来敲门,117,8.9,2008-01-17
怦然心动,90,8.8,2010-07-26
我爱你,118,9.1,2011-02-17
断背山,134,8.8,2005-09-02
无敌破坏王,101,8.8,2012-11-06
爱·回家,80,9.1,2002-04-05
鬼子来了,139,8.8,2000-05-13
哈尔的移动城堡,119,8.9,2004-09-05
盗梦空间,148,8.9,2010-09-01
甜蜜蜜,118,8.9,2015-02-13
幽灵公主,134,8.9,1998-05-01
哈利·波特与死亡圣器(下),130,8.9,2011-08-04
时空恋旅人,123,8.8,2013-09-04
教父,175,8.8,2015-04-18
窃听风暴,137,8.8,2006-03-23
穿条纹睡衣的男孩,94,8.8,2008-08-28
恐怖直播,97,8.8,2013-07-31
海豚湾,92,8.8,2009-07-31
上帝之城,130,8.8,
辩护人,127,8.8,2013-12-18
英雄本色,95,8.8,2017-11-17
致命魔术,130,8.8,2006-10-17
霸王别姬,171,9.5,1993-07-26
迁徙的鸟,98,9.1,2001-12-12
美丽人生,116,9.1,2020-01-03
疯狂原始人,98,8.9,2013-04-20
初恋这件小事,118,8.9,2012-06-05
借东西的小人阿莉埃蒂,94,8.8,2010-07-17
神偷奶爸,95,8.8,2010-06-20
少年派的奇幻漂流,127,8.9,2012-11-22
V字仇杀队,132,8.9,2005-12-11
蝙蝠侠:黑暗骑士崛起,165,8.9,2012-08-27
海上钢琴师,126,9.1,2019-11-15
千与千寻,125,9.1,2019-06-21
忠犬八公物语,107,8.8,1987-08-01
美丽心灵,135,8.8,2001-12-13
,173,8.8,2000-05-15

代码如下

def main(args: Array[String]): Unit = {
    var sparkConf = new SparkConf().setAppName("demo3").setMaster("local")
    var sc = new SparkContext(sparkConf)
    var filepath = "data/move.csv"
    //获取第一行
    var fileFirst = sc.textFile(filepath).first()
    //定义累加计算器
    var longAccum = sc.longAccumulator("count")
    sc.textFile(filepath).filter(!_.equals(fileFirst)).filter(line=>{
      var arr = line.split(",")
      if(arr.length==4){
        for(i <- arr){
          if (i==""){
            longAccum.add(1)
            false
          }else{
            true
          }
        }
        true
      }else{
        longAccum.add(1)
        false
      }
    }).saveAsTextFile("data/demo3")
    println("总共去除了:"+longAccum.value)
  }

案例4

对film_log1.csv文件进行重复值处理,并且打印出去掉的条数,然后保存到film_log2中

数据如下

《冲上云霄》;2015.2.19;2015.3.29;寰亚电影制作有限公司;叶伟信,邹凯光;古天乐,郑秀文,吴镇宇,张智霖,佘诗曼,郭采洁;剧情,爱情;票房(万)1563.3;北京
《百团大战》;2015.8.28;2015.10.11;八一电影制片厂;中国电影股份有限公司;北京紫禁城影业公司;宁海强,张玉中;陶泽如,刘之冰,印小天,吴越,唐国强,王伍福;战争/历史;票房(万)4137.3;天津
《浪漫天降》;2015.10.23;2015.11.8;;宁瀛;夏雨,关晓彤,邱泽;浪漫,爱情,喜剧;票房(万)75.2;广州
《简单爱》;2015.7.3;2015.7.19;中视合利(北京)文化投资有限公司一鸣影业公司(美国);崔龄燕;许绍洋,张琳,谢雨芩,石铭熙;都市浪漫爱情喜剧;票房(万)232.7;成都
《一念天堂》;2015.12.31;2016.2.13;天河盛宴,凯德盛世(北京)投资管理有限公司,和云筹(北京)网络科技有限公司;张承;沈腾,马丽,林雪,杜晓宇,王子子,李元鹏;喜剧;票房(万)829.5;沈阳
《爱之初体验》;2015.8.7;2015.8.23;上海锦瑟天下影视有限公司;海涛;张超,李晓峰,张瑶,吴大维,屈菁菁,刘雅瑟,乔曦;喜剧/爱情;票房(万)31.7;上海
《百团大战》;2015.8.28;2015.10.11;八一电影制片厂;中国电影股份有限公司;北京紫禁城影业公司;宁海强,张玉中;陶泽如,刘之冰,印小天,吴越,唐国强,王伍福;战争/历史;票房(万)4137.3;济南
《紫霞》;2015.12.11;2015.12.27;映代码公司;苗述;徐洁儿,袁晓超,刘承俊,洪天照,刘永健,谭赫,肖红,金晶,谢沅江;爱情,奇幻;票房(万)4.1;济南
《一路惊喜》;2015.2.6;2015.3.8;万达影视传媒有限公司;金依萌/潘安子/章家瑞/宋迪;郭采洁,萧敬腾,赵丽颖,凤小岳,夏雨,梅婷,蓝燕,林家栋,张译,大鹏,蒋劲夫,孙艺洲,张辛苑,阚清子,刘维,乔杉;喜剧/爱情/家庭;票房(万)974.6;沈阳
《失孤》;2015.3.20;2015.5.3;华谊兄弟传媒集团、源合圣影视、映艺娱乐;彭三源;刘德华,井柏然,梁家辉,吴君如;剧情、社会;票房(万)2167.9;北京
《闯入者》;2015.4.30;2015.5.24;冬春文化、银润传媒、合润传媒、安乐电影、引力影视投资、重庆电影集团;王小帅;吕中,秦海璐,冯远征,秦昊,石榴;剧情、犯罪;票房(万)103.6;成都
《失孤》;2015.3.20;2015.5.3;华谊兄弟传媒集团、源合圣影视、映艺娱乐;彭三源;刘德华,井柏然,梁家辉,吴君如;剧情、社会;票房(万)2167.9;福州
《简单爱》;2015.7.3;2015.7.19;中视合利(北京)文化投资有限公司一鸣影业公司(美国);崔龄燕;许绍洋,张琳,谢雨芩,石铭熙;都市浪漫爱情喜剧;票房(万)232.7;广州
《探灵档案》;2015.3.7;2015.3.22;壹马时代文化传媒(北京)有限公司、北京盛唐时代文化传播有限公司;彭发;马浴柯,吴昕,潘粤明,王景春,莫小棋,朱雨辰,洪天明,陈国坤,刘颖仪;悬疑,惊悚;票房(万)34.1;沈阳
《冲上云霄》;2015.2.19;2015.3.29;寰亚电影制作有限公司;叶伟信,邹凯光;古天乐,郑秀文,吴镇宇,张智霖,佘诗曼,郭采洁;剧情,爱情;票房(万)1563.3;沈阳
《失孤》;2015.3.20;2015.5.3;华谊兄弟传媒集团、源合圣影视、映艺娱乐;彭三源;刘德华,井柏然,梁家辉,吴君如;剧情、社会;票房(万)2167.9;武汉
《坏蛋必须死》;2015.11.27;2015.12.20;北京新力量、华谊兄弟、南京大道行知;孙皓;陈柏霖,孙艺珍,乔振宇,申贤俊,张光,杨旭文,丁文博,朴哲民;喜剧,悬疑,旅行,爱情;票房(万)405.4;长沙
《百团大战》;2015.8.28;2015.10.11;八一电影制片厂;中国电影股份有限公司;北京紫禁城影业公司;宁海强,张玉中;陶泽如,刘之冰,印小天,吴越,唐国强,王伍福;战争/历史;票房(万)4137.3;成都
《万物生长》;2015.4.17;2015.5.24;北京劳雷影业、杭州果麦文化传媒、北京联瑞影业;李玉;范冰冰,韩庚,沙溢,吴莫愁,杨迪,齐溪,张博宇,沈婷婷,李梦,雷恪生,吕行;爱情、剧情、校园、喜剧;票房(万)1431.8;长沙
《紫霞》;2015.12.11;2015.12.27;映代码公司;苗述;徐洁儿,袁晓超,刘承俊,洪天照,刘永健,谭赫,肖红,金晶,谢沅江;爱情,奇幻;票房(万)4.1;长沙
《破风》;2015.8.7;2015.9.13;恒大影视文化有限公司;林超贤;彭于晏,窦骁,崔始源,王珞丹,陈家乐,欧阳娜娜,连凯;剧情、运动、爱情;票房(万)1429.1;福州
《探灵档案》;2015.3.7;2015.3.22;壹马时代文化传媒(北京)有限公司、北京盛唐时代文化传播有限公司;彭发;马浴柯,吴昕,潘粤明,王景春,莫小棋,朱雨辰,洪天明,陈国坤,刘颖仪;悬疑,惊悚;票房(万)34.1;广州
《最美的时候遇见你》;2015.12.11;2015.12.27;广州遐迩文化传播有限公司;吴娜;谭松韵,罗云熙;校园,爱情,喜剧;票房(万)15.2;北京
《将错就错》;2015.3.5;2015.3.29;中国电影股份有限公司等;王宁;小沈阳,田亮,陈小春,熊黛林;爱情、喜剧;票房(万)397.4;上海
《最美的时候遇见你》;2015.12.11;2015.12.27;广州遐迩文化传播有限公司;吴娜;谭松韵,罗云熙;校园,爱情,喜剧;票房(万)15.2;沈阳
《少年班》;2015.6.19;2015.7.19;工夫影业;华谊兄弟;肖洋;孙红雷,周冬雨,董子健,王栎鑫,李佳奇,夏天,王森;青春、校园、喜剧;票房(万)506.7;成都
《分手再说我爱你》;2015.12.24;2016.1.17;爱奇艺影业(北京)有限公司、太阳娱乐文化有限公司、无限动力实业有限公司;叶念琛;方力申,邓丽欣;爱情、剧情;票房(万)173.2;福州
《既然青春留不住》;2015.10.23;2015.11.22;杭州和润影视有限公司;田蒙;张翰,陈乔恩,王啸坤,施予斐,贾盛强,廖娟;喜剧、爱情;票房(万)500.3;上海
《前任2:备胎反击战》;2015.11.6;2015.12.20;华谊兄弟传媒股份有限公司、新圣堂影业;田羽生;郑恺,郭采洁,张艺兴,王传君;爱情,喜剧;票房(万)2200.2;广州
《万物生长》;2015.4.17;2015.5.24;北京劳雷影业、杭州果麦文化传媒、北京联瑞影业;李玉;范冰冰,韩庚,沙溢,吴莫愁,杨迪,齐溪,张博宇,沈婷婷,李梦,雷恪生,吕行;爱情、剧情、校园、喜剧;票房(万)1431.8;广州
《百团大战》;2015.8.28;2015.10.11;八一电影制片厂;华谊兄弟传媒股份有限公司;中国电影股份有限公司;北京紫禁城影业公司;宁海强,张玉中;陶泽如,刘之冰,印小天,吴越,唐国强,王伍福;战争/历史;票房(万)4137.3;济南
《简单爱》;2015.7.3;2015.7.19;中视合利(北京)文化投资有限公司一鸣影业公司(美国);崔龄燕;许绍洋,张琳,谢雨芩,石铭熙;都市浪漫爱情喜剧;票房(万)232.7;武汉
《一路惊喜》;2015.2.6;2015.3.8;万达影视传媒有限公司;金依萌/潘安子/章家瑞/宋迪;郭采洁,萧敬腾,赵丽颖,凤小岳,夏雨,梅婷,蓝燕,林家栋,张译,大鹏,蒋劲夫,孙艺洲,张辛苑,阚清子,刘维,乔杉;喜剧/爱情/家庭;票房(万)974.6;济南
《爱之初体验》;2015.8.7;2015.8.23;上海锦瑟天下影视有限公司;海涛;张超,李晓峰,张瑶,吴大维,屈菁菁,刘雅瑟,乔曦;喜剧/爱情;票房(万)31.7;天津
《破风》;2015.8.7;2015.9.13;恒大影视文化有限公司;林超贤;彭于晏,窦骁,崔始源,王珞丹,陈家乐,欧阳娜娜,连凯;剧情、运动、爱情;票房(万)1429.1;沈阳
《浪漫天降》;2015.10.23;2015.11.8;;宁瀛;夏雨,关晓彤,邱泽;浪漫,爱情,喜剧;票房(万)75.2;长沙
《冲上云霄》;2015.2.19;2015.3.29;寰亚电影制作有限公司;叶伟信,邹凯光;古天乐,郑秀文,吴镇宇,张智霖,佘诗曼,郭采洁;剧情,爱情;票房(万)1563.3;天津
《闯入者》;2015.4.30;2015.5.24;冬春文化、银润传媒、合润传媒、安乐电影、引力影视投资、重庆电影集团;王小帅;吕中,秦海璐,冯远征,秦昊,石榴;剧情、犯罪;票房(万)103.6;沈阳
《将错就错》;2015.3.5;2015.3.29;中国电影股份有限公司等;王宁;小沈阳,田亮,陈小春,熊黛林;爱情、喜剧;票房(万)397.4;武汉
《浪漫天降》;2015.10.23;2015.11.8;;宁瀛;夏雨,关晓彤,邱泽;浪漫,爱情,喜剧;票房(万)75.2;上海
《简单爱》;2015.7.3;2015.7.19;中视合利(北京)文化投资有限公司一鸣影业公司(美国);崔龄燕;许绍洋,张琳,谢雨芩,石铭熙;都市浪漫爱情喜剧;票房(万)232.7;长沙
《浪漫天降》;2015.10.23;2015.11.8;;宁瀛;夏雨,关晓彤,邱泽;浪漫,爱情,喜剧;票房(万)75.2;上海
《最美的时候遇见你》;2015.12.11;2015.12.27;广州遐迩文化传播有限公司;吴娜;谭松韵,罗云熙;校园,爱情,喜剧;票房(万)15.2;沈阳
《将错就错》;2015.3.5;2015.3.29;中国电影股份有限公司等;王宁;小沈阳,田亮,陈小春,熊黛林;爱情、喜剧;票房(万)397.4;长沙
《探灵档案》;2015.3.7;2015.3.22;壹马时代文化传媒(北京)有限公司、北京盛唐时代文化传播有限公司;彭发;马浴柯,吴昕,潘粤明,王景春,莫小棋,朱雨辰,洪天明,陈国坤,刘颖仪;悬疑,惊悚;票房(万)34.1;长沙
《紫霞》;2015.12.11;2015.12.27;映代码公司;苗述;徐洁儿,袁晓超,刘承俊,洪天照,刘永健,谭赫,肖红,金晶,谢沅江;爱情,奇幻;票房(万)4.1;北京
《失孤》;2015.3.20;2015.5.3;华谊兄弟传媒集团、源合圣影视、映艺娱乐;彭三源;刘德华,井柏然,梁家辉,吴君如;剧情、社会;票房(万)2167.9;福州
《最美的时候遇见你》;2015.12.11;2015.12.27;广州遐迩文化传播有限公司;吴娜;谭松韵,罗云熙;校园,爱情,喜剧;票房(万)15.2;长沙
《爱情魔发师》;2015.7.17;2015.8.2;北京仁和博纳文化传媒有限公司;倾海;游游,张燃,朱咪咪,黄一飞,崔浩博,王子轩;喜剧 / 爱情;票房(万)2.3;上海
《一念天堂》;2015.12.31;2016.2.13;天河盛宴,凯德盛世(北京)投资管理有限公司,和云筹(北京)网络科技有限公司;张承;沈腾,马丽,林雪,杜晓宇,王子子,李元鹏;喜剧;票房(万)829.5;天津
《天将雄师》;2015.2.19;2015.4.6;耀莱文化,华谊兄弟,上海电影集团;李仁港;成龙,约翰·库萨克,阿德里安·布劳迪,崔始源 ,林鹏,王若心,筷子兄弟,西蒙子,冯绍峰,朱佳煜;动作,古装,剧情,历史;票房(万)7443.2;成都
《最美的时候遇见你》;2015.12.11;2015.12.27;广州遐迩文化传播有限公司;吴娜;谭松韵,罗云熙;校园,爱情,喜剧;票房(万)15.2;北京
《万物生长》;2015.4.17;2015.5.24;北京劳雷影业、杭州果麦文化传媒、北京联瑞影业;李玉;范冰冰,韩庚,沙溢,吴莫愁,杨迪,齐溪,张博宇,沈婷婷,李梦,雷恪生,吕行;爱情、剧情、校园、喜剧;票房(万)1431.8;成都
《将错就错》;2015.3.5;2015.3.29;中国电影股份有限公司等;王宁;小沈阳,田亮,陈小春,熊黛林;爱情、喜剧;票房(万)397.4;广州
《天将雄师》;2015.2.19;2015.4.6;耀莱文化,华谊兄弟,上海电影集团;李仁港;成龙,约翰·库萨克,阿德里安·布劳迪,崔始源 ,林鹏,王若心,筷子兄弟,西蒙子,冯绍峰,朱佳煜;动作,古装,剧情,历史;票房(万)7443.2;成都
《闯入者》;2015.4.30;2015.5.24;冬春文化、银润传媒、合润传媒、安乐电影、引力影视投资、重庆电影集团;王小帅;吕中,秦海璐,冯远征,秦昊,石榴;剧情、犯罪;票房(万)103.6;长沙
《爱之初体验》;2015.8.7;2015.8.23;上海锦瑟天下影视有限公司;海涛;张超,李晓峰,张瑶,吴大维,屈菁菁,刘雅瑟,乔曦;喜剧/爱情;票房(万)31.7;天津
《破风》;2015.8.7;2015.9.13;恒大影视文化有限公司;林超贤;彭于晏,窦骁,崔始源,王珞丹,陈家乐,欧阳娜娜,连凯;剧情、运动、爱情;票房(万)1429.1;福州
《既然青春留不住》;2015.10.23;2015.11.22;杭州和润影视有限公司;田蒙;张翰,陈乔恩,王啸坤,施予斐,贾盛强,廖娟;喜剧、爱情;票房(万)500.3;天津
《分手再说我爱你》;2015.12.24;2016.1.17;爱奇艺影业(北京)有限公司、太阳娱乐文化有限公司、无限动力实业有限公司;叶念琛;方力申,邓丽欣;爱情、剧情;票房(万)173.2;福州
《怦然星动》;2015.12.3;2016.1.10;欢瑞世纪,嘉行传媒,青春光线;陈国辉;杨幂,李易峰,陈数,王耀庆,迪丽热巴,张云龙;都市,爱情,喜剧;票房(万)1593.9;沈阳
《一路惊喜》;2015.2.6;2015.3.8;万达影视传媒有限公司;金依萌/潘安子/章家瑞/宋迪;郭采洁,萧敬腾,赵丽颖,凤小岳,夏雨,梅婷,蓝燕,林家栋,张译,大鹏,蒋劲夫,孙艺洲,张辛苑,阚清子,刘维,乔杉;喜剧/爱情/家庭;票房(万)974.6;济南
《探灵档案》;2015.3.7;2015.3.22;壹马时代文化传媒(北京)有限公司、北京盛唐时代文化传播有限公司;彭发;马浴柯,吴昕,潘粤明,王景春,莫小棋,朱雨辰,洪天明,陈国坤,刘颖仪;悬疑,惊悚;票房(万)34.1;成都
《冲上云霄》;2015.2.19;2015.3.29;寰亚电影制作有限公司;叶伟信,邹凯光;古天乐,郑秀文,吴镇宇,张智霖,佘诗曼,郭采洁;剧情,爱情;票房(万)1563.3;成都
《爱之初体验》;2015.8.7;2015.8.23;上海锦瑟天下影视有限公司;海涛;张超,李晓峰,张瑶,吴大维,屈菁菁,刘雅瑟,乔曦;喜剧/爱情;票房(万)31.7;北京
《失孤》;2015.3.20;2015.5.3;华谊兄弟传媒集团、源合圣影视、映艺娱乐;彭三源;刘德华,井柏然,梁家辉,吴君如;剧情、社会;票房(万)2167.9;沈阳
《少年班》;2015.6.19;2015.7.19;工夫影业;华谊兄弟;肖洋;孙红雷,周冬雨,董子健,王栎鑫,李佳奇,夏天,王森;青春、校园、喜剧;票房(万)506.7;武汉
《浪漫天降》;2015.10.23;2015.11.8;;宁瀛;夏雨,关晓彤,邱泽;浪漫,爱情,喜剧;票房(万)75.2;天津
《冲上云霄》;2015.2.19;2015.3.29;寰亚电影制作有限公司;叶伟信,邹凯光;古天乐,郑秀文,吴镇宇,张智霖,佘诗曼,郭采洁;剧情,爱情;票房(万)1563.3;长沙
《万物生长》;2015.4.17;2015.5.24;北京劳雷影业、杭州果麦文化传媒、北京联瑞影业;李玉;范冰冰,韩庚,沙溢,吴莫愁,杨迪,齐溪,张博宇,沈婷婷,李梦,雷恪生,吕行;爱情、剧情、校园、喜剧;票房(万)1431.8;天津
《一念天堂》;2015.12.31;2016.2.13;天河盛宴,凯德盛世(北京)投资管理有限公司,和云筹(北京)网络科技有限公司;张承;沈腾,马丽,林雪,杜晓宇,王子子,李元鹏;喜剧;票房(万)829.5;成都
《恶棍天使》;2015.12.24;2016.2.13;天津橙子映像传媒有限公司、北京光线影业有限公司;邓超、俞白眉;邓超,孙俪,梁超,代乐乐;喜剧/荒诞/爱情;票房(万)6495.0;福州
《闯入者》;2015.4.30;2015.5.24;冬春文化、银润传媒、合润传媒、安乐电影、引力影视投资、重庆电影集团;王小帅;吕中,秦海璐,冯远征,秦昊,石榴;剧情、犯罪;票房(万)103.6;天津
《前任2:备胎反击战》;2015.11.6;2015.12.20;华谊兄弟传媒股份有限公司、新圣堂影业;田羽生;郑恺,郭采洁,张艺兴,王传君;爱情,喜剧;票房(万)2200.2;上海
《天将雄师》;2015.2.19;2015.4.6;耀莱文化,华谊兄弟,上海电影集团;李仁港;成龙,约翰·库萨克,阿德里安·布劳迪,崔始源 ,林鹏,王若心,筷子兄弟,西蒙子,冯绍峰,朱佳煜;动作,古装,剧情,历史;票房(万)7443.2;长沙
《一路惊喜》;2015.2.6;2015.3.8;万达影视传媒有限公司;金依萌/潘安子/章家瑞/宋迪;郭采洁,萧敬腾,赵丽颖,凤小岳,夏雨,梅婷,蓝燕,林家栋,张译,大鹏,蒋劲夫,孙艺洲,张辛苑,阚清子,刘维,乔杉;喜剧/爱情/家庭;票房(万)974.6;北京
《恶棍天使》;2015.12.24;2016.2.13;天津橙子映像传媒有限公司、北京光线影业有限公司;邓超、俞白眉;邓超,孙俪,梁超,代乐乐;喜剧/荒诞/爱情;票房(万)6495.0;沈阳
《闯入者》;2015.4.30;2015.5.24;冬春文化、银润传媒、合润传媒、安乐电影、引力影视投资、重庆电影集团;王小帅;吕中,秦海璐,冯远征,秦昊,石榴;剧情、犯罪;票房(万)103.6;广州
《前任2:备胎反击战》;2015.11.6;2015.12.20;华谊兄弟传媒股份有限公司、新圣堂影业;田羽生;郑恺,郭采洁,张艺兴,王传君;爱情,喜剧;票房(万)2200.2;天津
《少年班》;2015.6.19;2015.7.19;工夫影业;华谊兄弟;肖洋;孙红雷,周冬雨,董子健,王栎鑫,李佳奇,夏天,王森;青春、校园、喜剧;票房(万)506.7;成都
《紫霞》;2015.12.11;2015.12.27;映代码公司;苗述;徐洁儿,袁晓超,刘承俊,洪天照,刘永健,谭赫,肖红,金晶,谢沅江;爱情,奇幻;票房(万)4.1;天津
《爱之初体验》;2015.8.7;2015.8.23;上海锦瑟天下影视有限公司;海涛;张超,李晓峰,张瑶,吴大维,屈菁菁,刘雅瑟,乔曦;喜剧/爱情;票房(万)31.7;广州
《万物生长》;2015.4.17;2015.5.24;北京劳雷影业、杭州果麦文化传媒、北京联瑞影业;李玉;范冰冰,韩庚,沙溢,吴莫愁,杨迪,齐溪,张博宇,沈婷婷,李梦,雷恪生,吕行;爱情、剧情、校园、喜剧;票房(万)1431.8;济南
《破风》;2015.8.7;2015.9.13;恒大影视文化有限公司;林超贤;彭于晏,窦骁,崔始源,王珞丹,陈家乐,欧阳娜娜,连凯;剧情、运动、爱情;票房(万)1429.1;福州
《爱情魔发师》;2015.7.17;2015.8.2;北京仁和博纳文化传媒有限公司;倾海;游游,张燃,朱咪咪,黄一飞,崔浩博,王子轩;喜剧 / 爱情;票房(万)2.3;北京
《简单爱》;2015.7.3;2015.7.19;中视合利(北京)文化投资有限公司一鸣影业公司(美国);崔龄燕;许绍洋,张琳,谢雨芩,石铭熙;都市浪漫爱情喜剧;票房(万)232.7;成都
《既然青春留不住》;2015.10.23;2015.11.22;杭州和润影视有限公司;田蒙;张翰,陈乔恩,王啸坤,施予斐,贾盛强,廖娟;喜剧、爱情;票房(万)500.3;济南
《少年班》;2015.6.19;2015.7.19;工夫影业;华谊兄弟;肖洋;孙红雷,周冬雨,董子健,王栎鑫,李佳奇,夏天,王森;青春、校园、喜剧;票房(万)506.7;成都
《最美的时候遇见你》;2015.12.11;2014.12.27;广州遐迩文化传播有限公司;吴娜;谭松韵,罗云熙;校园,爱情,喜剧;票房(万)15.2;长沙
《分手再说我爱你》;2015.12.24;2016.1.17;爱奇艺影业(北京)有限公司、太阳娱乐文化有限公司、无限动力实业有限公司;叶念琛;方力申,邓丽欣;爱情、剧情;票房(万)173.2;济南
《将错就错》;2015.3.5;2015.3.29;中国电影股份有限公司等;王宁;小沈阳,田亮,陈小春,熊黛林;爱情、喜剧;票房(万)397.4;武汉
《浪漫天降》;2015.10.23;2015.11.8;;宁瀛;夏雨,关晓彤,邱泽;浪漫,爱情,喜剧;票房(万)75.2;成都
《破风》;2015.8.7;2015.9.13;恒大影视文化有限公司;林超贤;彭于晏,窦骁,崔始源,王珞丹,陈家乐,欧阳娜娜,连凯;剧情、运动、爱情;票房(万)1429.1;北京
《紫霞》;2015.12.11;2015.12.27;映代码公司;苗述;徐洁儿,袁晓超,刘承俊,洪天照,刘永健,谭赫,肖红,金晶,谢沅江;爱情,奇幻;票房(万)4.1;沈阳
《爱情魔发师》;2015.7.17;2015.8.2;北京仁和博纳文化传媒有限公司;倾海;游游,张燃,朱咪咪,黄一飞,崔浩博,王子轩;喜剧 / 爱情;票房(万)2.3;沈阳
《怦然星动》;2015.12.3;2016.1.10;欢瑞世纪,嘉行传媒,青春光线;陈国辉;杨幂,李易峰,陈数,王耀庆,迪丽热巴,张云龙;都市,爱情,喜剧;票房(万)1593.9;福州
《分手再说我爱你》;2015.12.24;2016.1.17;爱奇艺影业(北京)有限公司、太阳娱乐文化有限公司、无限动力实业有限公司;叶念琛;方力申,邓丽欣;爱情、剧情;票房(万)173.2;沈阳
《爱之初体验》;2015.8.7;2015.8.23;上海锦瑟天下影视有限公司;海涛;张超,李晓峰,张瑶,吴大维,屈菁菁,刘雅瑟,乔曦;喜剧/爱情;票房(万)31.7;广州
《分手再说我爱你》;2015.12.24;2016.1.17;爱奇艺影业(北京)有限公司、太阳娱乐文化有限公司、无限动力实业有限公司;叶念琛;方力申,邓丽欣;爱情、剧情;票房(万)173.2;天津
《一念天堂》;2015.12.31;2016.2.13;天河盛宴,凯德盛世(北京)投资管理有限公司,和云筹(北京)网络科技有限公司;张承;沈腾,马丽,林雪,杜晓宇,王子子,李元鹏;喜剧;票房(万)829.5;福州

代码如下

def main(args: Array[String]): Unit = {
    var sparkConf = new SparkConf().setAppName("demo4").setMaster("local")
    var sc = new SparkContext(sparkConf)
    var filepath = "data/film_log1.csv"

    //获取总条目数
    var move_count = sc.textFile(filepath).map((_,1)).reduceByKey(_+_).count()
    //求总数量
    var move_sum = sc.textFile(filepath).map((_,1)).reduceByKey(_+_).map(x=>x._2).sum()
    //保存数据
    sc.textFile(filepath).map((_,1)).reduceByKey(_+_).map(x=>x._1).saveAsTextFile("data/demo4")

    println("总共重复的数量有p:"+(move_sum-move_count))
  }

案例5

在film_log2文件基础上,进行缺失值处理,将没有导演的信息用"无"填充,并且打印出共填充多少条数据,然后保存到film_log3中
代码如下

def main(args: Array[String]): Unit = {
    var sparkConf = new SparkConf().setAppName("demo5").setMaster("local")
    var sc = new SparkContext(sparkConf)
    var filepath = "data/film_log1.csv"

    var  longAccum = sc.longAccumulator("count")

    sc.textFile(filepath).map(line=>{
      var arr = line.split(";")
      if (arr(4)==""){
        arr(4)="无"
        var str=""
        for (i <- arr){
          str+=i+";"
        }
        str=str.substring(0,str.length-1)
        longAccum.add(1)
        str
      }else{
        line
      }

    }).saveAsTextFile("data/demo5")
    println("总共填充了:"+longAccum.value)
  }

案例6

在film_log3的基础上将日期格式统一改为yyyy-MM-dd格式,然后保存到film_log4中
def main(args: Array[String]): Unit = {
    var sparkConf = new SparkConf().setAppName("demo6").setMaster("local")
    var sc = new SparkContext(sparkConf)
    var filepath = "data/film_log1.csv"

    sc.textFile(filepath).map(line=>{
      var arr = line.split(";")
      arr(1)=arr(1).replace(".","-")
      arr(2)=arr(2).replace(".","-")
      var str = ""
      for (i <- arr){
        str+=i+";"
      }
      str=str.substring(0,str.length-1)
      //输出
      str
    }).saveAsTextFile("data/demo6")
  }
  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

java庞

你的鼓励就是我们最大的动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值