Scala
文章平均质量分 78
守猫de人
这个作者很懒,什么都没留下…
展开
-
groupByKey 和reduceByKey 的区别
他们都是要经过shuffle的,groupByKey在方法shuffle之间不会合并原样进行shuffle,。reduceByKey进行shuffle之前会先做合并,这样就减少了shuffle的io传送,所以效率高一点。 案例: object GroupyKeyAndReduceByKeyDemo { def main(args: Array[String]): Unit = {原创 2017-07-14 10:53:28 · 5135 阅读 · 1 评论 -
scala读取HDFS文件,每次读取一定的字节数
用scala读取一个只有字符的文件,该文件是已经清洗完的数据,有规律,一行是一条数据。 现在的需求是一次读取文件中的一部分,依次读取完。 如果有疑问,或者找出错误的解决方案,请和我联系。一起研究讨论原创 2017-07-26 11:00:22 · 4289 阅读 · 2 评论 -
scala读取HDFS上的文件,每次读取一行
用scala读取一个只有字符的文件,该文件是已经清洗完的数据,有规律,一行是一条数据。 现在的需求是一次读取文件中的一部分,依次读取完。 之前用字节流偶尔出现乱码,最后改成一次读取一行了。import java.io.{BufferedReader, InputStreamReader} import org.apache.hadoop.fs.FSDataInputStream /**原创 2017-07-26 11:14:55 · 8014 阅读 · 3 评论 -
Spark计算结果继续追加在HDFS目录下,不会覆盖之前的文件
由于工作需要,我用scala实现在已将有的目录下面继续写入文件。需要重写MultipleTextOutputFormat这个类,具体的请看下面代码,需要交流可以联系我 import java.text.SimpleDateFormat import java.util.Date import org.apache.hadoop.fs.{FileSystem, Path} import or原创 2017-07-11 13:50:33 · 6979 阅读 · 3 评论 -
Container exited with a non-zero exit code 1 Failing this attempt. Failing the application.
最近在使用spark on yarn模式提交任务,下面是我测试的案例--提交命令spark-submit --master yarn-cluster --class com.htlx.sage.bigdata.spark.etl.Application --driver-memory 1g --num-executors 2 --executor-memory 2g --executor-core...原创 2018-04-24 14:14:11 · 3894 阅读 · 2 评论 -
如何配置sbt的build.sbt使得编译时将依赖包也打包进去
最近在使用spark on yarn模式提交任务,下面是我测试的案例--提交命令spark-submit --master yarn-cluster --class com.htlx.sage.bigdata.spark.etl.Application --driver-memory 1g --num-executors 2 --executor-memory 2g --executor-core...原创 2018-04-24 14:20:00 · 8070 阅读 · 2 评论