spark
文章平均质量分 61
光数葱丁
代码才是葱丁
展开
-
Spark算子
RDD的方法和Scala集合对象的方法不一样,集合对象的方法都是在同一个节点的内存中完成的。RDD的方法可以将计算逻辑发送到Executor端(分布式节点)执行。为了区分不同的处理效果,所以将RDD的方法称为算子,RDD的方法外部的操作都是在Driver端执行的,而方法内部的逻辑代码是在Executor端执行。Spark算子大致可以分为4类:创建算子、转换算子、缓存算子、行动算子。............原创 2022-08-11 15:02:34 · 1567 阅读 · 0 评论 -
RDD基础
RDD它是一个抽象类,代表一个弹性的、不可变的、可分区的、是一个元素可并行计算的集合。spark框架在执行时,先申请资源,然后将应用程序的数据处理逻辑分解成一个个的计算任务,然后分发到已经分配资源的计算节点上,按照指定的计算模型(逻辑)进行数据的计算,最后得到结果。外部存储(文件),是有外部的数据集创建,包括:本地的文件系统、所有的Hdoop支持的数据集,比如HDFS、HBase等。RDD封装了计算逻辑,是不可变的,想要改变只能产生新的RDD,在新的RDD里封装计算逻辑。......原创 2022-08-05 13:44:36 · 577 阅读 · 0 评论 -
scala报错:scalac: Token not found: C:\Users\QKN\AppData\Local\JetBrains\IntelliJIdea2021.3\compile-ser
今早运行Scala的时候,IDEA报错了,引起这个报错的原因是Scala的插件的问题,比如更新,插件坏了;Scala的JDK引起的原因。原创 2022-08-05 08:36:51 · 1478 阅读 · 0 评论 -
用户访问量的统计时,遇到字段位数不同意时怎么处理?
将substring(1,12)中,end换成(strings(0).length-1),这样是根据截取的字符的下标通过length-1获取最后一位,做的好处就是不管有多少位,都会动态的获取最后一位下表,并截取出来。如此,解决这样的问题,但是我们可发现,利用下标,效率会慢很多,但是能够解决问题处理少量的数据,还是可以的。在我的灵机一动下,想到了如下的解决办法?看到,IP不去全了,怎么解决?至此,欢迎更好的想法来讨论。...原创 2022-07-21 14:34:35 · 80 阅读 · 0 评论 -
Spark控制台不打印INFO,只输出结果
我们知道这是日志信息,既然是日志很多人立马就会想到log4j.properties配置文件,肯定不陌生,因此我们可以在项目的src/main/resources目录下新建这一个log4j.properties文件,然后复制如下的配置代码,然后重新运行,日志信息便不出来了。把=号后面的INFO删除,就可以了。当你想要看到日志信息的时候,再把INFO加上,就恢复了日志的打印。有的人就很不喜欢,就想仅仅看到一个输出的结果,怎末做呢?......原创 2022-07-18 12:30:46 · 2570 阅读 · 0 评论