数据挖掘中,关于spark rdd常用算子转dataset
数据挖掘中,关于spark rdd常用算子转dataset
这篇的文章的内容很简单,就是总结一下自己在数据挖掘过程中用到的一些算子,然后将原来项目中使用rdd转换为dataset。理论上来说有结构的rdd都可以转为dataframe或者dataset,因为项目里面读取的是seq,原本是用的rdd,所以理论上是可行的,最开始我有尝试转为datafrme,但是有些算子在转换过程中又会转为rdd,所以后来又尝试走dataset。目前来说,项目里用到的算子都能转为dataset,这里了只是做一些总结,用到的算子都是
原创
2020-12-03 10:11:58 ·
205 阅读 ·
0 评论