pyspark
风一样的男子&
熟练Python
展开
-
pandas和spark应用心得
pandas处理千万级以下的数据还是很快的,差不得一个G的数据量 如果追求更好的体验,就要用spark,pyspark可以满足需求,类似于sql语句的操作,主要应用的数据类型还是dataframe,处理方法和pandas类似,因为是集群处理,所以速度快,数据存储和读取都存在hadoop实现的hdfs上,主要文件形式,是csv文件...原创 2018-11-01 17:53:18 · 1777 阅读 · 0 评论 -
mysql null 值对应的pyspark sql dataframe
mysql中的null值,在spark dataframe中显示也是null值, 可以通过判断 !='' 或者 is not null 都可以把空值过滤掉原创 2018-11-07 11:36:53 · 397 阅读 · 0 评论