- 博客(3)
- 资源 (2)
- 收藏
- 关注
原创 mysql null 值对应的pyspark sql dataframe
mysql中的null值,在spark dataframe中显示也是null值, 可以通过判断 !='' 或者 is not null 都可以把空值过滤掉
2018-11-07 11:36:53 397
转载 Hadoop
1. 谈到大数据,相信大家对Hadoop和Apache Spark这两个名字并不陌生。然而,最近业界有一些人正在大张旗鼓的宣扬Hadoop将死,Spark将立。他们究竟是危言耸听?哗众取宠?还是眼光独到堪破未来呢?与Hadoop相比,Spark技术如何?现工业界大数据技术都在使用何种技术?如果现在想要参加大数据培训的话,应该从哪一种开始呢? (1)先说二者之间的区别吧。 首先,Hado...
2018-11-02 11:10:33 164
原创 pandas和spark应用心得
pandas处理千万级以下的数据还是很快的,差不得一个G的数据量 如果追求更好的体验,就要用spark,pyspark可以满足需求,类似于sql语句的操作,主要应用的数据类型还是dataframe,处理方法和pandas类似,因为是集群处理,所以速度快,数据存储和读取都存在hadoop实现的hdfs上,主要文件形式,是csv文件...
2018-11-01 17:53:18 1777
python_项目代码批量转pyc
2021-12-15
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人