- 博客(2)
- 收藏
- 关注
原创 PySaprk 将 DataFrame 数据保存为 Hive 分区表
PySaprk 将 DataFrame 数据保存为 Hive 分区表创建 SparkSessionfrom pyspark.sql import SparkSessionspark = SparkSession.builder.enableHiveSupport().appName('test_app').getOrCreate()sc = spark.sparkContexthc =...
2019-06-28 18:10:48 7177 1
原创 数据预处理:PySpark 的实现线性插值填充缺失值
数据预处理:PySpark 的实现线性插值填充缺失值1. Python 实现线性插值填充缺失值实现函数为:def linear_insert(x1, y1, x2, y2, insert_x): if type(insert_x) == int: insert_x = [insert_x] k = (y2 - y1) / (x2 - x1) retur...
2019-06-06 15:57:08 2942
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人