- 博客(7)
- 收藏
- 关注
原创 在spark中将数据插入HIVE表
在spark中将数据插入HIVE表用spark导入到HIVE中效率较高1 创建数据集的spark D啊他Frames: TmpDF=spark.createDataFrame(RDD,schema) 这里schema是由StructFied函数定义的 2 将数据集的DataFrames格式映射到...
2019-12-29 17:52:00 3487
原创 PySpark的存储不同格式文件
PySpark的存储不同格式文件,如:存储为csv格式、json格式、parquet格式、compression格式、tablefrom future import print_function, divisionfrom pyspark import SparkConf, SparkContextfrom pyspark.sql import SparkSession启动 Spark (...
2019-12-27 10:11:51 502
原创 Spark 2.1.0 入门:协同过滤算法(Python版)
导入需要的包from pyspark.ml.evaluation import RegressionEvaluatorfrom pyspark.ml.recommendation import ALSfrom pyspark.sql import Row根据数据结构创建读取规范创建一个函数,返回即[Int, Int, Float, Long]的对象def f(x):rel = {}...
2019-12-16 10:26:37 329
原创 数据机构与算法
数据结构:1,数据对象在计算机中的组织方式:逻辑结构(线性结构,树型结构(一对多),图型结构(多对多))。物理存储结构。2,数据对象必定与一系列加在其上的操作相关联。 3,完成这些操作所用的方法就是算法。...
2019-12-14 21:54:26 87
原创 推荐2
打印df结构信息df.printSchema()更改df表结构:更改列类型和列名称raw_sample_df = df.withColumn(“user”, df.user.cast(IntegerType())).withColumnRenamed(“user”, “userId”).withColumn(“time_stamp”, df.time_stamp.cast(LongTyp...
2019-12-10 14:36:43 89
原创 推荐
import os配置spark driver和pyspark运行时,所使用的python解释器路径由于miniconda3中默认存在一个python3.7的版本,jupyter默认也使用的是这个版本,故:设置pyspark的解释器为miniconda3的解释器PYSPARK_PYTHON = “/root/miniconda3/bin/python3”JAVA_HOME=’/root/b...
2019-12-10 11:28:00 424
原创 spark
2.2 创建DataFrame1,创建dataFrame的步骤 调用方法例如:spark.read.xxx方法2,其他方式创建dataframecreateDataFrame:pandas dataframe、list、RDD数据源:RDD、csv、json、parquet、orc、jdbcjsonDF = spark.read.json(“xxx.json”)jsonDF = s...
2019-12-01 21:18:11 163
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人