![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
QueenieK
这个作者很懒,什么都没留下…
展开
-
python的dataframe与pyspark的dataframe
一、pyspark对dataframe的修改列值1.python对dataframe的处理# 对id列数据全部转换成utf-8编码df['id_tmp'] = df['id'].apply(lambda x: x.encode('utf-8')) 2.pyspark对dataframe的处理# 对id列数据全部转换成utf-8编码from pyspark.sql.functions import coldf = df.withColumn('id', col('id').encode('ut原创 2021-04-12 16:44:08 · 496 阅读 · 0 评论 -
pyspark读取csv和保存csv文件
1、读取csv文件为dataframe格式val data_left_ori = spark.read .option("inferSchema","true")//自动推导数据类型 .option("header","true")//读取列名 .csv("/user/root/image.csv")//文件路径2、dataframe数据保存为csv文件data.coalesce(1)//文件分区设置为1 .write.mode("overwrite")//保存方式为原创 2021-04-11 17:24:02 · 9720 阅读 · 0 评论 -
spark读取数据以及不同的处理方式与步骤
1.读取hive表中log数据,生成特征(1). 读取sql,转换成数值RDD SQL="""SELECT ID, NAME, SCORE FROM TABLE """ job_name = 'extract data' conf = SparkConf().setMaster("local").setAppName("My App") sc = SparkContext(conf = conf) hc = HiveContext(sc) sql_data原创 2021-03-01 16:41:24 · 982 阅读 · 0 评论 -
python与spark编码方式
环境:python2.7pyspark 2.4.3用python读入一个字典,然后对spark SQL dataframe对中文做处理的时候,匹配不到,这个是中文编码问题。python2.x 可用utf-8编码,但是pyspark是用unicode编码的,所以涉及数据交互的时候必须用进行编码和解码;python2.x 的中文是utf-8编码,需要 x.decode(“utf-8”) 转换为 unicode;pyspark 的中文是unicode编码,转换的话可用 x.encode(“转载 2021-02-25 14:46:19 · 560 阅读 · 0 评论 -
Spark之中map与flatMap的区别
一直不太明白spark之中map与flatMap之间的区别。map的作用很容易理解就是对rdd之中的元素进行逐一进行函数操作映射为另外一个rdd。flatMap的操作是将函数应用于rdd之中的每一个元素,将返回的迭代器的所有内容构成新的rdd。通常用来切分单词。 区别1: f...转载 2021-02-22 11:21:02 · 135 阅读 · 0 评论 -
HIVE表读数据并转成dict
1. 从HIVE表读数据并转成dictfrom pyspark import SparkContextfrom pyspark.sql import HiveContext,SparkSessionsc = SparkContext()sql_context = HiveContext(sc)sql_data = sqlContext.sql("SELECT key,value1,value2,value3 from db.table")sql_data_rdd = sql_data.rdd.原创 2021-02-20 17:04:13 · 765 阅读 · 1 评论