pyspark读取win10上的hdfs中的csv数据。

ydd0054

于 2021-10-26 16:46:11 发布

阅读量948

点赞数

文章标签： spark hdfs hadoop

本文链接：https://blog.csdn.net/ydd0054/article/details/120975410

版权

1、首先用命令启动hadoop：start-all.cmd。在hadoop下的sbin文件夹。

2、hadoop fs -put D:/pf/bigdata/hadoopdata/test /test

3、访问http://localhost:50070/explorer.html#

可以看到数据已经上传到hdfs中。

4、执行相应的代码。

from pyspark.sql import SparkSession

spark = SparkSession.builder.getOrCreate()
    
spark.read.csv('hdfs://localhost:9000/test/testcsv.csv', header=True).show()

注意这里是9000端口，不是8020.这里跟你core_site.xml配置的端口相同。

<configuration>

    <property>

        <name>fs.defaultFS</name>

        <value>hdfs://localhost:9000</value>

    </property>

</configuration>

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

ydd0054

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
pyspark读取win10上的hdfs中的csv数据。

1、首先用命令启动hadoop：start-all.cmd。在hadoop下的sbin文件夹。2、hadoop fs -put D:/pf/bigdata/hadoopdata/test /test3、访问http://localhost:50070/explorer.html#可以看到数据已经上传到hdfs中。4、执行相应的代码。from pyspark.sql import SparkSessionspark = SparkSession.builder.getOrCr
复制链接

扫一扫