在Spark中,文件路径可以有多种不同的解释方式,具体取决于路径字符串的格式和内容。以下是Spark解释文件路径的可能方式,这里我们简单介绍本地路径与hdfs分布式存储路径的不同, 以便区分它们:
本地文件系统路径:
如果文件路径是绝对或相对于本地文件系统的路径,例如
/path/to/file
或
file:///path/to/file
Spark将解释为在本地(linux或windows等)文件系统中查找文件。
HDFS路径:
如果文件路径以
hdfs://<HDFS_SERVER>:<HDFS_PORT>/path/to/hdfs/file
格式开头,Spark将解释为HDFS路径,使用指定的HDFS服务器(<HDFS_SERVER>)和端口(<HDFS_PORT>)连接到HDFS文件系统。
如:
hdfs://master:8020/input/spark-wc