spark 读取hadoop 格式的文件

该博客展示了如何在Scala中使用Spark从Hadoop文件系统(HDFS)读取文本文件。通过创建SparkConf和SparkContext,然后使用hadoopFile方法以TextInputFormat读取文件,最终进行依赖检查和数据计数。
摘要由CSDN通过智能技术生成
package xunw
import org.apache.spark.SparkContext
import org.apache.spark.SparkContext._
import org.apache.spark.SparkConf
import org.apache.spark.rdd.HadoopRDD;
import org.apache.spark.rdd.ShuffledRDD;
import org.apache.hadoop.io.{LongWritable,Text}
import org.apache.hadoop.mapred.TextInputFormat
import scala.Tuple2
import java.util._
object wc {
  def main(args: Array[String]) {
    val path = "/home/xunw/data/tmp.txt" // Should be some file on your system
    //val logFile = "hdfs://192.168.1.24:9000/user/xunw/tmp.txt"
    //val sc = new SparkContext("spark://192.168.1.24:7077", "wc",System.getenv("SPARK_HOME"), Seq("/home/xunw/mySpark.jar"))
    val conf = new SparkConf().setMaster("local[4]").setAppName("hdd");
    val sc = new SparkContext(conf)
   // val hrdd = new HadoopRDD(sc,conf,)
  //val hrdd = sc.hadoopFile[LongW](path)
   val file = sc.hadoopFil
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值