hadoop 运行时 ClassNotFoundException

最新推荐文章于 2024-10-09 10:53:13 发布

xiewenbo

最新推荐文章于 2024-10-09 10:53:13 发布

阅读量1.5k

点赞数

分类专栏： hadoop

hadoop 专栏收录该内容

104 篇文章 1 订阅

订阅专栏

本文详细介绍了Hadoop程序运行时出现的'java.lang.ClassNotFoundException'异常的原因及解决方法，包括在运行脚本中添加classpath、使用'-libjars'参数等，并提供了具体的代码示例和解决方案比较。

摘要由CSDN通过智能技术生成

1. 问题描述

当用户编写完Hadoop程序时，准备运行时，经常会抛出以下异常：

[15:10:41,949][ INFO][main][org.apache.hadoop.mapred.JobClient:1330] – Task Id : attempt_201202281244_0003_m_000000_1, Status : FAILED

Error: java.lang.ClassNotFoundException: com.sca.commons.ScaException

at java.net.URLClassLoader$1.run(URLClassLoader.java:202)

at java.security.AccessController.doPrivileged(Native Method)

at java.net.URLClassLoader.findClass(URLClassLoader.java:190)

at java.lang.ClassLoader.loadClass(ClassLoader.java:306)

at sun.misc.Launcher$AppClassLoader.loadClass(Launcher.java:301)

at java.lang.ClassLoader.loadClass(ClassLoader.java:247)

at java.lang.Class.forName0(Native Method)

at java.lang.Class.forName(Class.java:247)

at org.apache.hadoop.conf.Configuration.getClassByName(Configuration.java:819)

at org.apache.hadoop.conf.Configuration.getClass(Configuration.java:864)

at org.apache.hadoop.mapreduce.lib.map.MultithreadedMapper.getMapperClass(MultithreadedMapper.java:95)

at org.apache.hadoop.mapreduce.lib.map.MultithreadedMapper.run(MultithreadedMapper.java:127)

at org.apache.hadoop.mapred.MapTask.runNewMapper(MapTask.java:764)

at org.apache.hadoop.mapred.MapTask.run(MapTask.java:370)

at org.apache.hadoop.mapred.Child$4.run(Child.java:255)

at java.security.AccessController.doPrivileged(Native Method)

at javax.security.auth.Subject.doAs(Subject.java:396)

at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1083)

at org.apache.hadoop.mapred.Child.main(Child.java:249)

大家一看异常“java.lang.ClassNotFoundException”就会知道原因是找不到java类。

经个人总结，这通常是由于以下几种原因造成的：

（1）你编写了一个java lib，封装成了jar，然后再写了一个Hadoop程序，调用这个jar完成mapper和reducer的编写

（2）你编写了一个Hadoop程序，期间调用了一个第三方java lib。

之后，你将自己的jar包或者第三方java包分发到各个TaskTracker的HADOOP_HOME目录下，运行你的JAVA程序，报了以上错误。

2. 解决方法

（1）在运行脚本中添加classpath.

在$HADOOP_HOME/conf/hadoop_env.sh 或者$HADOOP_HOME/bin/hadoop-config.sh中添加：

export HADOOP_CLASSPATH=$HADOOP_HOME/my_jars

然后将你自己的jar包和第三方jar包分发到各个TaskTracker的HADOOP_CLASSPATH目录下（别忘了所有TaskTracker上的hadoop_env.sh和hadoop-config.sh均按以上方法添加HADOOP_CLASSPATH环境变量）

【注】hadoop_env.sh和hadoop-config.sh是所有hadoop运行脚本（start-all.sh, start-dfs.sh等）一定会引用的配置脚本，可以将一些最基本的环境变量或者配置参数加到这两个文件中。

（2）使用“-libjars“参数

这种方式是本人推荐的方法，但是支持这个功能，需要按照如下方式编写Hadoop程序：

 
        public  
        class  
        MyHadoopJob  
        extends  
        Configured  
        implements  
        Tool { 
       
        public 
         static 
         class  
         MapClass 
       
        extends 
         Mapper<LongWritable, Text, IntPair, IntWritable> { 
       
        //your mapper 
       
        } 
       
        public 
         static 
         class  
         Reduce 
       
        extends  
         Reducer<IntPair, IntWritable, Text, IntWritable> { 
       
        //your reducer 
       
        } 
       
        //设定并读取应用程序相关的，自己定义的一些参数 
       
        public 
         int 
         run(String[] args)   
        throws 
         Exception { 
       
        if 
        (args.length <  
        2 
        ) { 
       
        printUsage(); 
       
        return 
         2 
        ; 
       
        } 
       
        Job job =  
        new 
         Job(getConf()); 
       
        …...... 
       
        } 
       
        //真正的main函数 
       
        public 
         static 
         void 
         main(String[] args)  
        throws  
         Exception{ 
       
        int  
         res = ToolRunner.run( 
        new 
         Configuration(),  
        new 
         SleepJob(), args); 
       
        System.exit(res); 
       
        } 
       
        }

运行作业：

#run_myjob.sh

bin/hadoop jar myjob.jar MyHadoopJob \

-D mapred.job.name=MyHadoopJob \
-D mapred.map.tasks=24 \
-D mapred.mreduce.tasks=12 \
-D mapred.input.dir=/test/input1,test/input2 \
-D mapred.output.dir=/test/output \
-libjars myjob.jar,third-party.jar
-my1 5 \
-my2 china

运行./run_myjob.sh

其中 “-libjars“指定本地两个jar文件，Hadoop自动会把这两个文件分发到各个TaskTracker的临时工作目录下，用完后自动删除。