eclipse中读取nutch爬取的数据内容

最近在研究Nutcha的爬虫和解析,在windows中利用cygwin执行nutch爬取网页。

那么爬取到的数据如何取到自己的程序中来使用呢?

参考了以下博主的内容,不过博主太懒没有任何文字描述。

读取nutch爬取的数据内容

http://blog.csdn.net/java_boke/article/details/7789160


将上面的代码拷到自己的程序中(eclipse),还需要导入hadoop相关的jar包,

我是在下面的官网下载了hadoop-1.0.3.tar.gz,然后用cygwin执行解压命令( tar -xzvf hadoop-1.0.3.tar.gz  hadoop-1.0.3 )。

http://archive.apache.org/dist/hadoop/core/


将解压后得到的lib文件中所有jar文件全部加到eclipse工程中,最后还要加入

hadoop-core-1.2.0.jar

nutch-1.2.jar


再有就是别忘记修改61行代码里data的正确目录,就是爬下来的数据

L61:String file = "C:/nutch-1.0/crawled/segments/20100624073431/content/part-00000/data";  

然后就可以执行class了。


  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值