nutch solr系列之(二)nutch命令分析

1、$ ./nutch readdb crawlDir/crawldb/ -stats
此命令用来统计crawldb中链接的数量,以及fetch过的链接数量和未fetch过的链接数量

Administrator@Magic /home/apache-nutch-1.9/bin
$ ./nutch readdb crawlDir/crawldb/ -stats
CrawlDb statistics start: crawlDir/crawldb/
Statistics for CrawlDb: crawlDir/crawldb/
TOTAL urls: 3568
retry 0: 3567
retry 1: 1
min score: 0.0
avg score: 8.7107625E-4
max score: 1.133
status 1 (db_unfetched): 2982
status 2 (db_fetched): 586
CrawlDb statistics: done

2、$ ./nutch readdb crawlDir/crawldb/ -dump crawldb
此命令用户导出链接的信息到crawldb文件夹中,里面记录了每个链接的详细信息

Administrator@Magic /home/apache-nutch-1.9/bin
$ ./nutch readdb crawlDir/crawldb/ -dump crawldb
CrawlDb dump: starting
CrawlDb db: crawlDir/crawldb/
CrawlDb dump: done

3、$ ./nutch readdb crawlDir/crawldb/ -url http://cs.fang.lianjia.com/
此命令用来分析某一个链接的信息

Administrator@Magic /home/apache-nutch-1.9/bin
$ ./nutch readdb crawlDir/crawldb/ -url http://cs.fang.lianjia.com/
URL: http://cs.fang.lianjia.com/
Version: 7
Status: 2 (db_fetched)
Fetch time: Tue Nov 14 21:37:39 CST 2017
Modified time: Thu Jan 01 08:00:00 CST 1970
Retries since fetch: 0
Retry interval: 2592000 seconds (30 days)
Score: 1.1338482
Signature: dc19d8253ee5b3af82535b28e422d45a
Metadata:
_pst_=success(1), lastModified=0
_rs_=344
Content-Type=text/html

4、$ ./nutch readlinkdb crawlDir/linkdb/ -dump linkdb
此命令用来导出网页所有的链接(这次实验中没有产生网页的链接)

Administrator@Magic /home/apache-nutch-1.9/bin
$ ./nutch readlinkdb crawlDir/linkdb/ -dump linkdb
LinkDb dump: starting at 2017-10-17 20:05:22
LinkDb dump: db: crawlDir/linkdb/
LinkDb dump: finished at 2017-10-17 20:05:24, elapsed: 00:00:01

5、$ ./nutch readseg -list -dir crawlDir/segments/
此命令用来读取segments的统计信息

Administrator@Magic /home/apache-nutch-1.9/bin
$ ./nutch readseg -list -dir crawlDir/segments/
NAME GENERATED FETCHER START FETCHER END FETCHED PARSED
20171015213734 1 2017-10-15T21:37:39 2017-10-15T21:37:39 1 1
20171015213808 50 2017-10-15T21:38:14 2017-10-15T21:42:55 50 50
20171015214329 536 2017-10-15T21:43:35 2017-10-15T22:35:05 536 535

6
$ ./nutch readseg -dump crawlDir/segments/20171015213734 segdb12 -locale zh_CN
或者$ ./nutch readseg -dump crawlDir/segments/20171015213734 segdb12
-locale zh_CN 参数可以省略
此命令为将segments下面的内容导出为纯文件(包含网页内容)到文件夹segdb12 下(此次实验中部分中文乱码)

Administrator@Magic /home/apache-nutch-1.9/bin
$ ./nutch readseg -dump crawlDir/segments/20171015213734 segdb12 -locale zh_CN
SegmentReader: dump segment: crawlDir/segments/20171015213734
SegmentReader: done

通过这个可以看到segment文件内容分为CrawlDatum、Content、ParseData、ParseText四部分
CrawlDatum:
保存的是抓取的基本信息,相当于查看crawldb数据库时所的到的信息,对应于generate/fetch/update循环中的update环节
Content:
保存的是fetcher所抓取回来的源内容,也就是Html脚本(默认是由protocol-httpclient插件来处理的),可以直接查看网页进行对比
ParseData和ParseText:
这两部分就是解析内容,通过使用合适的解析器解析插件(这里就是parst-html),将源内容进行解析,用于indexes产生对应的索引





基于bert实现关系三元组抽取python源码+数据集+项目说明.zip基于bert实现关系三元组抽取python源码+数据集+项目说明.zip基于bert实现关系三元组抽取python源码+数据集+项目说明.zip基于bert实现关系三元组抽取python源码+数据集+项目说明.zip基于bert实现关系三元组抽取python源码+数据集+项目说明.zip 个人大四的毕业设计、课程设计、作业、经导师指导并认可通过的高分设计项目,评审平均分达96.5分。主要针对计算机相关专业的正在做毕设的学生和需要项目实战练习的学习者,也可作为课程设计、期末大作业。 [资源说明] 不懂运行,下载完可以私聊问,可远程教学 该资源内项目源码是个人的毕设或者课设、作业,代码都测试ok,都是运行成功后才上传资源,答辩评审平均分达到96.5分,放心下载使用! 1、该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的,请放心下载使用! 2、本项目适合计算机相关专业(如计科、人工智能、通信工程、自动化、电子信息等)的在校学生、老师或者企业员工下载学习,也适合小白学习进阶,当然也可作为毕设项目、课程设计、作业、项目初期立项演示等。 3、如果基础还行,也可在此代码基础上进行修改,以实现其他功能,也可用于毕设、课设、作业等。 下载后请首先打开README.md文件(如有),供学习参考。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值