Nutch 查看抓取的文件

本文详细介绍了如何使用 Nutch 查看和分析抓取的数据,包括对 crawldb、linkdb 和 segments 的操作。通过 `bin/nutch` 命令,如 readdb、readlinkdb 和 readseg,可以导出数据、查看指定 URL 信息以及提取高分 URL。同时展示了如何查看不同阶段的数据,如 fetch、parse 等。
摘要由CSDN通过智能技术生成
ls data           -- 有3个文件夹
crawldb  linkdb  segments

ls data/crawldb   -- 有2个文件夹:current  old。其中old 做冗余备份

ls data/crawldb/current/   -- part-00000 ,由hadoop reduce 生成的文件夹

ls data/crawldb/current/part-00000/  
-- data, index 。数据存储在data,index是对data中数据的一个索引

du -h data/crawldb/current/part-00000/
-- 查看文件夹part-00000的大小

du -h data/crawldb/current/part-00000/*
-- 查看文件夹part-00000中每个文件的大小

vi data/crawldb/current/part-00000/data  -- 二进制文件

bin/nutch | grep read          -- 查看文件的命令
  readdb            read / dump crawl db
  readlinkdb        read / dump link db
  readseg           read / dump segment data

ls data                   -- 3个read 命令分别对应3个文件夹
crawldb  linkdb  segments

bin/nutch readdb
Usage: CrawlDbReader <crawldb> (-stats | -dump <out_dir> | -topN <nnnn> <out_dir> [<min>] | -url <url>)
其中, CrawlDbReader 表示命令使用的java类。
bin/nutch readdb data/crawldb -dump data/crawldb/crawldb_dump   -- 二进制文件导出为文本文件
ls data/crawldb/crawldb_dump/
vi data/crawldb/crawldb_dump/part-00000
:/db_fetched      -- 查找一个抓取过的路径,如:http://bj.tianya.cn/ 
bin/nutch readdb data/crawldb -url http://bj.tianya.cn/   -- 查看指定URL信息
bin/nutch readdb data/crawldb -topN 10 data/crawldb/crawldb_topN
-- 提取指定条数数据到某一个目录
vi data/crawldb/crawldb_topN/part-00000      -- 显示了10行URL, 第1列为分值 
bin/nutch readdb data/crawldb -topN 10 data/crawldb/crawldb_topN 1    -- 最后1个参数为最小分值限制
会抛出异常,需要更换一个目录
bin/nutch readdb data/crawldb -topN 10 data/crawldb/crawldb_topN_min 1   -- 显示分值大于等于1的URL
vi data/crawldb/crawldb_topN_min/part-00000



ls data/segments/
-- 每执行一轮抓取,都会生成一个文件夹,以当前时间命名
ls data/segments/20130418224204
content  crawl_fetch  crawl_generate  crawl_parse  parse_data  parse_text
bin/nutch readseg
Usage: SegmentReader -dump <segment_dir> <output> [general options]
-nocontent      ignore content directory
        -nofetch        ignore crawl_fetch directory
        -nogenerate     ignore crawl_generate directory
        -noparse        ignore crawl_parse directory
        -noparsedata    ignore parse_data directory
        -noparsetext    ignore parse_text directory
bin/nutch readseg -dump data/segments/20130418224204 data/segments/20130418224204_dump -nocontent  -nofetch -noparse -noparsedata -noparsetext
-- 只输出generate
ls data/segments/20130418224204_dump     -- 只有1个文件:dump
vi data/segments/20130418224204_dump/dump  -- 第1次抓取只有1个URL

bin/nutch readseg -dump data/segments/20130418224204 data/segments/20130418224204_dump_crawl_fetch -nocontent  -nogenerate -noparse -noparsedata -noparsetext
vi data/segments/20130418224204_dump_crawl_fetch/dump

bin/nutch readseg -dump data/segments/20130418224204 data/segments/20130418224204_dump_crawl_content -nofetch  -nogenerate -noparse -noparsedata -noparsetext
vi data/segments/20130418224204_dump_crawl_content/dump    -- 抓取到的HTML源代码

bin/nutch readseg -dump data/segments/20130418224204 data/segments/20130418224204_dump_crawl_parse -nofetch  -nogenerate -nocontent -noparsedata -noparsetext
vi data/segments/20130418224204_dump_crawl_parse/dump   -- 没有内容,因为抓取的网页,被重定向到其它页面上了

bin/nutch readseg -dump data/segments/20130418224204 data/segments/20130418224204_dump_crawl_parse -nofetch  -nogenerate -nocontent -noparse -noparsetext
vi data/segments/20130418224204_dump_crawl_parse/dump   -- 没有内容

bin/nutch readseg -dump data/segments/20130418224204 data/segments/20130418224204_dump_crawl_parse -nofetch  -nogenerate -nocontent -noparse -noparsedata
vi data/segments/20130418224204_dump_crawl_parse/dump   -- 没有内容


bin/nutch readseg
* SegmentReader -list (<segment_dir1> ... | -dir <segments>) [general options]

bin/nutch readseg -list -dir data/segments/
bin/nutch readseg -list data/segments/20130418224204
bin/nutch readseg -get data/segments/20130418224204 http://blog.tianya.cn/        
-- 最后一个参数为特定的URL,注意:最后要有一个反斜杠。查看指定URL的抓取信息


bin/nutch readlinkdb
Usage: LinkDbReader <linkdb> (-dump <out_dir> | -url <url>)
        -dump <out_dir> dump whole link db to a text file in <out_dir>
        -url <url>      print information about <url> to System.out

bin/nutch readlinkdb data/linkdb -dump data/linkdb_dump
-- 以文本方式查看
ls data/linkdb_dump
vi data/linkdb_dump/part-00000            -- 没有缩进的为特定的key RUL


bin/nutch readlinkdb data/linkdb -url http://apps.tianya.cn/  
-- 查看指定的URL

bin/nutch readlinkdb data/linkdb -url http://apps.tianya.cn/ | wc -l
-- 统计条数
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值