Nutch 查看抓取的文件

最新推荐文章于 2021-12-23 22:39:01 发布

zhaoyue007101

最新推荐文章于 2021-12-23 22:39:01 发布

阅读量2.1k

点赞数

分类专栏： nutch hadoop

本文链接：https://blog.csdn.net/zhaoyue007101/article/details/49779991

版权

hadoop 同时被 2 个专栏收录

17 篇文章 0 订阅

订阅专栏

nutch

4 篇文章 0 订阅

订阅专栏

本文详细介绍了如何使用 Nutch 查看和分析抓取的数据，包括对 crawldb、linkdb 和 segments 的操作。通过 `bin/nutch` 命令，如 readdb、readlinkdb 和 readseg，可以导出数据、查看指定 URL 信息以及提取高分 URL。同时展示了如何查看不同阶段的数据，如 fetch、parse 等。

摘要由CSDN通过智能技术生成

ls data -- 有3个文件夹

crawldb linkdb segments

ls data/crawldb -- 有2个文件夹：current old。其中old 做冗余备份

ls data/crawldb/current/ -- part-00000 ，由hadoop reduce 生成的文件夹

ls data/crawldb/current/part-00000/

-- data, index 。数据存储在data，index是对data中数据的一个索引

du -h data/crawldb/current/part-00000/

-- 查看文件夹part-00000的大小

du -h data/crawldb/current/part-00000/*

-- 查看文件夹part-00000中每个文件的大小

vi data/crawldb/current/part-00000/data -- 二进制文件

bin/nutch | grep read -- 查看文件的命令

readdb read / dump crawl db

readlinkdb read / dump link db

readseg read / dump segment data

ls data -- 3个read 命令分别对应3个文件夹

crawldb linkdb segments

bin/nutch readdb

Usage: CrawlDbReader <crawldb> (-stats | -dump <out_dir> | -topN <nnnn> <out_dir> [<min>] | -url <url>)

其中, CrawlDbReader 表示命令使用的java类。

bin/nutch readdb data/crawldb -dump data/crawldb/crawldb_dump -- 二进制文件导出为文本文件

ls data/crawldb/crawldb_dump/

vi data/crawldb/crawldb_dump/part-00000

:/db_fetched -- 查找一个抓取过的路径，如：http://bj.tianya.cn/

bin/nutch readdb data/crawldb -url http://bj.tianya.cn/ -- 查看指定URL信息

bin/nutch readdb data/crawldb -topN 10 data/crawldb/crawldb_topN

-- 提取指定条数数据到某一个目录

vi data/crawldb/crawldb_topN/part-00000 -- 显示了10行URL, 第1列为分值

bin/nutch readdb data/crawldb -topN 10 data/crawldb/crawldb_topN 1 -- 最后1个参数为最小分值限制

会抛出异常，需要更换一个目录

bin/nutch readdb data/crawldb -topN 10 data/crawldb/crawldb_topN_min 1 -- 显示分值大于等于1的URL

vi data/crawldb/crawldb_topN_min/part-00000

ls data/segments/

-- 每执行一轮抓取，都会生成一个文件夹，以当前时间命名

ls data/segments/20130418224204

content crawl_fetch crawl_generate crawl_parse parse_data parse_text

bin/nutch readseg

Usage: SegmentReader -dump <segment_dir> <output> [general options]

-nocontent ignore content directory

-nofetch ignore crawl_fetch directory

-nogenerate ignore crawl_generate directory

-noparse ignore crawl_parse directory

-noparsedata ignore parse_data directory

-noparsetext ignore parse_text directory

bin/nutch readseg -dump data/segments/20130418224204 data/segments/20130418224204_dump -nocontent -nofetch -noparse -noparsedata -noparsetext

-- 只输出generate

ls data/segments/20130418224204_dump -- 只有1个文件：dump

vi data/segments/20130418224204_dump/dump -- 第1次抓取只有1个URL

bin/nutch readseg -dump data/segments/20130418224204 data/segments/20130418224204_dump_crawl_fetch -nocontent -nogenerate -noparse -noparsedata -noparsetext

vi data/segments/20130418224204_dump_crawl_fetch/dump

bin/nutch readseg -dump data/segments/20130418224204 data/segments/20130418224204_dump_crawl_content -nofetch -nogenerate -noparse -noparsedata -noparsetext

vi data/segments/20130418224204_dump_crawl_content/dump -- 抓取到的HTML源代码

bin/nutch readseg -dump data/segments/20130418224204 data/segments/20130418224204_dump_crawl_parse -nofetch -nogenerate -nocontent -noparsedata -noparsetext

vi data/segments/20130418224204_dump_crawl_parse/dump -- 没有内容，因为抓取的网页，被重定向到其它页面上了

bin/nutch readseg -dump data/segments/20130418224204 data/segments/20130418224204_dump_crawl_parse -nofetch -nogenerate -nocontent -noparse -noparsetext

vi data/segments/20130418224204_dump_crawl_parse/dump -- 没有内容

bin/nutch readseg -dump data/segments/20130418224204 data/segments/20130418224204_dump_crawl_parse -nofetch -nogenerate -nocontent -noparse -noparsedata

vi data/segments/20130418224204_dump_crawl_parse/dump -- 没有内容

bin/nutch readseg

* SegmentReader -list (<segment_dir1> ... | -dir <segments>) [general options]

bin/nutch readseg -list -dir data/segments/

bin/nutch readseg -list data/segments/20130418224204

bin/nutch readseg -get data/segments/20130418224204 http://blog.tianya.cn/

-- 最后一个参数为特定的URL，注意：最后要有一个反斜杠。查看指定URL的抓取信息

bin/nutch readlinkdb

Usage: LinkDbReader <linkdb> (-dump <out_dir> | -url <url>)

-dump <out_dir> dump whole link db to a text file in <out_dir>

-url <url> print information about <url> to System.out

bin/nutch readlinkdb data/linkdb -dump data/linkdb_dump

-- 以文本方式查看

ls data/linkdb_dump

vi data/linkdb_dump/part-00000 -- 没有缩进的为特定的key RUL

bin/nutch readlinkdb data/linkdb -url http://apps.tianya.cn/

-- 查看指定的URL

bin/nutch readlinkdb data/linkdb -url http://apps.tianya.cn/ | wc -l

-- 统计条数

zhaoyue007101

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Nutch 查看抓取的文件

ls data -- 有3个文件夹crawldb linkdb segmentsls data/crawldb -- 有2个文件夹：current old。其中old 做冗余备份ls data/crawldb/current/ -- part-00000 ，由hadoop reduce 生成的文件夹
复制链接

扫一扫

专栏目录