ls data -- 有3个文件夹
crawldb linkdb segments
ls data/crawldb -- 有2个文件夹:current old。其中old 做冗余备份
ls data/crawldb/current/ -- part-00000 ,由hadoop reduce 生成的文件夹
ls data/crawldb/current/part-00000/
-- data, index 。数据存储在data,index是对data中数据的一个索引
du -h data/crawldb/current/part-00000/
-- 查看文件夹part-00000的大小
du -h data/crawldb/current/part-00000/*
-- 查看文件夹part-00000中每个文件的大小
vi data/crawldb/current/part-00000/data -- 二进制文件
bin/nutch | grep read -- 查看文件的命令
readdb read / dump crawl db
readlinkdb read / dump link db
readseg