Mongodb的文档在集合层面可以保证ID唯一性,但是ID的生成相对普通自增长的S ql数据库复杂得多,是否会成为一个慢的瓶颈
Mongodb的数据类型要考虑shell所使用的javascript的表达能力,尤其是数字类型
内存数据库Berkeley DB
主要用于爬虫中url队列的实现
下载安装后还需要一个je库,地址为:
http://pwcrab.blog.163.com/blog/static/169903822201010104359971/
开源垂直爬虫框架:
webmagic github
https://github.com/code4craft/webmagic/blob/master/user-manual.md