这里的笔记来源于对《用python写网络爬虫》的总结,写作以记录。
版本:python2.7
1、网站大小估计
在谷歌或百度中输入site:域名
例如
显示这个网站有1亿0720万个网页。
2、识别网站所用的技术
在爬去网站之前,了解网站使用的技术,会对爬去数据有一定的印象。这里使用builtwith模块来探测网上搭建的技术。
import builtwith
builtwith.parse("http://www.jianshu.com")
结果:
{u’javascript-frameworks’: [u’Prototype’, u’RequireJS’],
u’programming-languages’: [u’Ruby’],
u’web-frameworks’: [u’Twitter Bootstrap’, u’Ruby on Rails’]}
3、查看网站的拥有者
采用python-whois包,需要下载。