先给大家介绍两个爬虫的包,用起来不错的
获取方式:
pip install SpiderTool
这是下载的爬虫的包,这个包里面有两个文件Browser.py和Request.py,
具体得使用方法:
from SpiderTool.Browser import Browser
from SpiderTool.Request import Request
def test():
b = Browser()
b.get("https://www.baidu.com")
req = Request()
req.get("https://www.baidu.com")
为什么爬虫要介绍这个包,Browser这个包,对浏览器的抓取的火狐,谷歌,phantomjs进行了封装,封装过程中加入了代理的选择,请求的封装,界面与无界面的随意切换,非常方便,详细内容,建议大家下载这个包,下来直接创建实例,直接操作,这个包相当于只需掉接口就行了
Request这个包,除了家如何请求,代理,还引入了重试机制,例如抓取过程,响应失败了,那么会根据设定的次数,再次请求,如果返回500,那么根据设定的相应status进行重试,提高抓取几率,请求过程中,如果你想保存cookie访问,只需使用同一个Request对象即可,保持同一个session不变,保证了cookie,参数的设定与requests包设定一致,没有做改变,相当于减少了使用难度,只是在原有接触上额外增加爬虫需要的重试机制,和代理,请求
大家最好直接下载来试试
还有一个包是日志的包,对日志分割,日志周期循环做个封装,在下一篇文章中,将具体告诉大家怎么使用。
大家也可以先去看看这个包:
pip install loggingtool
from loggingtool import init_log
logging = init_log("test", "console", level="DEBUG")
logging.warn("warn...........")
由于刚开始写博客,还不知道怎么写好博客,先试试,后期会改进的哈