Python爬虫

最新推荐文章于 2024-08-06 11:55:39 发布

Mr.Lee jack

最新推荐文章于 2024-08-06 11:55:39 发布

阅读量1.4w

点赞数

分类专栏：爬虫文章标签： spider Python 爬虫 logging 日志

本文链接：https://blog.csdn.net/xzpdxz/article/details/84451353

版权

爬虫专栏收录该内容

6 篇文章 0 订阅

订阅专栏

先给大家介绍两个爬虫的包，用起来不错的
获取方式：

pip install SpiderTool

这是下载的爬虫的包，这个包里面有两个文件Browser.py和Request.py，
具体得使用方法：

from SpiderTool.Browser import Browser
from SpiderTool.Request import Request

def test():
	b = Browser()
	b.get("https://www.baidu.com")

	req = Request()
	req.get("https://www.baidu.com")

为什么爬虫要介绍这个包，Browser这个包，对浏览器的抓取的火狐，谷歌，phantomjs进行了封装，封装过程中加入了代理的选择，请求的封装，界面与无界面的随意切换，非常方便，详细内容，建议大家下载这个包，下来直接创建实例，直接操作，这个包相当于只需掉接口就行了
Request这个包，除了家如何请求，代理，还引入了重试机制，例如抓取过程，响应失败了，那么会根据设定的次数，再次请求，如果返回500，那么根据设定的相应status进行重试，提高抓取几率，请求过程中，如果你想保存cookie访问，只需使用同一个Request对象即可，保持同一个session不变，保证了cookie，参数的设定与requests包设定一致，没有做改变，相当于减少了使用难度，只是在原有接触上额外增加爬虫需要的重试机制，和代理，请求
大家最好直接下载来试试
还有一个包是日志的包，对日志分割，日志周期循环做个封装，在下一篇文章中，将具体告诉大家怎么使用。
大家也可以先去看看这个包：

pip install loggingtool

from loggingtool import init_log
logging = init_log("test", "console", level="DEBUG")
logging.warn("warn...........")

由于刚开始写博客，还不知道怎么写好博客，先试试，后期会改进的哈

Mr.Lee jack

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录