python爬虫
lion_zhou
这个作者很懒,什么都没留下…
展开
-
python scrapy学习-(1)
遇到问题1:write() argument must be str, not bytes 对应的源码为 def parse(self, response): filename = "teacher.html" open(filename, 'w').write(response.body) 原因:打开文件的格式有问题,追加一个打开文件的格式参数b+...原创 2019-12-09 15:40:19 · 143 阅读 · 0 评论 -
python 使用lxml requests抓取某网站的帮助文档-----多线程处理
对于多线程的处理,我们先考虑脚本自身,所有的抓取都是基于categoryid的,所以我们可以考虑做一个任务队列,生产者负责把id推送到队列(Queue.put),消费者负责从队列读取id,来进行文件的读取和下载。(Queue.get()) 这样,我们就要改造之前的脚本,先定义一个队列Q_example=Queue() ,在categoryId函数中,把获取到的id都put到Q_example中。...原创 2019-12-09 11:01:10 · 222 阅读 · 0 评论 -
python 使用lxml requests抓取某网站的帮助文档
目标网站 http://help.tongtool.com/service.html?groupId=2 抓取的数据分析:先从html源代码分析,发现帮助文档的内容,都不存在于源代码中,所以不能直接用request.get("http://help.tongtool.com/service.html?groupId=2")来获取了。F12查看接口请求信息,一共包含两个请求url http://...原创 2019-12-06 19:36:25 · 303 阅读 · 0 评论