爬虫
土豆家的地瓜啊
这个作者很懒,什么都没留下…
展开
-
使用requests和xpath爬取豆瓣top250电影
1 网页分析 一页有25部电影,第一页start= ,第二页是从start=25开始,分析出start的作用,只需要10个循环,便可访问到250部电影的所有页面。 通过分析网页源码,我们可以看到,所有电影都归到[ol]标签下。 每一个[li]下包含一部电影。以下图为例,分析出对应关系后,便可以针对性的提取出想要的信息。 2 代码展示 import requests from lxml impo...原创 2019-05-06 23:19:57 · 1594 阅读 · 0 评论 -
python 使用multiprocessing进行多进程爬虫
python 多进程模块multiprocessing 概述 multiprocessing 是一个用与 threading 模块相似API的支持产生进程的包。 multiprocessing 包同时提供本地和远程并发,使用子进程代替线程,有效避免 Global Interpreter Lock 带来的影响。因此,multiprocessing 模块允许程序员充分利用机器上的多个核心。Unix ...原创 2019-09-07 11:20:50 · 1095 阅读 · 0 评论 -
以爬取知乎为例,进行python 多进程爬虫性能分析
以爬取知乎为例,进行python 多进程爬虫性能分析 如果对多进程multiproessing模块不熟悉,请先浏览 python 使用multiprocessing模块进行多进程爬虫 问题背景: 爬取知乎赞同超过10K的回答集合内的问题 分别采用以下策略爬取,对性能进行分析,并考虑对临界资源互斥访问 单进程爬取 多进程process爬取 多进程Pool爬取 单进程爬取 爬取前50页 代码:...原创 2019-09-07 14:12:10 · 1659 阅读 · 1 评论 -
实战 pyton多进程爬取知乎合集页面并保存
实战 pyton多进程爬取知乎合集页面并保存 目标: 爬取知乎合集赞同超过10k的回答下的所有回答。 1.存入mongoDB数据库 2.以markdown存入文件夹 代码: #-*- coding:utf-8 -*- import requests from lxml import etree import html2text from multiprocessing import Pool im...原创 2019-09-11 14:58:39 · 253 阅读 · 0 评论