- 作者最近在学习python爬虫,在爬取微信文章这个实战项目中遇到了一些小问题,所以写这篇文章来记录一下,顺便分享一下爬取过程。
整体思路
- 我们选择从搜狗的微信界面(‘https://weixin.sogou.com/’)来获取微信文章的基本信息,由于搜狗有反爬措施,采用代理池,先将搜狗搜索的结果页的源码爬取,之后解析出这一页的文章链接,翻页,继续解析至最后一页,最后访问文章链接获取源码提取所需信息保存到MongoDB中
准备工作
- 代理池ProxyPool:代理池的作用是用来应对sougo的反爬虫措施,当你快速翻页时搜狗会跳出验证码识别,这时的网页请求会由200变成302的错误状态,这表示现在的ip被搜狗察觉并且不能再使用它来爬取。
代理池中有许多免费公开的ip,我们从代理池中不断获取ip来保证过程中有可用的ip供我们使用,这里使用的是github上公开的代理池代码附上链接,链接中有使用方法,大家可以自行下载运行:‘https://github.com/Python3WebSpider/ProxyPool’
- 第三方库:除了代理池的requirement.txt中的库,还需要用到re库(正则表达式库)requests库(get网页源码)BeautifulSoup(解析)pymongo(mongodb数据库存取)
- MongoDB数据库:非必须,可以选择其它的数据库或者文件类型存储
第一步:获取搜索结果界面的源码
- 由于是静态页面,用requests库就可以很方便的爬取,但需要注意两点:1.搜索中如果不登录vx只能爬取十页的内容 2.需要在出现302的状态码时从代理池中获取新的ip
- 解决第一个问题需要对headers进行设置,这里简单得设置User-Agent和Cookie达到需求
- 解决第二个问题采用从代理池的端口中获取ip
- 附代码及注释:
proxy_url = 'http://127.0.0.1:5555/random'
proxy_ip = None
base_url ='https://weixin.sogou.com/weixin'
headers = {
'Cookie':'自己的cookie',
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36'
}
keyword = '风景'
def get_proxy_ip():
"""
从代理池的端口获取代理ip
:return: 代理ip
"""
try:
req = requests.get(proxy_url)
if req.status_code == 200:
return req.text
return None
except ConnectionError:
return None
def get_html(url,ke):
"""
:param url: 搜狗微信的前缀
:param ke: 搜索的关键词和页数信息
:return: 页面的源码
"""
global proxy_ip
try:
proxy_ip = get_proxy_ip()
proxies = {
'http'