python3 [爬虫入门实战] 爬虫之使用selenium 爬取百度招聘内容并存mongodb

最新推荐文章于 2024-08-27 17:30:34 发布

xudailong_blog

最新推荐文章于 2024-08-27 17:30:34 发布

阅读量3.1k

点赞数 2

分类专栏： # python3爬虫我的python3爬虫之路文章标签： mongodb python 爬虫 selenium 百度

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xudailong_blog/article/details/74641450

版权

本文介绍了使用Selenium、BeautifulSoup和MongoDB爬取并存储百度招聘杭州地区Python岗位的过程。遇到的问题包括多进程与Selenium结合的不确定性、MongoDB数据插入问题等，最终成功获取586条无重复数据。

摘要由CSDN通过智能技术生成

爬取的内容为百度招聘页面下的python 杭州地区

所要爬取的内容

这里写图片描述

一共爬取的是6个字段
1 招聘岗位 2 招聘城市 3 招聘公司 4 招聘薪资 5 招聘日期 6 招聘来源网站

用的是selenium + beautifulsoup + mongodb + re 模块进行爬取的内容

总体上难度不是很大，内容清除也不是很完整，记不住的或者没有记牢固的一边百度，一边加深印象。总体来说还是爬取出来了了

问题总结: 不知道是不是多进程结合selenium 爬取是不是不行，然后试着用了，我也不知道里面的原理是怎么回事，这次是自己初次入门，能力还是不足，mongodb使用的时候也不知道为什么开启了服务，但是插入数据老是插不进去，可能是被锁住了，但是删除锁之后还是会出现问题，也不知道后来问题是怎么解决的，也就那样好的吧。

在使用selenium 跳转到下一页的时候，根据get_element_byxpath(xxx) 里面的id 会根据页面的变化而变化的。如下图，可以自己亲测一下

这里写图片描述

总的值有1,2，3 昨晚弄的也是有点急什么的，不过最后爬取出来

看下爬取成果，总共586条，确实对应上了第一张图片上的586，
没有重复度。
这里写图片描述

最后贴上源代码：

# encoding=utf8
import re
import time

from selenium import webdriver
from selenium.webdriver.co

最低0.47元/天解锁文章

关注

2
点赞
踩
10

收藏

觉得还不错? 一键收藏
3
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。