爬取的内容为百度招聘页面下的python 杭州地区
所要爬取的内容
一共爬取的是6个字段
1 招聘岗位 2 招聘城市 3 招聘公司 4 招聘薪资 5 招聘日期 6 招聘来源网站
用的是selenium + beautifulsoup + mongodb + re 模块进行爬取的内容
总体上难度不是很大,内容清除也不是很完整,记不住的或者没有记牢固的一边百度,一边加深印象。总体来说还是爬取出来了了
问题总结: 不知道是不是多进程结合selenium 爬取是不是不行,然后试着用了,我也不知道里面的原理是怎么回事,这次是自己初次入门,能力还是不足,mongodb使用的时候也不知道为什么开启了服务,但是插入数据老是插不进去,可能是被锁住了,但是删除锁之后还是会出现问题,也不知道后来问题是怎么解决的,也就那样好的吧。
在使用selenium 跳转到下一页的时候,根据get_element_byxpath(xxx) 里面的id 会根据页面的变化而变化的。如下图,可以自己亲测一下
总的值有1,2,3 昨晚弄的也是有点急什么的,不过最后爬取出来
看下爬取成果,总共586条,确实对应上了第一张图片上的586,
没有重复度。
最后贴上源代码:
# encoding=utf8
import re
import time
from selenium import webdriver
from selenium.webdriver.co