Python-selenium爬取最新版可用某网职位爬取数据

👽发现宝藏

前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。【点击进入巨牛的人工智能学习网站】。

一.selenium详解

Selenium 是一个用于自动化浏览器操作的工具,主要用于Web应用程序测试,但也可以用于其他用途,如数据挖掘、自动化任务等。它提供了一种通过浏览器模拟用户操作的方式,可以执行各种操作,如点击按钮、填写表单、导航到不同的页面等。以下是有关 Selenium 的详细信息:

  1. Selenium的组成部分:

a. Selenium WebDriver:

  • Selenium WebDriver 是 Selenium 的核心组件,它提供了一系列的API,允许你以编程方式控制浏览器。常见的浏览器驱动程序包括 ChromeDriver、GeckoDriver(Firefox)、EdgeDriver等。

b. Selenium Grid:

  • Selenium Grid 允许在多台计算机上同时运行测试脚本,可以实现并行测试和分布式测试。
  1. Selenium支持的语言:

    • Selenium 提供了多种编程语言的客户端库,包括 Java、Python、C#、Ruby、JavaScript。你可以选择最熟悉的语言来编写测试脚本。
  2. 基本的Selenium用法:

a. 安装 Selenium WebDriver:

  • 下载并安装浏览器对应的驱动程序(比如 ChromeDriver)。
  • 安装 Selenium 客户端库,可以通过包管理工具(如 pip、npm)安装。

b. 创建 WebDriver 实例:

from selenium import webdriver

# 创建 Chrome WebDriver 实例
driver = webdriver.Chrome()

c. 打开网页:

# 打开网页
driver.get("https://www.example.com")

d. 查找元素:

# 通过 ID 查找元素
element = driver.find_element_by_id("element_id")

# 通过标签名查找元素
elements = driver.find_elements_by_tag_name("tag_name")

e. 执行操作:

# 点击按钮
element.click()

# 填写表单
element.send_keys("input_text")

f. 关闭浏览器:

# 关闭当前窗口
driver.close()

# 退出整个 WebDriver 会话
driver.quit()
  1. 处理等待:

等待是 Selenium 中的一个关键概念,确保在进行操作之前或之后等待一段时间,以便确保页面元素已加载完毕。

from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

# 等待元素可见
element = WebDriverWait(driver, 10).until(
    EC.visibility_of_element_located((By.ID, "element_id"))
)
  1. 高级用法:

a. 处理浏览器弹窗:

# 切换到弹窗
alert = driver.switch_to.alert
# 处理弹窗
alert.accept()  # 确认
alert.dismiss()  # 取消

b. 模拟键盘操作:

from selenium.webdriver.common.keys import Keys

# 模拟按键
element.send_keys(Keys.ENTER)

c. 执行JavaScript代码:

# 执行JavaScript
driver.execute_script("alert('Hello, Selenium!');")

这是 Selenium 的基本用法和一些常见操作的介绍。

二.某网职位爬取

共计8000组数据,需要数据和代码的,请到以下链接获取:

https://download.csdn.net/download/weixin_52908342/87263841

众所周知,现在反爬机制特别严重,我们想要爬取一些职位数据是难上加难,所以我们现在使用selenium模拟真人操作网页爬取这个某勾网的职位。

我选用selenium模拟真人操作网页,使用谷歌和火狐游览器的插件,进行动态的对目标网站进行爬取。
将目标网页存入一个列表中,每个url爬取30页(使用一个30次的循环操作)将里面当前页面的数据提取出来。然后分别调用getData函数(提取目标值存入对应的列表内),得到目标值datalist,然后使用pandas转化完成,存入csv文件里。最终得到如下数据:

img

共计8000条左右数据。

2.1 selenium的使用

1、爬虫开始,先将需要的模块包导入:

from selenium import webdriver  # 模拟真人操作网页
import pyquery as pq  # 解析网页
import time  # 时间模块
import os  # 文件模块
import pandas as pd
from selenium.webdriver.chrome.service import Service  # 新增
from selenium.webdriver.common.by import By

2.避免乱码,在py文件的最上面,加入utf-8编码,显示中文。

# coding = utf-8

3.将谷歌的chromedriver的路径写一下,如果没有chromedriver的话,去官网下载一下,下载解压,将chromedriver拖拽到谷歌游览器的目录即可。

service = Service(executable_path='/home/yan/Python/chromeselenium/chromeselenium/chromedriver')

4.官方下载地址:

https://registry.npmmirror.com/binary.html?path=chromedriver/

5.其实如果的最新版的selenium。不用下载chromedriver就可以用,模块里会自动下载配置好的。

driver = webdriver.Chrome()

6.来一端测试代码,测试一下:

from selenium import webdriver

driver = webdriver.Chrome()
url = 'https://www.baidu.net/'
driver.get(url)
driver.maximize_window()

7.如果出现以下报错:

image-20221212114252195

8.去外面刚刚下载好的chromedriver里,双击脚本,启动服务:

image-20221212114450259

出现以下界面,说明启动成功:

image-20221212114510556

9.重新运行刚刚那段测试代码,如果还是无法启动,更换火狐游览器即可解决问题,火狐游览器测试代码:

import time
from selenium.webdriver import Firefox
from selenium import webdriver
driver = webdriver.Firefox()
driver.get("https://www.toutiao.com/a6969138023774667264/")
time.sleep(2)
html = driver.page_source
print(html)
driver.quit()

效果图:

image-20221212115106078

2.2 开始爬取

1.使用selenium模拟真人操作网页(谷歌为例)。目标url

lagou_http = "XXXXXX"
driver.get(lagou_http)
data = []

2.每个url爬取30页:以下一页按钮的class为准:.pager_next ,然后进行调用函数,data处理数据:

index = 0
while index < 31:
    if index<1:
        time.sleep(30)
    index += 1
    next_button = driver.find_element(By.CSS_SELECTOR, ".pager_next ").get_attribute('class')
    print(next_button)
    if next_button == "pager_next ":
        # 获取当前页面的数据
        items = pq.PyQuery(driver.page_source).find(".con_list_item")
        # print('items',items)
        data += getData(items)
        time.sleep(2)
        # driver.find_element_by_xpath("")
        element = driver.find_element(By.XPATH, "//span[@action='next']").click()
        time.sleep(2)
    else:
        print("爬取结束")
        break

3.getData 函数的作用,将上面拿到的前页面的数据里将我们需要的目标数据拿到,放到list列表里返回。

def getData(items):

4.我们抓取这些关键字:职位名,薪资,公司名,行业,公司融资/上市情况,人数规模,工作年限,学历,城市

x.append(item.attr("data-positionname"))
x.append(item.attr("data-salary"))
x.append(item.attr('data-company'))
x.append(pq.PyQuery(item).find(".industry").text())
x.append(pq.PyQuery(item).find(".p_bot>.li_b_l").remove(".money").text())
x.append((pq.PyQuery(item).find(".add").text()))

4.最后将获取到的数据保存到csv文件中

f = open('D-3-Go岗.csv','w',encoding='utf-8')
name=["职位名","薪资",'公司名','公司描述','工作经验',"地点"]
test=pd.DataFrame(columns=name,data=data)
# csv_writer = csv.writer(test)
print(test)
test.to_csv('D-3-Go岗.csv',encoding='utf-8')
print('写入文件成功')

5.爬取部分结果如下:

在这里插入图片描述

6可以看到如下的数据还是比较

三.总结

文章分为两部分,首先介绍了Selenium的详解,然后讲解了使用Selenium进行网页爬取的实例。

Selenium详解:

  1. 组成部分:

    • Selenium WebDriver是核心组件,提供API以编程方式控制浏览器,支持多种浏览器驱动程序。
    • Selenium Grid允许在多台计算机上同时运行测试脚本,实现并行和分布式测试。
  2. 语言支持:

    • Selenium提供多种编程语言的客户端库,包括Java、Python、C#、Ruby、JavaScript。
  3. 基本用法:

    • 安装Selenium WebDriver和浏览器驱动程序。
    • 创建WebDriver实例,打开网页,查找元素,执行操作,关闭浏览器。
  4. 处理等待:

    • 使用WebDriverWait等待页面元素加载。
  5. 高级用法:

    • 处理浏览器弹窗,模拟键盘操作,执行JavaScript代码。

某网职位爬取实例:

  1. 爬取8000组职位数据。
  2. 使用Selenium模拟真人操作网页,选择谷歌和火狐浏览器。
  3. 爬取目标网站,每个URL爬取30页数据。
  4. 使用pyquery解析网页,提取目标数据。
  5. 数据包括职位名、薪资、公司名、行业、公司融资/上市情况、人数规模、工作年限、学历、城市。
  6. 将获取到的数据保存到CSV文件。

文章提供了完整的Selenium基础知识和一个实际的网页爬取案例,包括代码和数据。

一共爬取的数据类型有:

img

共计8000组数据,需要数据和代码的,请到上文链接中获取。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

一键难忘

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值