Python 爬取厦门人才网三步走_厦门人才网爬虫-CSDN博客

本文链接：https://blog.csdn.net/weixin_44355591/article/details/109522670

Python 爬取厦门人才网

郑重声明：本项目及所有相关文章，仅用于经验技术交流，禁止将相关技术应用到不正当途径，因为滥用技术产生的风险与本人无关。

文章导航目录

目标:

获取厦门人才网爬虫为关键字的信息

1 导入包

import re
import csv
import requests
from bs4 import BeautifulSoup

2 解析一下网页

要爬取的URL: https://www.xmrc.com.cn/net/info/resultg.aspx?keyword=爬虫

# 解析一下网页,方便后面 find, 当然! 这里可以写个函数,可以封装一下.....

url ='https://www.xmrc.com.cn/net/info/resultg.aspx?keyword=爬虫'
request = requests.get(url)
# request.encoding = request.apparent_encoding
soup = BeautifulSoup(request.content, 'lxml')

3 爬取

# 一页有 31 行
for line in range(1, 31):
    line_result = []
    # 一行有 个字段
    for i in range(6):
        item = soup.find(class_="text-center queryRecruitTable").find_all('tr')[line].find_all('a')[i].string
        # 因为关键字会变红色,HTML结构会有变化,所以 if 一下
        if item is None:
            item_2 = soup.find(class_="text-center queryRecruitTable").find_all('tr')[line].find_all('a')[i].text.strip()
            line_result.append(item_2)
        else:
            line_result.append(item.strip())
    print(line_result)    
    # 写..
    with open("info.csv", "a+") as f:
            writer = csv.writer(f, dialect="excel")
            csv_write = csv.writer(f)
            csv_data = line_result 
            csv_write.writerow(csv_data)
            f.close()