Python 爬取厦门人才网
郑重声明:本项目及所有相关文章,仅用于经验技术交流,禁止将相关技术应用到不正当途径,因为滥用技术产生的风险与本人无关。
目标:
获取厦门人才网爬虫为关键字的信息
1 导入包
import re
import csv
import requests
from bs4 import BeautifulSoup
2 解析一下网页
要爬取的URL: https://www.xmrc.com.cn/net/info/resultg.aspx?keyword=爬虫
# 解析一下网页,方便后面 find, 当然! 这里可以写个函数,可以封装一下.....
url ='https://www.xmrc.com.cn/net/info/resultg.aspx?keyword=爬虫'
request = requests.get(url)
# request.encoding = request.apparent_encoding
soup = BeautifulSoup(request.content, 'lxml')
3 爬取
# 一页有 31 行
for line in range(1, 31):
line_result = []
# 一行有 个字段
for i in range(6):
item = soup.find(class_="text-center queryRecruitTable").find_all('tr')[line].find_all('a')[i].string
# 因为关键字会变红色,HTML结构会有变化,所以 if 一下
if item is None:
item_2 = soup.find(class_="text-center queryRecruitTable").find_all('tr')[line].find_all('a')[i].text.strip()
line_result.append(item_2)
else:
line_result.append(item.strip())
print(line_result)
# 写..
with open("info.csv", "a+") as f:
writer = csv.writer(f, dialect="excel")
csv_write = csv.writer(f)
csv_data = line_result
csv_write.writerow(csv_data)
f.close()
结果:
我贼怂, 如果本篇文章涉及了某平台的利益,请联系我,立马删除
本篇仅供参考学习,如若用于商业用途,后果自负.
如果对你有帮助的话,记得留个赞哦~~ |