Python项目（爬虫）——赶集网招聘

最新推荐文章于 2020-11-30 00:34:06 发布

you_are_mydream

最新推荐文章于 2020-11-30 00:34:06 发布

阅读量988

点赞数 2

分类专栏： study 文章标签： Python 爬虫赶集网招聘

本文链接：https://blog.csdn.net/you_are_mydream/article/details/85138714

版权

本文介绍了使用Python进行爬虫学习的过程，包括requests、BeautifulSoup和正则表达式的应用。通过分析赶集网招聘页面，获取求职人数、方向和职位列表。实现了代码来实时获取最新招聘信息，并将数据保存为CSV文件。在实践中遇到了网页解析、数据保存和IP限制等问题，总结了isinstance函数和Tag类等知识点。

摘要由CSDN通过智能技术生成

爬虫学习过程

Python——爬虫的介绍
 Python——requests库的学习
 Python——bs4（BeautifulSoup）库的学习
 Python——re库（正则表达式）的学习

网页分析

进入赶集网首页，调用网页搜索，输入查询范围
调用赶集网搜索分析网页，得到求职人数，求职方向及具体职位列表等模糊查询后，找寻具体职位
找到具体职位网址找到所需职位地址
查看源代码，进行分析，查找所需数据位置查看网页源代码

代码实现

学习爬虫后试炼成果检验，时刻获取赶集网当前最新招聘信息，输入你所需求的职位，帮你拿到第一手招聘信息

#Python项目
import requests #导入Requests模块——获取网页
import bs4
from bs4 import BeautifulSoup #导入bs4模块——解析网页
import re #导入re模块——在网页数据中获取需求数据
import csv #导入csv模块——以CSV文件保存数据
#获取一个网页对象
def getHTMLText():
    try:
        #带参数的GET请求
        keyword=input("请输入求职职位:") #输入需求的范围
        url='http://cd.ganji.com/site/s/_'+keyword #得到对应网页地址
        r = requests.get(url) #获取respond对象
        r.raise_for_status()
        r.encoding=r.apparent_e