import requests # requests是HTTP库
import re
from openpyxl import workbook # 写入Excel表所用
from openpyxl import load_workbook # 读取Excel表所用
from bs4 import BeautifulSoup as bs # bs:通过解析文档为用户提供需要抓取的数据
import os
import io
import sys
sys.stdout = io.TextIOWrapper(sys.stdout.buffer, encoding='utf8') # 改变标准输出的默认编码
# 我们开始利用requests.get()来获取网页并利用bs4解析网页:
def getData(src):
html = requests.get(
src).content # requests.get(src)返回的是状态码<Response [200]>,加上.content以字节形式(二进制返回数据。 和前端一样,分为get post等
# http://www.cnblogs.com/ranxf/p/7808537.html
soup = bs(html, 'lxml') # lxml解析器解析字节形式的数据,得到完整的类似页面的html代码结构的数据
# print(soup)
# 正则表达式查找href
# urls = Find(soup.decode('utf-8'))
# print(urls)
global ws
Title = []
Href = []
LS = soup.find_all('ul', class_="lie1")
# print(LS)
# 搜索子标
Python爬取事业单位招聘网--入门
本文是Python爬虫的入门教程,通过实例讲解如何使用Python抓取事业单位的招聘信息,涉及HTML解析技巧和基础网络请求操作。
摘要由CSDN通过智能技术生成