立即学习:https://edu.csdn.net/course/play/6861/326751?utm_source=blogtoedu
网络爬虫的流程:
1.发送请求,网站的链接URL
2.返回请求,网页源代码
3.数据解析,清洗,存储到本地
爬虫用到的包及函数:
import requests:发送请求
import re :正则表达式
import bs4 : 解析源代码
requests.get --基于URL发送网络请求
re.findall --基于正则表达式寻找目标数据
bs4.BeautifulSoup --对HTML源代码解析,便于目标数据的拆解