网络数据采集的一般流程:
1、通过网站域名获取HTML数据;
2、根据目标信息解析数据;
3、存储目标信息;
4、若有必要,移到另一个网页重复这个过程。
一、通过网站域名获取HTML数据;
使用requests库来进行获取HTML数据
import requests
url = 'https://www.runoob.com/python3/python3-tutorial.html'
r = requests.get(url)
html = r.text.encode(r.encoding).decode()
print(html)
二、根据目标信息解析数据;
1、html网页结构;
一个页面包含了head和body两部分的内容,需要的内容一般是在body中。
2、利用BeautifulSoup解析html
#根据目标信息解析html文档
import requests
from bs4 import BeautifulSoup
url = 'https://www.runoob.com/python3/python3-tutorial.html'
r = requests.get(url)
html = r.text.encode(r.encoding).decode()
soup = BeautifulSoup(html,