需要用到的库
requests、xlwt、time、bs4四个库
网页源码提取书名分析
可以看到书籍的全部信息都包含在<li>
标签中,但标签的范围可以进步缩小到<h2>
标签中,可以进一步搜索所有<li>
标签中<h2>
标签。之后只要得到<h2>
标签中文字内容即可。
数据保存
利用xlwt库,简单的循环写入操作后即可保存为xls文件
源代码
# python3.7 64位
# 2021.08.20
# 分析:无需登录或使用cookies,可直接获得HTML内容
from requests import get
from bs4 import BeautifulSoup
import time
import xlwt
def get_html_text(page_url):
try:
r = get(page_url, headers=headers)
r.raise_for_status()