这段代码是一个用来爬取豆瓣图书信息的脚本。
脚本首先定义了两个函数:get_url
和 get_data
,分别用于获取分页网址和采集数据。
然后在 if __name__ == "__main__":
部分,脚本通过调用这两个函数来爬取数据。首先调用 get_url
函数获取了10个分页网址,然后使用 get_data
函数依次采集每个分页的数据。最后将采集到的数据存入 pandas
的 DataFrame
,并将其保存为Excel文件。
需要注意的是,代码中使用了 requests
和 BeautifulSoup
这两个库来进行网页请求和HTML解析。此外,脚本中还设置了请求头信息和cookies信息,以模拟正常的浏览器请求。
代码可以分为以下几个部分进行分块分析:
- 导入库
import requests
from bs4 import BeautifulSoup
import pandas as pd
在这一部分中,导入了需要使用的库 requests
、BeautifulSoup
和 pandas
。
get_url
函数
def get_url(n):
lst = []
for i in range(10):
ui = "https://book.douban.com/tag/%E7%94%B5%E5%BD%B1?start