爬取豆瓣图书网站的图书信息，并生成xlsx文档

最新推荐文章于 2024-07-12 16:16:27 发布

张謹礧

最新推荐文章于 2024-07-12 16:16:27 发布

阅读量801

点赞数

分类专栏： python网络爬虫文章标签： python 数据采集与清洗大数据

本文链接：https://blog.csdn.net/weixin_66547608/article/details/134126553

版权

python网络爬虫专栏收录该内容

10 篇文章 5 订阅 ¥29.90 ¥99.00

订阅专栏

超级会员免费看

这段代码是一个用来爬取豆瓣图书信息的脚本。

脚本首先定义了两个函数：get_url 和 get_data，分别用于获取分页网址和采集数据。

然后在 if __name__ == "__main__": 部分，脚本通过调用这两个函数来爬取数据。首先调用 get_url 函数获取了10个分页网址，然后使用 get_data 函数依次采集每个分页的数据。最后将采集到的数据存入 pandas 的 DataFrame，并将其保存为Excel文件。

需要注意的是，代码中使用了 requests 和 BeautifulSoup 这两个库来进行网页请求和HTML解析。此外，脚本中还设置了请求头信息和cookies信息，以模拟正常的浏览器请求。

代码可以分为以下几个部分进行分块分析：

导入库

import requests
from bs4 import BeautifulSoup
import pandas as pd

在这一部分中，导入了需要使用的库 requests、BeautifulSoup 和 pandas。

get_url 函数

def get_url(n):
    lst = []
    for i in range(10):
        ui = "https://book.douban.com/tag/%E7%94%B5%E5%BD%B1?start

了解本专栏

超级会员免费看

张謹礧

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
爬取豆瓣图书网站的图书信息，并生成xlsx文档

这段代码是一个用来爬取豆瓣图书信息的脚本。脚本首先定义了两个函数：get_url和get_data，分别用于获取分页网址和采集数据。然后在if __name__ == "__main__":部分，脚本通过调用这两个函数来爬取数据。首先调用get_url函数获取了10个分页网址，然后使用get_data函数依次采集每个分页的数据。最后将采集到的数据存入pandas的DataFrame，并将其保存为Excel文件。需要注意的是，代码中使用了requests和Beautif
复制链接

扫一扫