python使用BeautifulSoup解析豆瓣读书网页并获取相关数值

最新推荐文章于 2023-06-28 23:24:03 发布

十三先生po

最新推荐文章于 2023-06-28 23:24:03 发布

阅读量547

点赞数

分类专栏：爬虫文章标签： python 爬虫

本文链接：https://blog.csdn.net/weixin_55579895/article/details/120457867

版权

这篇博客介绍如何利用Python的BeautifulSoup库解析豆瓣读书的网页，抓取书籍的相关信息。作者指出在抓取过程中可能遇到的难点，如保存数据时需遍历并字符化书目列表，处理cookies问题，以及在数据清洗阶段使用select方法的嵌套应用。

摘要由CSDN通过智能技术生成

豆瓣读书网址：（https://book.douban.com/tag/%E5%B0%8F%E8%AF%B4）

难点：

获取数值后保存数值，保存的时候需要将整理好的书别列表遍历，依次写入
在写入时，最好使用str()强制字符化以防万一
可能会因为cookies问题无法或者完整页面，需要加上cookies
数据清洗阶段，select方法可以重复嵌套使用

import cchardet
import requests
from bs4 import BeautifulSoup

class Douban(object):
    '''bs4爬取豆瓣数据实战'''

    def __init__(self):
        self.url = 'https://book.douban.com/tag/%E5%B0%8F%E8%AF%B4'
        # 如果无法爬取到完整的页面，可能是因为cookies问题，需要加上cookies
        self.headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/5。。。。。。。。。。 Safari/537.36',
        'Cookie':'ll="118281"; bid=BpEz4O5XrAo