豆瓣读书网址:(https://book.douban.com/tag/%E5%B0%8F%E8%AF%B4)
难点:
- 获取数值后保存数值,保存的时候需要将整理好的书别列表遍历,依次写入
- 在写入时,最好使用str()强制字符化以防万一
- 可能会因为cookies问题无法或者完整页面,需要加上cookies
- 数据清洗阶段,select方法可以重复嵌套使用
import cchardet
import requests
from bs4 import BeautifulSoup
class Douban(object):
'''bs4爬取豆瓣数据实战'''
def __init__(self):
self.url = 'https://book.douban.com/tag/%E5%B0%8F%E8%AF%B4'
# 如果无法爬取到完整的页面,可能是因为cookies问题,需要加上cookies
self.headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/5。。。。。。。。。。 Safari/537.36',
'Cookie':'ll="118281"; bid=BpEz4O5XrAo