Python 爬虫爬取豆瓣读书小说类前十页标签

最新推荐文章于 2023-11-02 15:53:07 发布

风不归Alkaid

最新推荐文章于 2023-11-02 15:53:07 发布

阅读量3.2k

点赞数 3

分类专栏： Python爬虫之旅文章标签： Python爬虫豆瓣读书小说数据抓取 SQLite数据库

本文链接：https://blog.csdn.net/weixin_49015143/article/details/116103942

版权

Python爬虫之旅专栏收录该内容

2 篇文章 0 订阅

订阅专栏

呜呜呜，小白的爬虫之路……留个记录~~~~

一、导入库

import requests
from bs4 import BeautifulSoup
import sqlite3

二、获取豆瓣读书小说类1-10页网址

#获取分页的地址
root_url='https://book.douban.com/tag/小说'
headers={
        'Referer':'https://book.douban.com',
        'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:81.0) Gecko/20100101 Firefox/81.0'
    }
r=requests.get(root_url,headers=headers)
html= r.text
page_div = BeautifulSoup(html,'html.parser').select('.paginator a')
root='https://book.douban.com'
page_urls=[]
page_urls.append(root_url)

#将2-9页的URL地址加入地址列表
for item in page_div[:8]:
    page_urls.append(root+item.attrs['href'])
nine='https://book.douban.com/tag/%E5%B0%8F%E8%AF%B4?start=160&type=T'
rs=requests.get(nine,headers=headers)

#将第10页单独加入地址列表中
nines=rs.text
ten=BeautifulSoup(nines,'html.parser').select('.next a')
for i in ten:
    page_urls.append(root+i.attrs['href'])

三、创建数据库

#创建一个数据库，路径可自定义
conn = sqlite3.connect('C:/Users/Administrator/DB.db')

四、创建表

#创建表： id,name,author,content
sql_tables = "create table douban(id integer primary key autoincrement,name text,author text,estimate text,content text)"
conn.execute(sql_tables)
conn.commit()

五、获取图书信息并保存于列表total

#对每一页进行爬取,并将结果保存到数据库
total=[]
sum=0
for url in page_urls:
    sum+=1

    #获取每一页的源代码
    html=requests.get(url,headers=headers).text

    #获取每本书书名
    title_div = BeautifulSoup(html,'html.parser').select('.info h2')
    titles = [item.text for item in title_div]

    #获取每本书作者、出版社、出版日期、价格
    author_div = BeautifulSoup(html,'html.parser').select('.pub')
    authors = [item.text for item in author_div]

    #获取每本书评分及评分人数
    estimate_div = BeautifulSoup(html,'html.parser').select('.star.clearfix')
    es = [item.text for item in estimate_div]

    #获取每本书内容简介
    div = BeautifulSoup(html,'html.parser').select('.info p')
    divv = [item.text for item in div]

    #由于豆瓣读书小说类第四页和第八页有几本图书处于无简介状态，故用/代替
    if sum==4:
        divv.insert(4,'/')
    elif sum==8:
        divv.insert(2,'/')
        divv.insert(10,'/')
    total.append(titles+authors+es+divv)

六、将图书信息列表依次存入数据库的表中

print("开始存入数据库....")
page=total
for index,page in enumerate(total):
    print("写入第{}页的诗词".format(index+1))
    for i in range(20):        
        name=page[i]
        author=page[i+20]
        ess=page[i+40]
        content=page[i+60]
        sql="insert into douban values(null,'{}','{}','{}','{}')".format(name,author,ess,content)
        conn.execute(sql)
        conn.commit()
    print("第{}页的图书标签已经爬取完毕，稍等进行下一页".format(index+1))
print("恭喜你，所有豆瓣前十页图书标签已经存储完毕...")

风不归Alkaid

关注

3
点赞
踩
41

收藏

觉得还不错? 一键收藏
打赏
2
评论
Python 爬虫爬取豆瓣读书小说类前十页标签

呜呜呜，小白的爬虫之路……留个记录~~~~一、导入库import requestsfrom bs4 import BeautifulSoupimport sqlite3二、获取豆瓣读书小说类1-10页网址#获取分页的地址root_url='https://book.douban.com/tag/小说'headers={ 'Referer':'https://tophub.today', 'user-agent':'Mozilla/5.0 (Wind
复制链接

扫一扫