parsel库入门使用实战

最新推荐文章于 2024-05-20 23:01:46 发布

大数据老张

最新推荐文章于 2024-05-20 23:01:46 发布

阅读量4.3k

点赞数 9

分类专栏：爬虫文章标签： python

本文链接：https://blog.csdn.net/zxctime/article/details/107005989

版权

爬虫专栏收录该内容

2 篇文章 1 订阅

订阅专栏

parsel库入门使用实战

目的
网页分析
数据爬取结果
完整代码

目的

爬取豆瓣读书Top250页面
爬取第一页的25本书的书名，作者，出版社，出版日期，价格，评分，简介，详情链接

url地址：https://book.douban.com/top250

在这里插入图片描述

使用parsel.css得到的结果是一个特殊对象，这个对象可以再次使用css()方法

网页分析

首先打开url地址，查看网页源代码

在这里插入图片描述
可以发现，一对table标签对应一本书

所以，可以先使用css选择器获取到所有的table标签

再依次遍历这个table标签，获取table标签中书籍的各项信息

导入需要使用到的模块

import requests
import parsel

封装请求头信息，请求url地址

url = 'https://book.douban.com/top250'
# 请求头信息
header = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36'
}
# 请求数据
response = requests.get(url, headers=header)
# 查看请求数据的结果的状态码
print(response.status_code)

初始化parsel对象

selector = Selector(response.text)

获取到所有的table标签

books = selector.css("table")

从table标签中提取出书籍各项信息

在这里插入图片描述

可以看到，书名在 class为“pl2”的

标签内的标签中，这里我们选择提取出标签的 title 属性

 book_name = book.css('div.pl2 a::attr(title)').get()

链接就是标签中的 href 属性

 book_link = book.css('div.pl2 a::attr(href)').get()

作者，出版时间，出版日期，价格在 class 为 pl 的

标签中

author = book.css('p.pl::text').get()

评分在 class 为 rating_nums 的标签中

book_score = book.css('span.rating_nums::text').get()

简介在 class 为 inq 的标签中

brief = book.css('span.inq::text').get()

数据爬取结果

在这里插入图片描述

完整代码

import requests
from parsel import Selector

url = 'https://book.douban.com/top250'
# 请求头信息
header = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36'
}
# 请求数据
response = requests.get(url, headers=header)
# 查看请求数据的结果的状态码
print(response.status_code)

selector = Selector(response.text)

# 使用标签选择器，得到所有的table标签
books = selector.css("table")
# 打印获取到的table标签的数量
print(len(books))

num = 0
# 遍历table标签，依次从每个table标签中提取出书籍的各项信息
for book in books:
    # 标记书号
    num += 1
    # 书名
    book_name = book.css('div.pl2 a::attr(title)').get()
    # 作者，出版时间，出版社，价格
    author = book.css('p.pl::text').get()
    # 链接
    book_link = book.css('div.pl2 a::attr(href)').get()
    # 评分
    book_score = book.css('span.rating_nums::text').get()
    # 简介
    brief = book.css('span.inq::text').get().strip()

    print(f'{num}\t{book_name}\t{author}\t{book_link}\t{book_score}\t{brief}')

大数据老张

关注

9
点赞
踩
48

收藏

觉得还不错? 一键收藏
1
评论
parsel库入门使用实战

parsel库入门使用实战目的网页分析导入需要使用到的模块封装请求头信息，请求url地址初始化parsel对象获取到所有的table标签从table标签中提取出书籍各项信息数据爬取结果完整代码目的爬取豆瓣读书Top250页面爬取第一页的25本书的书名，作者，出版社，出版日期，价格，评分，简介，详情链接url地址：https://book.douban.com/top250使用parsel.css得到的结果是一个特殊对象，这个对象可以再次使用css()方法网页分析首先打开url地址，查
复制链接

扫一扫

专栏目录