爬取某图书网中的教材信息(书名、链接、作者、出版社、图片路径等)
ra.py
import scrapy
from readdang.items import ReaddangItem
class RdSpider(scrapy.Spider):
name = 'rd'
allowed_domains = ['category.dangdang.com']
start_urls = ['http://category.dangdang.com/cp01.49.01.00.00.00.html']
# 基础页链接
base_url = 'http://category.dangdang.com/pg'
page = 1
def parse(self, response): # 爬取网站得到response后,自动回调parse方法
li_list = response.xpath('//ul[@id="component_59"]/li')
# 遍历
for li in li_list:
# 提取selector标签中的文字内容须在后面加上 .extract_first
# 第一张图片和其他图片的标签属性不一样,一张图片的src可以直接爬取到,其他图片的路径则是在data-original下面
src = li.xpath('.//img/@data-original').extract_first()
# 判断获取的路径是否为None
if src:
src = 'http:' + src
else:
src = 'http:' + li.xpath('.//img/@src').extract_first()
# 爬取
name = li.xpath('.//img/@alt').extract_first() # 书名
press = li.xpath('.//span//a[@name="P_cbs"]/text()').extract_first() # 出版社
author = li.xpath('.//span[1]/a[1]/@title').extract_first(

最低0.47元/天 解锁文章
1812

被折叠的 条评论
为什么被折叠?



