当然,下面是一个使用Scrapy框架的简单爬虫应用案例:
案例:爬取豆瓣电影Top250的电影信息,包括电影名称、评分和简介。
-
创建Scrapy项目: 在命令行中执行以下命令来创建一个新的Scrapy项目:
scrapy startproject douban_movie
-
定义爬虫: 在
douban_movie/spiders
目录下创建一个名为douban_spider.py
的文件,并编写如下代码:python
import scrapy class DoubanSpider(scrapy.Spider): name = 'douban' start_urls = ['https://movie.douban.com/top250'] def parse(self, response): movies = response.xpath('//div[@class="info"]') for movie in movies: yield { 'title': movie.xpath('.//span[@class="title"]/text()').get(), 'rating': movie.xpath('.//span[@class="rating_num"]/text()').get(), 'summary': movie.xpath('.//span[@class="inq"]/text()').get() } next_page = response.xpath('//span[@class="next"]/a/@href').get() if next_page: yield response.follow(next_page, self.parse)
-
配置爬虫: 打开
douban_movie/settings.py
文件,找到ROBOTSTXT_OBEY
并将其设置为False
,以忽略robots.txt规则。 -
运行爬虫: 在命令行中切换到项目根目录下,执行以下命令来运行爬虫并将结果保存到文件中:
scrapy crawl douban -o movies.csv
爬虫将会发送HTTP请求获取豆瓣电影Top250的页面,并使用XPath选择器从页面中提取电影信息。爬虫还会自动跟踪下一页链接,直到爬取完所有页面。
-
查看结果: 在项目根目录下,你会找到一个名为
movies.csv
的文件,其中包含了爬取到的电影信息。
这是一个简单的Scrapy爬虫应用案例。你可以根据实际需求进行进一步定制和扩展,例如添加数据清洗、存储到数据库等功能。请确保在爬取网站数据时遵守相关的法律和规定。