爬取携程国内地区攻略评论

最新推荐文章于 2024-09-07 15:53:49 发布

xiaoyaGrace

最新推荐文章于 2024-09-07 15:53:49 发布

阅读量471

点赞数

分类专栏： Python

本文链接：https://blog.csdn.net/xiaoyaGrace/article/details/103851149

版权

该博客介绍了一个使用Scrapy框架爬取携程网站上国内地区攻略评论的示例。首先，爬虫从起始URL获取所有地区链接，然后遍历每个地区创建对应文件夹，并进一步抓取每个地区的景点评论。通过正则表达式提取评论内容，并将结果保存到对应地区的文本文件中。爬虫采用递归方式处理多级页面，持续抓取更多评论。

摘要由CSDN通过智能技术生成

这里我们用scrapy 框架爬取数据

爬虫文件里面的代码：

# -*- coding: utf-8 -*-
import json
import re
import os
import scrapy
from copy import deepcopy

from scrapy_redis.spiders import RedisSpider

class ItcastSpider(scrapy.Spider):
# 爬虫名称, 运行爬虫的时候需要用到, 必须唯一
name = 'Ctrip'

# 起始的URL列表, 爬虫从这些URL开始爬取
start_urls = ['http://you.ctrip.com/place/']

def parse(self, response):
#获取所有地区的url 和名字
      url_list = response.xpath('//*[@id="journals-panel-items"]/dl[2]/dd/ul/li/a/@href').extract()
      name_list = response.xpath('//*[@id="journals-panel-items"]/dl[2]/dd/ul/li/a/text()').extract()
      i = 0

      for  url in url_list:
         #国内每个地方的文件夹
         os.makedirs('路径'+name_list[i