这里我们用scrapy 框架爬取数据
爬虫文件里面的代码:
# -*- coding: utf-8 -*-
import json
import re
import os
import scrapy
from copy import deepcopy
from scrapy_redis.spiders import RedisSpider
class ItcastSpider(scrapy.Spider):
# 爬虫名称, 运行爬虫的时候需要用到, 必须唯一
name = 'Ctrip'
# 起始的URL列表, 爬虫从这些URL开始爬取
start_urls = ['http://you.ctrip.com/place/']
def parse(self, response):
#获取所有地区的url 和名字
url_list = response.xpath('//*[@id="journals-panel-items"]/dl[2]/dd/ul/li/a/@href').extract()
name_list = response.xpath('//*[@id="journals-panel-items"]/dl[2]/dd/ul/li/a/text()').extract()
i = 0
for url in url_list:
#国内每个地方的文件夹
os.makedirs('路径'+name_list[i
爬取携程国内地区攻略评论
最新推荐文章于 2024-09-07 15:53:49 发布
该博客介绍了一个使用Scrapy框架爬取携程网站上国内地区攻略评论的示例。首先,爬虫从起始URL获取所有地区链接,然后遍历每个地区创建对应文件夹,并进一步抓取每个地区的景点评论。通过正则表达式提取评论内容,并将结果保存到对应地区的文本文件中。爬虫采用递归方式处理多级页面,持续抓取更多评论。
摘要由CSDN通过智能技术生成