03-02 成都二手房之爬虫部分

最新推荐文章于 2021-03-17 11:02:25 发布

withxinxin

最新推荐文章于 2021-03-17 11:02:25 发布

阅读量131

点赞数

分类专栏：练习题

本文链接：https://blog.csdn.net/weixin_46400833/article/details/114278464

版权

1、spider文件

import scrapy
import time
import random
from LianJia.items import LianjiaItem


class LianJiaSpider(scrapy.Spider):
    name = 'LianJia'
    # allowed_domains = ['www.xxx.com']
    # 起始url
    # start_urls = ['https://cd.lianjia.com/ershoufang/pg1/']
    District_list=['jinjiang', 'qingyang', 'wuhou', 'gaoxin7', 'chenghua', 'jinniu', 'tianfuxinqu', 'gaoxinxi1', 'shuangliu'
    , 'wenjiang', 'pidou', 'longquanyi', 'xindou', 'tianfuxinqunanqu', 'qingbaijiang', 'doujiangyan', 'pengzhou',
    'jianyang', 'xinjin', 'chongzhou1', 'dayi', 'jintang','pujiang','qionglai']
    # url模板
    url='https://cd.lianjia.com/ershoufang/{}/pg{}/'

    def start_requests(self):
        for district in self.District_list:
            for i in range(1,3):
                url=self.url.format(district,i)
                yield scrapy.Request(url=url,callback=self.parse_detail_url)

    # 通过详情页url解析获取房子详细信息
    def parse_detail_page(self, response):
        info={
   }
        item = LianjiaItem()
        try:
            item['title'] = response.xpath('.//div[@class="title"]/h1/text()').extract_first()
            item['total_price'] =

最低0.47元/天解锁文章

withxinxin

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
03-02 成都二手房之爬虫部分

1、spider文件import scrapyimport timeimport randomfrom LianJia.items import LianjiaItemclass LianJiaSpider(scrapy.Spider): name = 'LianJia' # allowed_domains = ['www.xxx.com'] # 起始url # start_urls = ['https://cd.lianjia.com/ershoufang/p
复制链接

扫一扫