成都市二手房行情分析

最新推荐文章于 2023-11-14 19:12:58 发布

withxinxin

最新推荐文章于 2023-11-14 19:12:58 发布

阅读量825

点赞数 2

分类专栏：练习题

本文链接：https://blog.csdn.net/weixin_46400833/article/details/114284675

版权

一、数据爬取

利用python爬取链家网成都市二手房信息，具体使用scrapy框架写爬虫程序爬取信息。

1、spider文件（具体爬虫代码）

import scrapy
import time
import random
from LianJia.items import LianjiaItem


class LianJiaSpider(scrapy.Spider):
    name = 'LianJia'
    # allowed_domains = ['www.xxx.com']
    # 起始url
    # start_urls = ['https://cd.lianjia.com/ershoufang/pg1/']
    District_list=['jinjiang', 'qingyang', 'wuhou', 'gaoxin7', 'chenghua', 'jinniu', 'tianfuxinqu', 'gaoxinxi1', 'shuangliu'
    , 'wenjiang', 'pidou', 'longquanyi', 'xindou', 'tianfuxinqunanqu', 'qingbaijiang', 'doujiangyan', 'pengzhou',
    'jianyang', 'xinjin', 'chongzhou1', 'dayi', 'jintang','pujiang','qionglai']
    # url模板
    url='https://cd.lianjia.com/ershoufang/{}/pg{}/'

    def start_requests(self):
        for district in self.District_list:
            for i in range(1,3):
                url=self.url.format(district,i)
                yield scrapy.Request(url=url,callback=self.parse_detail_url)

    # 通过详情页url解析获取房子详细信息
    def parse_detail_page(self, response):
        info={
   }
        item = LianjiaItem()
        try:
            item['title'] = response.xpath('.//div[@class="title"]/h1/text()').extract_first()
            item['total_price'] = response.xpath('/html/body/div[5]/div[2]/div[3]/span//text()').extract_first()
            item['price'] = response.xpath('/html/body/div[5]/div[2]/div[3]/div[1]/div[1]/span//text()').extract_first()
            item['build_time'] = response.xpath('/html/body/div[5]/div[2]/div[4]/div[3]/div[2]/text()').extract_first()
            item['community_name'] = response.xpath('/html/body/div[5]/div[2]/div[5]/div[1]/a[1]/text()').extract_first()
            item['district'] = response.xpath('/html/body/div[5]/div[2]/div[5]/div[2]/span[2]//text()'

最低0.47元/天解锁文章

withxinxin

关注

2
点赞
踩
6

收藏

觉得还不错? 一键收藏
2
评论
成都市二手房行情分析

一、数据爬取利用python爬取链家网成都市二手房信息，具体使用scrapy框架写爬虫程序爬取信息。1、spider文件（具体爬虫代码）import scrapyimport timeimport randomfrom LianJia.items import LianjiaItemclass LianJiaSpider(scrapy.Spider): name = 'LianJia' # allowed_domains = ['www.xxx.com'] # 起始
复制链接

扫一扫

专栏目录