Python网络爬虫--项目实战--scrapy爬取贝壳网

最新推荐文章于 2024-07-20 17:12:48 发布

小昀小杭

最新推荐文章于 2024-07-20 17:12:48 发布

阅读量397

点赞数

文章标签：数据安全 python 网络

本文链接：https://blog.csdn.net/weixin_50267049/article/details/109653742

版权

一、完整代码

bk.py

import json

import scrapy

from ScrapyAdvanced.items import HouseItem


class BkSpider(scrapy.Spider):
    name = 'bk'
    allowed_domains = ['bj.ke.com']
    start_urls = ['https://bj.ke.com/ershoufang/']

    def parse(self, response):

        # house_list_position = response.xpath("//div[@class='address']/div/div/a/text()").extract()
        # # 存在脏数据  一个空的脏数据 一个 正常数据
        # house_list_info = response.xpath("//div[@class='address']/div[@class='houseInfo']/text()").extract()
        house_list_address = response.xpath("//div[@class='address']")
        house_list_titles = response.xpath("//div[@class='title']/a/text()").extract()
        for i in range(len(house_list_address)):
            title = house_list_titles

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

小昀小杭

关注关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
Python网络爬虫--项目实战--scrapy爬取贝壳网

一、完整代码bk.pyimport jsonimport scrapyfrom ScrapyAdvanced.items import HouseItemclass BkSpider(scrapy.Spider): name = 'bk' allowed_domains = ['bj.ke.com'] start_urls = ['https://bj.ke.com/ershoufang/'] def parse(self, response):
复制链接

扫一扫