python爬虫爬取链家网房价信息

最新推荐文章于 2024-08-13 21:38:27 发布

yggdrasil0117

最新推荐文章于 2024-08-13 21:38:27 发布

阅读量1.4k

点赞数 5

文章标签：开发语言 python

本文链接：https://blog.csdn.net/yggdrasil0117/article/details/127876481

版权

本文介绍了如何使用Python爬虫从链家网上抓取房价信息。首先，通过检查网页元素确定目标链接；接着，解析HTML数据，使用`find_all`和正则表达式提取信息；最后，将爬取的数据存储到Excel文件中。

摘要由CSDN通过智能技术生成

打开链家网页：https://sh.lianjia.com/zufang/ ：用F12以页面中元素进行检查

二解析数据

解析数据是我们首先需要分配一块用于暂存数据的空间datalist ，然后就是对获取到的资源进行解析。这里我们再定义一个 data 用来存储解析出来的数据。我们解析的是HTML格式，所以我们使用的是html.parser，然后使用find_all函数查找符合的字符串，这里我们需要注意的就是要将我们查找的item条目转换成字符串格式，否则无法识别。使用re库通过正则表达式查找到指定的字符串后，运用data.append语句将字符串加入到data中。

三储存数据

将网页爬的数据储存下来，接着把数据存入excel，定义函数，然后创建workbook对象和工作表，然后在工作表中创建前面爬取的条目，再向表中写入数据即可。

综合代码

import re #正则表达式，进行文字匹配
from bs4 import BeautifulSoup#网页解析，获取数据
import urllib.request,urllib.error #制定URL，获取网页数据
import xlwt #进行excel操作
import sqlite3 #进行SQLLite数据库操作

# 区域
findplace1 = re.compile(
    r'<a href="/zufang/.*" target="_blank">(.*)</a>-<a href="/zufang/.* target="_blank">.*</a>-<a href="/zufang.*" target="_blank" title=".*">.*</a>')  # 创建正则表达式对象，表示规则（字符串的模式）

findplace2 = re.compile(
    r'<a href="/zufang/.*" target="_blank">.*</a>-<a href="/zufang/.* target="_blank">(.*)</a>-<a href="/zufang.*" target="_blank" title=".*">.*</a>')

findplace3 = re.compile(
    r'<a href=&#