python一键获取豆瓣租房小组前十页信息，并导入EXCEL（Xpath法）

小白有在很努力

于 2022-01-08 13:20:19 发布

阅读量1.1k

点赞数

文章标签： python 爬虫 html

本文链接：https://blog.csdn.net/weixin_55853508/article/details/122378631

版权

该博客介绍了如何使用Python进行网页抓取，通过Xpath方法从豆瓣租房小组获取前10页的数据，并详细讲解了网页解析及数据导出到Excel的实现过程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

#encoding=utf-8
模块导入
import requests
from lxml import etree
import xlwt
import urllib.request

主程序

def main():
    baseurl = 'https://www.douban.com/group/beijingzufang/discussion?start={0}' #URL地址，{}中间数字可以跟随for循环一直更改
    datalists=getdata(baseurl)
    savedata(datalists)

网页解析

def getdata(baseurl): #爬取网页
    datalist = [] #新建空列表，方便存储爬取到的数据
    for i in range(0,226,25): #豆瓣每一次翻页，数字增加25，故步长设置为25，左闭右开，226结束
        url = baseurl.format(i)#生成每一页的url
        headers={
   
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3870.400 QQBrowser/10.8.4405.400',
        }#设置请求头