#encoding=utf-8
模块导入
import requests
from lxml import etree
import xlwt
import urllib.request
主程序
def main():
baseurl = 'https://www.douban.com/group/beijingzufang/discussion?start={0}' #URL地址,{}中间数字可以跟随for循环一直更改
datalists=getdata(baseurl)
savedata(datalists)
网页解析
def getdata(baseurl): #爬取网页
datalist = [] #新建空列表,方便存储爬取到的数据
for i in range(0,226,25): #豆瓣每一次翻页,数字增加25,故步长设置为25,左闭右开,226结束
url = baseurl.format(i)#生成每一页的url
headers={
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3870.400 QQBrowser/10.8.4405.400',
}#设置请求头