【爬虫练手】东莞当天二手成交信息爬虫

import requests
from bs4 import BeautifulSoup
import datetime
import csv
import time
headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.97 Safari/537.36'
}

引用该引用的库

def save_date(row):
    filename = datetime.datetime.now().strftime('%Y-%m-%d_%H%M')+'.csv'
    f=open(filename,'a',encoding='GBK',newline='')
    csv_writer = csv.writer(f)
    csv_writer.writerow(row)

定义储存过程

def resopnse_url(url):
    response = requests.get(url,headers=headers)
    html = BeautifulSoup(response.content,'lxml')
    table = html.find(class_='resultTable5')
    dates = table.find_all('tr')
    for date in dates:
        township = date.find_all('td')[0].text
        deal_num = date.find_all('td')[1].text
        area = date.find_all('td')[2].text
        deal_price=date.find_all('td')[3].text
        row = [township,deal_num,area,deal_price]
        save_date(row)

定义解析函数

def main():
    url = 'http://dgfc.dg.gov.cn/dgwebsite_v2/Secondhand/DailyStatement.aspx'
    resopnse_url(url)

主函数

if __name__ == '__main__':
    while True:
        now = datetime.datetime.now()
        if now.hour == 23 and now.minute == 55:
            main()
            time.sleep(60)

程序入口,每天23点55分的时候,进行网站爬取

东莞房管局网站

http://dgfc.dg.gov.cn/dgwebsite_v2/Secondhand/DailyStatement.aspx

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值