需求:爬取指定网页上的房屋交易备案公开数据
需求分析:
1.目标网站中的数据地址不发生改变,不需要写params
2.目标网站没有反爬虫机制,也没有robots.txt协议,更无cookie验证,甚至不需要写请求头,但服务器响应时间较长。
3.该网站代码书写较为规范,从源码注释里看粗来像直接复制的模板。
# -*- coding: utf-8 -*-
"""
Created on Sun Sep 15 23:32:02 2019
@author: 张玄瑾
"""
import requests
from lxml import etree
import os
import pandas as pd
import time
os.chdir('C:\\Users\\张玄瑾\\Desktop\\房管局数据\\')
url = "http://123.7.16.67:88/WebIssue/ExternalServer/Samples/price.asp?QueryItem=%BD%F1%C8%D5%D7%A1%D5%AC%BE%F9%BC%DB"
headers = {
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.132 Safari/537.36'}
def requestinfo(url):
try: