一、分析目的
1、2020年成都二手房整体挂牌量及均价走势如何?
2、目前成都二手房价位、房源有何特点?
3、成都各区县的挂牌情况,找出抛压最大的区域?
二、主要工作
1、数据挖掘:
从链家网爬取成都二手房在售房源新信息,并持久化存储
1-1 模块导入
import requests
from lxml import etree
import pandas as pd
import xlwt
headers={
'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.150 Safari/537.36'
}
1-2 url模板构造
# url通用模板的构造
def allurl(target_page):
url=url='https://cd.lianjia.com/ershoufang/pg{}/'
for page in range(1,int(target_page)+1):
yield url.format(page)
if __name__=="__main__":
target_page=input("输入想要爬取的页数:")
print(target_page)
1-3 每套房子详情页的获取
# 详情页的获取:
all_url='https://cd.lianjia.com/ershoufang/pg1/'
def get_detailpage_url(allurl):
resp=requests.get(allurl,headers=headers)
# if resp.status.code()==200:
tree=etree.HTML(resp.text)
li_list=tree.xpath('//ul[@class="sellListContent"]/li')
urls=[]
for li in li_list:
# print(li)
detail_u