1、前言
随着人们生活方式的的提高,房子成为了我们必不可少的一部分。而网上的信息太过于复杂,为了了解最近房价的变化趋势。小编以链家这个网站为例,抓取房价的信息。
2、项目目标
实现将获取到的房子的名字、价格、房子的关注度,导入Word模板,并生成独立的Word文档。
3、涉及的库和网站
先列出网址,如下所示。
网址:https://bj.lianjia.com/ershoufang/pg1/("bj"北京的缩写)
库:requests、time 、lxml
4、具体分析
如何对下一页的网址进行请求?
点击下一页的按钮,观察到网站的变化分别如下:
https://bj.lianjia.com/ershoufang/pg1/ https://bj.lianjia.com/ershoufang/pg2/ https://bj.lianjia.com/ershoufang/pg3/
观察到只有pg()变化,变化的部分用{}格式化代替,再用for循环遍历这网址,实现多个网址请求。
5、实现步骤
1.我们定义一个class类继承object,然后定义init方法继承self,再定义一个主函数main继承self。准备url地址和请求头headers。
import