由于想从事大数据方面的工作,看到好多公司要求会python,所以开始学习python。简单地看了python的语法,和一些爬虫的案例,于是便自己尝试写一些爬取链家网信息的爬虫。
这个爬虫比较的简单,只爬取了链家网 目前的所有新房信息。用到requests进行页面请求,对于爬取后的页面用BeautifulSoup进行解析,pymysql进行数据库操作。整个项目的大致思路是这样的:
- 先根据任意城市的主页,爬取所有城市的url,信息并入库
- 然后根据第一步爬取的信息,获取每个城市的页面数
- 循环遍历每个城市的新房信息,并批量入库
最后,附上资源地址http://download.csdn.net/download/wuyouagd/10153236