python爬取链家网数据

由于想从事大数据方面的工作,看到好多公司要求会python,所以开始学习python。简单地看了python的语法,和一些爬虫的案例,于是便自己尝试写一些爬取链家网信息的爬虫。

这个爬虫比较的简单,只爬取了链家网 目前的所有新房信息。用到requests进行页面请求,对于爬取后的页面用BeautifulSoup进行解析,pymysql进行数据库操作。整个项目的大致思路是这样的:

  1. 先根据任意城市的主页,爬取所有城市的url,信息并入库
  2. 然后根据第一步爬取的信息,获取每个城市的页面数
  3. 循环遍历每个城市的新房信息,并批量入库
实际爬取过程中,用到了代理,但是代理不稳定老出错,所以这里给出的代码去掉了代理部分,对于上面提到的第一步,也去除了,因为在爬取过程中发现有些页面根据爬取的url会跳转到其他的url,所以在爬取中我对数据库的url按照实际跳转的进行了修改,最后给出了原始的数据,去掉了这部分爬取的代码。总的来说这是我写的第一个稍微正式的python项目,写的很烂,有很多可以改进的地方。最后说明一下提供的代码仅限用于学习途径,不得用途非法途径,否则后果自负,与本人无关。ps:这里用的是python3写的

最后,附上资源地址http://download.csdn.net/download/wuyouagd/10153236

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值