【每周代码】携程+12306爬虫项目实现

最近一直在做爬虫相关的工作
爬12306算是爬虫里的经典项目了(我觉得基本类似于深度学习里的手写字符串识别项目了hhhh)
和普通的爬虫项目不同,因为要用到实际的工作当中,所以整个流程进行了分布式处理:
大概思路如下:

  1. 得到车次的全量表,存入数据库(方便以后更新)
  2. 从数据库中得到车次,从携程上爬取对应车次的中间站信息网页
  3. 将原网址和对应转存网址的链接都统一存在redis里
  4. 将网址内容保存在ks3中
  5. 根据需求从redis里找到对应链接,从ks3中下载内容进行解析

这期间考虑了几个问题:

  1. 因为12306太容易崩了,所以为了爬虫的稳定性,除了总表是从12306里爬下来的以外,其他的部分都是从携程爬下来的。幸运的是携程没有反爬机制:)
  2. 分布式的好处在这里可能体现的不明显,对长期任务来说,一些比较难爬取的网页可以一次性存储到ks3中,根据需求多次解析。简单快捷。
  3. 依旧使用的是scrapy框架,所以代码部分没有体现redis存储和ks3存储(这一部分在自己搭建的架构的middlewares文件里修改)

老规矩,先把参考的微博列上:https://blog.csdn.net/u013243986/article/details/66972705

根据上面连接中的指南,可以得到这样的一个连接:

  • 2
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值