【每周代码】携程+12306爬虫项目实现

最新推荐文章于 2024-06-28 16:12:59 发布

zongzi13545329

最新推荐文章于 2024-06-28 16:12:59 发布

阅读量2.7k

点赞数 2

分类专栏：每周代码文章标签：爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zongzi13545329/article/details/84881888

版权

本文介绍了作者利用Scrapy框架进行12306爬虫项目，包括从12306获取车次全量表并存储，通过携程爬取中间站信息，使用Redis和KS3进行数据存储，以及如何处理和解析数据。项目采用分布式处理以提高爬虫稳定性，同时分享了在爬取过程中遇到的问题和解决方案。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

最近一直在做爬虫相关的工作
爬12306算是爬虫里的经典项目了（我觉得基本类似于深度学习里的手写字符串识别项目了hhhh）
和普通的爬虫项目不同，因为要用到实际的工作当中，所以整个流程进行了分布式处理：
大概思路如下：

得到车次的全量表，存入数据库（方便以后更新）
从数据库中得到车次，从携程上爬取对应车次的中间站信息网页
将原网址和对应转存网址的链接都统一存在redis里
将网址内容保存在ks3中
根据需求从redis里找到对应链接，从ks3中下载内容进行解析

这期间考虑了几个问题：

因为12306太容易崩了，所以为了爬虫的稳定性，除了总表是从12306里爬下来的以外，其他的部分都是从携程爬下来的。幸运的是携程没有反爬机制：）
分布式的好处在这里可能体现的不明显，对长期任务来说，一些比较难爬取的网页可以一次性存储到ks3中，根据需求多次解析。简单快捷。
依旧使用的是scrapy框架，所以代码部分没有体现redis存储和ks3存储（这一部分在自己搭建的架构的middlewares文件里修改）

老规矩，先把参考的微博列上：https://blog.csdn.net/u013243986/article/details/66972705

根据上面连接中的指南，可以得到这样的一个连接：

最低0.47元/天解锁文章

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。