用Python写网络爬虫

 

1.网络爬虫简介

1 .1 网络爬虫

何时有用第1章网络爬虫简介假 设我有一个鞋店, 并且想要及时了解竞争对手的价格。我可以每天访问他们的网 站 与我店铺中鞋子的价格进行对比。但是,如果我店铺中的鞋类品种繁多,或是希望 能够更加频繁地查看价格变化的话 就需要花费大量的时间,甚至难以实现。 再举一个例 子,我看中了一双鞋想等它促销时再购买。我可能需要每天访问这家鞋店的网 站 来查看这双鞋是否降价, 也许需要等待几个月的时间, 我才能如愿盼到这双鞋促销。 上述这两个重复性的手工流程,都可以利用本书介绍的网 络爬虫技术实现自动化处理。网络爬虫简介理想状态下, 网 络爬虫并不是必须品,每个网站 都应该提供 API, 以结构化的格式共享它们的数据。 然而现实情况中, 虽然一些网站 已经提供了这种API,但是它们通常会限制可以抓 取的数据,以及访问这些数据的频率。 另外,对于网站 的开发者而言, 维护前端界面比维护后端API接口优先级更高。 总之, 我们不能仅仅依赖于 API去访问我们所需的在线数据, 而是应该学习一些网 络爬虫技术的相 关知识。

1 .2 网络爬虫是否合法

网络爬虫目前还处于早期的蛮荒阶段,“允许哪些行为” 这种基本秩序还处于建设之中。 从目前的实践来看, 如果抓 取数据的行为用于个人使用, 则不存在问题:而如果数据用于转载,那么 抓 取的数据类型就非常关键了。世界各地法院的一些案件可以帮助 我们确定哪些网 络爬虫行为是允许的。 在Feist Publications, Inc.起诉Rural Tel写phone Service Co. 的案件中, 美国联邦最高法院裁定抓 取并转载真实数据 (比如, 电话清单〉是允许的。而在澳大利亚, Telstra Corporation Limit

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

顾~浪

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值