手把手教你使用Python网络爬虫获取菜谱信息

本文介绍如何使用Python网络爬虫从下厨房网站抓取菜谱信息,包括菜名、原料和下载链接,并保存到Word文档。通过设置HTTP请求头和使用随机UserAgent避免反爬策略,详细讲解了项目的实现步骤和优化方法。
摘要由CSDN通过智能技术生成

/1 前言/

    在放假时 ,经常想尝试一下自己做饭,下厨房这个网址是个不错的选择。

    下厨房是必选的网址之一,主要提供各种美食做法以及烹饪技巧。包含种类很多。

    今天教大家去爬取下厨房的菜谱 ,保存在world文档,方便日后制作自己的小菜谱。

 

 

/2 项目目标/

    获取菜谱,并批量把菜 名、 原 料 、下 载 链 接 、下载保存在world文档。

 

/3 项目准备/

软件:PyCharm

需要的库:requestslxmlfake_useragent、time

网站如下:

  •  
https://www.xiachufang.com/explore/?page={}

点击下一页时,每增加一页page自增加1,用{}代替变换的变量,再用for循环遍历这网址,实现多个网址请求。

 

/4 反爬措施的处理/

主要有两个点需要注意:

1、直接使用requests库,在不设置任何header的情况下,网站直接不返回数据

2、同一个ip连

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值