python 爬虫实战（二）使用pyspider爬取菜谱及图片

最新推荐文章于 2024-02-20 21:31:20 发布

JonPia

最新推荐文章于 2024-02-20 21:31:20 发布

阅读量857

点赞数

文章标签： pyspider

本文链接：https://blog.csdn.net/xiawai/article/details/79527627

版权

#!/usr/bin/env python
# -*- encoding: utf-8 -*-
# Created on 2018-03-01 21:53:16
# Project: caipu

from pyspider.libs.base_handler import *


class Handler(BaseHandler):
    crawl_config = {
    }

    @every(minutes=24 * 60)
    def on_start(self):
        self.crawl('http://www.ttmeishi.com/CaiXi/JiaChangCai/', callback=self.index_page)

    @config(age=10 * 24 * 60 * 60)
    def index_page(self, response):
        for each in response.doc('.cx_liebiao a').items():
            self.crawl(each.attr.href, callback=self.detail_page)

    @config(priority=2)
    def detail_page(self, response):
        imgs = response.doc('.c_bz_img img').items()
        contexts = response.doc('.c_bz_neirong').items()
        
        try:
            while contexts:
                print (contexts.__next__().text())
                print (imgs.__next__().attr.src)
        except StopIteration as e:
            print(e)
            
        return {
            "title": response.doc('.content h1').text(),
            "biaoqian":response.doc('.c_leibie_a').text(),
            "cailiao":response.doc('.c_leibie_sc').text()
        }

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

JonPia

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

python入门基础之网络爬虫框架详解：Scrapy与PySpider

qq_72290695的博客

06-26

2811

导语：网络爬虫是一种重要的数据采集技术，而Python提供了多种强大的网络爬虫框架。本文将详细介绍两个知名的Python网络爬虫框架：Scrapy和PySpider。我们将分别探讨它们的特点、用法以及示例代码，帮助你选择适合的框架来开发高效的网络爬虫。一、Scrapy框架简介。

03 爬取菜谱清单

qq_40678779的博客

07-03

374

# Author:Nimo_Ding ''' 分析：我们要爬取热门菜谱清单，内含：菜名、原材料、详细烹饪流程的URL 地址：http://www.xiachufang.com/explore/ 在进行爬取之前，我们先去看看它的robots协议：http://www.xiachufang.com/robots.txt 你会发现：我们要爬取的/explore/不在禁止爬取的列表内，但如果你要爬取/recipe/服务器就会不欢迎。在网页里，recipe是每一道菜的详情页面，记录了这道菜的做法。如果你真要.

参与评论您还未登录，请先登录后发表或查看评论

爬取私厨，获取菜单

小宝的博客

12-03

309

第一、找到下厨房的主页这类网址比较多，可以根据自己需要来操作。第二、分析我们的网页，按F12进入下面页面第四、定位菜单属性找到左上角的小箭头，并点击，然后根据我们要爬取的菜品，点击即可定位到代码位置第五、接下来我们一起分析网页吧～进入首页 https://movie.douban.com/top250?start=0&filter= ，打开检查工具，在Elements里查看这个网页，是什么结构。点击开发者工具左上角的小箭头，选中“肖申克的救赎”，这样就定位了电影名的所在位置，审查

python 爬取菜单生成菜谱，做饭买菜不用愁

数据森麟

05-30

1728

作者：木下瞳来源：木下学Python前言前几天小编在家当主厨，从买菜到端上桌的全部流程都有小编操办，想着就弄一些简单一些的菜，就没有多想，可当小编去到超市站在一堆菜的...

这些美食你吃过吗！使用Python网络爬虫获取菜谱图文信息一起学习

y4544159的博客

09-26

1609

/1 前言/ 在放假时，经常想尝试一下自己做饭，下厨房这个网址是个不错的选择。下厨房是必选的网址之一，主要提供各种美食做法以及烹饪技巧。包含种类很多。今天教大家去爬取下厨房的菜谱，保存在world文档，方便日后制作自己的小菜谱。 /2 项目目标/ 获取菜谱，并批量把菜名、原料、下载链接、下载保存在world文档。 / 3 项目准备/ 软件： PyCharm 需要的库： requests 、 lxml 、 fake_useragent、 time ...

Python爬虫：简单爬取粤菜菜谱

甜鲸鱼的博客

12-06

905

使用BeautifulSoup和正则表达式爬取粤菜菜谱中的菜名、工艺、口味、制作时长、食材、图片等信息。

Python爬虫项目集合-pyspider-project.zip

01-30

总结，"Python爬虫项目集合-pyspider-project.zip"为Python爬虫学习者提供了一个实战平台，通过深入研究"pyspider-project-master"，不仅能掌握pyspider的基本用法，还能了解到爬虫开发的完整流程，对于提升Python...

【python爬虫】资源pyspider-v0.3.10

最新发布

05-16

【Python爬虫】资源pyspider-v0.3.10是一个专注于Python语言的爬虫框架，它为开发者提供了一站式的网络数据抓取、处理、分析以及存储解决方案。pyspider以其易用性、灵活性和强大的功能在Python爬虫领域中占据...

爬虫-菜谱信息爬取（保存至数据库）

Tpintell的博客

03-27

1927

爬取网站信息，进行数据清洗，保存至数据库，进行简单的词云分析

Python-爬虫爬取豆果网和美食网的菜单

08-12

本文主要是介绍如果爬取豆果网和美食网的菜单，并保存在本地，我是以列表的形式保存在TXT文件里，大家有兴趣的可以改一改，下载入数据库或者CSV，json等文件都可以。

每日爬虫练习——爬菜谱

12-22

学习编程就想学习骑自行车一样，对新手来说最重要的是持之以恒的练习。在《汲取地下水》这一章节中看见的一句话：“别担心自己的才华或能力不足。持之以恒地练习，才华便会有所增长”，现在想来，真是如此。 ''' 爬虫练习 ---下厨房 version：01 author:金鞍少年 date:2020-02-24 ''' import requests from bs4 import BeautifulSoup import re class xiachufang(): def __init__(self): self.count = 1 # 计数 self.c

【PythonPlanet】爬虫_菜谱

weixin_42814182的博客

08-05

131

# 引用requests库 import requests # 引用BeautifulSoup库 from bs4 import BeautifulSoup headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36'} # 获取数据 res_foods = requests.get('http:

我用Python爬取美食网站3032个菜谱并分析，真香！

xjt921122的博客

02-20

2024

这是巨变的中国，人和食物，比任何时候走的更快。近日，J哥为了寻味中国，奔走于某五线城市的大街小巷，结果除了累，啥也没寻到。于是，J哥默默打开了各大美食网站，如豆果美食、下厨房、美食天下等。经过甄选，最终爬取了豆果网最新发布的中国菜系共3032个菜谱，然后清洗数据并做可视化分析，试图走上美食博主的康庄大道。数据获取豆果美食网的数据爬取比较简单，如果您对爬虫感兴趣，可查看J哥往期原创文章，思路一致。豆果美食网本次爬取的数据范围为川菜、粤菜、湘菜等八个中国菜系，包含菜谱名、链接、用料、评分、图片等字段。

学习记录：python简易爬取菜谱

人生苦短，何妨一试

12-14

558

爬取下厨房菜谱：http://www.xiachufang.com/explore/ 爬取内容有：菜的标题材料成分以及点击标题跳转该菜的菜谱制作页面链接 shift + ctrl + i 调出检查器查看网页构成标题都位于div class=“info pure-u”这里我可以爬取到标题了 a标签的 href获取的链接不完整，我们需要做数据拼接下面为代码 #导入requests ...

python爬虫爬取下厨房食谱，周末聚餐真的停不下来

看花容易绣花难

12-21

2518

python爬虫爬取下厨房食谱，周末聚餐真的停不下来

python爬取好豆网菜谱

Candy_boy

07-30

1125

爬取过程分析： 1、分析网页，发现好豆网的菜谱的url均为：https://www.haodou.com/recipe/id/ 2、用beautifulsoup解析网页获得菜名，图片及菜谱 3、将菜的图片存至本地，以菜名命名，将菜谱 import requests import urllib import re import lxml from bs4 import BeautifulSoup ...

Python Pyspider实战：V2EX网站帖子爬取与数据存储

PySpider框架是针对Python爬虫开发的一款强大工具，由国人开发，支持分布式架构和多数据库后端，提供了丰富的Web用户界面（UI），包括脚本编辑器、任务监视器、项目管理器和结果查看器。其在线示例可在<http://demo....