文章目录 爬取豆瓣电影前250的电影资源,地址(https://movie.douban.com/top250) 1. items.py:设置数据存储模板,用于结构化数据 2. spiders:爬虫目录,如:创建文件,编写爬虫规则。 3. pipelines:数据处理行为,如:一般结构化的数据持久化 4. settings.py:配置文件,如:递归的层数、并发数,延迟下载等 运行效果,mongodb中的存储结果展示 爬取豆瓣电影前250的电影资源,地址(https://movie.douban.com/top250) 按照scrapy的处理流程可以整理如下操作: 1. items.py:设置数据存储模板,用于结构化数据 在items.py文件中定义字段,这些字段用来保存数据,方便后续的操作。 imp