Spider学习笔记（十）:一个Scrapy框架实战操作

最新推荐文章于 2024-08-10 08:01:16 发布

小火skr车

最新推荐文章于 2024-08-10 08:01:16 发布

阅读量414

点赞数

分类专栏： Spider 文章标签： Spider Scrapy 爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xiaohuoche175/article/details/81950885

版权

本文记录了使用Scrapy框架爬取天涯论坛评论中的所有邮箱的步骤，包括创建Scrapy工程、生成爬虫、定义爬取目标、编写爬取逻辑以及设置存储爬取内容的管道。通过运行start.py文件，可以将结果以JSON、CSV或XML格式保存。

摘要由CSDN通过智能技术生成

爬取目标：爬取某论坛评论中的所有邮箱

首先，创建Scrapy工程和项目

在cmd命令中输入如下命令：

scrapy startproject tianya（工程名）

scrapy genspider mytianya "bbs.tianya.cn"(生成mytianya.py文件)(爬取的域名范围)

在工程目录下生成一个start.py文件，方便程序的运行，并编写一下内容在文件中

import scrapy.cmdline

scrapy.cmdline.execute(['scrapy','crawl','mytianya'])

使用效果等同于在cmd中输入命令：

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。