创建一个 scrapy 爬虫项目
1. 下载
进入 cmd 中运行下面的语句
pip3 install scrapy
查看是否安装成功
import scrapy
scrapy.version_info
scrapy
2. 创建一个新项目
scrapy startproject mySpider
进入项目路径
cd mySpider
用 IDEA 打开
3. 生成一个爬虫
到项目目录下运行下面的语句
scrapy genspider 项目名 域名
scrapy genspider csdn blog.csdn.net
tree 可以看见目录结构
tree
4. 运行
scrapy crawl 项目名
scrapy crawl csdn
import scrapy
class CsdnSpider(scrapy.Spider):
# 项目名称
name = 'csdn'
# 允许爬取的范围
allowed_domains = ['blog.csdn.net']
# 最开始请求的 url 地址
start_urls = ['http://blog.csdn.net/']
def parse(self, response, **kwargs):
content = response.xpath("//div/ul[1]/li[1]/a[1]/text()")
print(content)
5. 修改日志水平和返回的内容
在 settings.py 文件中设置,目的让运行后打印的内容是想看的
LOG_LEVEL = "WARNING"
.extract() 方法返回 data 数据
content = response.xpath("//div/ul[1]/li[1]/a[1]/text()").extract()
添加日志
import logging
# 显示位置
logger = logging.getLogger(__name__)
使用日志
logger.warning("warning 日志...")
6. 其他设置
添加 USER_AGENT
USER_AGENT = "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:88.0) Gecko/20100101 Firefox/88.0"
不检验 robots.txt 规则
ROBOTSTXT_OBEY = False