scrapy框架 & xpath常用基本语法

本文介绍了使用Scrapy框架进行网页爬取的基本步骤,包括创建项目、编辑spider文件、保存网页内容等。同时,讲解了XPath的基础语法,如属性定位、按序选择和嵌套选择,并提到了`extract()`与`extract_first()`方法的区别。
摘要由CSDN通过智能技术生成

一、scrapy:

1、创建项目

scrapy startproject myproject    #myproject 为项目名

2、列出所有模板

scrapy genspider -l

3、创建爬虫

scrapy genspider -t crawl zhihu zhihu.com    # zhihu 为爬虫名 zhihu.com为爬取网站域名
scrapy genspider spiders zhihu.com    # spiders为爬虫名 zhihu.com为爬取网站域名

4、运行spider

scrapy crawl spidername  # 输出日志加源代码
scrapy crawl spidername --nolog  # 只输出源代码
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值