1、创建爬虫项目
scrapy startproject 项目名
scrapy startproject baiduspide
2、创建爬虫文件名、域名【进入项目里面】
cd 项目名
scrapy genspider 文件名 域名
scrapy genspider baidu baidu.com
3、创建爬虫数据项【item.py中定义】
4、编写爬虫文件 baidu.py–>函数parse()解析
5、运行爬虫文件
cd 项目文件
scrapy crawl 文件名
scrapy crawl baidu -o baidu.csv
6.scrapy shell www.baidu.com
response.text
response.xpath("//div[@id=‘u1’]/a")
response.xpath("//div[@id=‘u1’]/a/text()")
response.xpath("//div[@id=‘u1’]/a")[0].xpath(“text()”)
response.xpath("//div[@id=‘u1’]/a")[0].xpath("@href")
scrapy shell www.baidu.com
response.xpath("//div[@id=‘u1’]/a")
response.css("#u1 a::text").get()
response.css("#u1 a::attr(href)").get()
实现思路是使用FormRequest发送Post请求模拟登录,请求发送完成后使用XPath表达式验证页面中是否出现logout链接,如果出现logout链接表示登录成功。
scrapy runspider scrapyPost.py
贝壳新房案例
items.py
class BeikehouseItem(scrapy.Item