1、创建项目
scrapy startproject CSDN
cd CSDN
scrapy genspider csdn www.csdn.net
2、分析网页
然后首先应该是要对这个页面进行xpath分析,抓取这些元素
然后随便点进里面的一个标题,再分析网页,这里点击的标题是python,然后下拉网页,发现它没有分页,获取新数据的方式是下拉页面,也就是瀑布流。然后对返回的数据进行分析,发现有一个请求,返回的是json数据,把这个json数据复制出来,格式化一下,发现是这样的
点进这些url,发现是一个博主的博客列表页,继续往下翻
打开url,发现这个网页就是这个json里的数据