照着scrapy文档学习到了scrapy shell 的selector那部分,通过学习,简单的了解了xpath
配合chrome使用,可以很简单的就爬到网页上你需要的内容。
首先,我们需要有一个chrome浏览器,打开我们要爬取数据的网页,按F12,或者右键打开审查元素
这里用我学校贴吧做例子好了
打开之后大概是这个样子,
比如说我们想获取该页所有帖子的标题,
我们先点一下这个放大镜,然后去点一个帖子的标题,
然后下边会自动帮我们找到我们点击这块区域对应的网页源代码
然后我们在选中的区域上右键
然后切换到控制台,ctrl+v粘贴
$x是表明后边我们要要输入xpath表达式,(不小心刷新了一下网页,又重新做了一遍上边的,所以帖子换了)
如果我们只要标题/内容/url,(我不清楚为什么没有,但是我在scrapy shell用sel.xpath()中是有的)
如果选取该页所有的,也不难