可能的情况:
1、url的问题
2、xpath路径问题
3、网页标签class,id属性等一定要注意看后面有没有空格
关于xpath路径问题
之前在做的爬虫都是用的xpath去获取内容,又想偷懒,所以就直接在源码那里直接复制路径,
然后就很容易踩雷了(我算是踩了很多坑了,不知道有没有小伙伴和我一样踩过这样的坑):
此时可能会得到如下路径:
/html/body/div[2]/div[6]/table/tbody/tr[6]/td[1]/a/span
然后跑开始爬虫,结果等来的却是一个‘[]',空列表很伤心。
为什么会空列表?
其中一个原因,你要看看你复制下来的路径中有没有tbody,
解决办法
我们需要把其中的tbody去掉即可(这个坑困扰了我好久,某天终于解决!)
原因:为什么需要去掉tbody?
浏览器会对html文本进行一定的规范化,所以会自动在路径中加入tbody
,导致读取失败,在此处直接在路径中去除tbody
即可。
其实有时候直接复制xpath不一定是对的,就比如上面,就出错了。
因为有些网站反爬虫的手段比较高明,它的网页其实是动态的,给你展示看到的源码你最终不一定能爬取到内容,所以很容易出现空列表这一情况。 希望大家早点避雷,不要像我一样!
tbody误我!!!!!