最近看到身边不少朋友在看电子书,想到自己接触Python爬虫也有段时间了,于是就决定找篇小说来练练手,哈哈哈。
在某小说网随便找了一篇,首先看下要爬取的小说页码有没有什么规律,http://book.zongheng.com/chapter/774770/43742964.html
http://book.zongheng.com/chapter/774770/43764713.html
http://book.zongheng.com/chapter/774770/43790004.html
http://book.zongheng.com/chapter/774770/43801354.html
这是前四章的URL,很可惜并没有发现每章之间有什么规律,然后注意到左上角的目录导航,点击进入http://book.zongheng.com/showchapter/774770.html,发现从这个页面可以直接进入任何一个章节,或许我们想找的页面urls就在这里了。右键“审查元素”,果不其然,我们要找的就在这里。
到了这里,感觉胜利已经在招手了,接下来就是requests+beaut