超详细python爬虫教程，爬虫数据不是问题。

最新推荐文章于 2020-11-17 10:43:58 发布

yingpu618

最新推荐文章于 2020-11-17 10:43:58 发布

阅读量298

点赞数

文章标签： python 数据库

原文链接：https://www.toutiao.com/i6816524016350659079/

版权

requests，相比大家都听说过，用过的人都说好！现在requests库的作者又发布了一个新库，叫做requests-html，看名字也能猜出来，这是一个解析HTML的库，而且用起来和requests一样爽，下面就来介绍一下它。

无私分享全套Python爬虫干货，如果你也想学习Python，@ 私信小编获取

获取网页

requests-html和其他解析HTML库最大的不同点在于HTML解析库一般都是专用的，所以我们需要用另一个HTTP库先把网页下载下来，然后传给那些HTML解析库。而requests-html自带了这个功能，所以在爬取网页等方面非常方便。

下面的代码获取了糗事百科上面的文字段子页面，返回的对象r是 requests.Reponse类型，更确切的说是继承自前者的requests_html.HTMLResponse类型。这里其实和requests库的使用方法差不多，获取到的响应对象其实其实也没啥用，这里的关键就在于r.html这个属性，它会返回requests_html.HTML这个类型，它是整个requests_html库中最核心的一个类，负责对HTML进行解析。我们学习requests_html这个库，其实也就是学习这个HTML类的使用方法。

from requests_html import HTMLSession


session = HTMLSession

r = session.get('https://www.qiushibaike.com/text/')

// 查看页面内容

print(r.html.html)

获取链接

links和absolute_links两个属性分别返回HTML对象所包含的所有链接和绝对链接（均不包含锚点）。

# 获取链接

print(r.html.links)

print(r.html.absolute_links)

{'/article/104353012', '/article/120616112', '/users/32331196/'}

{'https://www.qiushibaike.com/imgrank/', 'https://www.qiushibaike.com/article/120669516', 'https://www.qiushibaike.com/article/120682041'}

获取元素

request-html支持CSS选择器和XPATH两种语法来选取HTML元素。首先先来看看CSS选择器语法，它需要使用HTML的find函数，该函数有5个参数，作用如下：

selector，要用的CSS选择器；

clean，布尔值，如果为真会忽略HTML中style和script标签造成的影响（原文是sanitize，大概这么理解）;

containing，如果设置该属性，会返回包含该属性文本的标签；

first，布尔值，如果为真会返回第一个元素，否则会返回满足条件的元素列表；

_encoding，编码格式。

下面是几个简单例子：

# 首页菜单文本

print(r.html.find('div#menu', first=True).text)

# 首页菜单元素

print(r.html.find('div#menu a'))

# 段子内容

print(list(map(lambda x: x.text, r.html.find('div.content span'))))

热门 24小时 热图 文字 穿越 糗图 新鲜

[<Element 'a' href='/' rel=('nofollow',)>, <Element 'a' href='/hot/'>, <Element 'a' href='/imgrank/'>, <Element 'a' id='highlight' href='/text/'>, <Element 'a' href='/history/'>, <Element 'a' href='/pic/'>, <Element 'a' href='/textnew/'>]

爬虫例子

文章写完了感觉有点空洞，所以补充了几个小例子。不得不说requests-html用起来还是挺爽的，一些小爬虫例子用scrapy感觉有点大材小用，用requests和BeautifulSoup又感觉有点啰嗦，requests-html的出现正好弥补了这个空白。大家学习一下这个库，好处还是很多的。

爬取简书用户文章

简书用户页面的文章列表就是一个典型的异步加载例子，用requests-html的话可以轻松搞定，如下所示，仅仅5行代码。

r = session.get('https://www.jianshu.com/u/7753478e1554')

r.html.render(scrolldown=50, sleep=.2)

titles = r.html.find('a.title')

for i, title in enumerate(titles):

print(f'{i+1} [{title.text}](https://www.jianshu.com{title.attrs["href"]})')

当然这个例子还有所不足，就是通用性稍差，因为文章列表没有分页机制，需要一直往下拉页面，考虑到不同的用户文章数不同，需要先获取用户总文章数，然后在计算一下应该下滑页面多少次，这样才能取得较好的效果。

为了帮助大家更轻松的学好Python，我给大家分享一套Python学习资料，希望对正在学习的你有所帮助！

获取方式：关注并私信小编 “ 学习 ”，即可免费获取！

yingpu618

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
超详细python爬虫教程，爬虫数据不是问题。

requests，相比大家都听说过，用过的人都说好！现在requests库的作者又发布了一个新库，叫做requests-html，看名字也能猜出来，这是一个解析HTML的库，而且用起来和requests一样爽，下面就来介绍一下它。无私分享全套Python爬虫干货，如果你也想学习Python，@ 私信小编获取获取网页requests-html和其他解析HTML库最大的不同点在于HTML解...
复制链接

扫一扫