超详细python爬虫教程,爬虫数据不是问题。

requests,相比大家都听说过,用过的人都说好!现在requests库的作者又发布了一个新库,叫做requests-html,看名字也能猜出来,这是一个解析HTML的库,而且用起来和requests一样爽,下面就来介绍一下它。

无私分享全套Python爬虫干货,如果你也想学习Python,@ 私信小编获取

获取网页

requests-html和其他解析HTML库最大的不同点在于HTML解析库一般都是专用的,所以我们需要用另一个HTTP库先把网页下载下来,然后传给那些HTML解析库。而requests-html自带了这个功能,所以在爬取网页等方面非常方便。

下面的代码获取了糗事百科上面的文字段子页面,返回的对象r是 requests.Reponse类型,更确切的说是继承自前者的requests_html.HTMLResponse类型。这里其实和requests库的使用方法差不多,获取到的响应对象其实其实也没啥用,这里的关键就在于r.html这个属性,它会返回requests_html.HTML这个类型,它是整个requests_html库中最核心的一个类,负责对HTML进行解析。我们学习requests_html这个库,其实也就是学习这个HTML类的使用方法。

from requests_html import HTMLSession


session = HTMLSession

r = session.get('https://www.qiushibaike.com/text/')

// 查看页面内容

print(r.html.html)

获取链接

linksabsolute_links两个属性分别返回HTML对象所包含的所有链接和绝对链接(均不包含锚点)。

# 获取链接

print(r.html.links)

print(r.html.absolute_links)
{'/article/104353012', '/article/120616112', '/users/32331196/'}

{'https://www.qiushibaike.com/imgrank/', 'https://www.qiushibaike.com/article/120669516', 'https://www.qiushibaike.com/article/120682041'}

获取元素

request-html支持CSS选择器和XPATH两种语法来选取HTML元素。首先先来看看CSS选择器语法,它需要使用HTML的find函数,该函数有5个参数,作用如下:

selector,要用的CSS选择器;

clean,布尔值,如果为真会忽略HTML中style和script标签造成的影响(原文是sanitize,大概这么理解);

containing,如果设置该属性,会返回包含该属性文本的标签;

first,布尔值,如果为真会返回第一个元素,否则会返回满足条件的元素列表;

_encoding,编码格式。

下面是几个简单例子:

# 首页菜单文本

print(r.html.find('div#menu', first=True).text)

# 首页菜单元素

print(r.html.find('div#menu a'))

# 段子内容

print(list(map(lambda x: x.text, r.html.find('div.content span'))))
热门 24小时 热图 文字 穿越 糗图 新鲜

[<Element 'a' href='/' rel=('nofollow',)>, <Element 'a' href='/hot/'>, <Element 'a' href='/imgrank/'>, <Element 'a' id='highlight' href='/text/'>, <Element 'a' href='/history/'>, <Element 'a' href='/pic/'>, <Element 'a' href='/textnew/'>]

爬虫例子

文章写完了感觉有点空洞,所以补充了几个小例子。不得不说requests-html用起来还是挺爽的,一些小爬虫例子用scrapy感觉有点大材小用,用requests和BeautifulSoup又感觉有点啰嗦,requests-html的出现正好弥补了这个空白。大家学习一下这个库,好处还是很多的。

 

爬取简书用户文章

简书用户页面的文章列表就是一个典型的异步加载例子,用requests-html的话可以轻松搞定,如下所示,仅仅5行代码。

r = session.get('https://www.jianshu.com/u/7753478e1554')

r.html.render(scrolldown=50, sleep=.2)

titles = r.html.find('a.title')

for i, title in enumerate(titles):

print(f'{i+1} [{title.text}](https://www.jianshu.com{title.attrs["href"]})')

当然这个例子还有所不足,就是通用性稍差,因为文章列表没有分页机制,需要一直往下拉页面,考虑到不同的用户文章数不同,需要先获取用户总文章数,然后在计算一下应该下滑页面多少次,这样才能取得较好的效果。

为了帮助大家更轻松的学好Python,我给大家分享一套Python学习资料,希望对正在学习的你有所帮助!

获取方式:关注并私信小编 “ 学习 ”,即可免费获取!

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值