异步加载——简书大学堂

2019-12-01
今天进行异步加载的练习,练习的网页是:简书大学堂https://www.jianshu.com/c/e048f1a72e3d?order_by=added_at&page=1

进入页面,会发现该页面跟平常的网页不太一样,它没有“下一页”类似的按钮,滚动鼠标即刻加载了新的页面信息,这种就采用了异步加载的技术。
今天我们爬取的内容有:文章的摘要、作者、标题、点赞数。

from lxml import etree
import re
import requests
import time
headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36'}
urls=['https://www.jianshu.com/c/e048f1a72e3d?order_by=added_at&page={}'.format(i) for i in range(1,4)]
abs=[]#创建空列表储存“摘要”
for url in urls:
    page=requests.get(url,headers=headers)
    time.sleep(3)
    select=etree.HTML(page.text)
    title=select.xpath('//div/a[@class="title"]/text()')
    abstracts=select.xpath('//p[@class="abstract"]/text()')#爬取摘要
    for ab in abstracts:#对摘要进行简单的处理
        ab=ab.replace("\n","")
        ab = ab.replace(' ', '')
        abs.append(ab)
    like=re.findall(r'<span><i class="iconfont ic-list-like"></i> (.*?)</span>',page.text)#爬取点赞数
    author=select.xpath('//a[@class="nickname"]/text()')
for t,a,k,au in zip(title,abs,like,author):#进行打包输出
    data={
            "标题":t,
            "作者": au,
            "点赞数":k,
            "摘要": a
    }
    print(data)

爬取的结果如下:在这里插入图片描述
若有不足之处,请给予指正
谢谢啦

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值