异步加载——简书大学堂

最新推荐文章于 2024-07-12 16:42:46 发布

安斯在

最新推荐文章于 2024-07-12 16:42:46 发布

阅读量125

点赞数

文章标签：异步加载爬虫 python

本文链接：https://blog.csdn.net/weixin_45140537/article/details/103338264

版权

2019-12-01
今天进行异步加载的练习，练习的网页是：简书大学堂https://www.jianshu.com/c/e048f1a72e3d?order_by=added_at&page=1

进入页面，会发现该页面跟平常的网页不太一样，它没有“下一页”类似的按钮，滚动鼠标即刻加载了新的页面信息，这种就采用了异步加载的技术。
今天我们爬取的内容有：文章的摘要、作者、标题、点赞数。

from lxml import etree
import re
import requests
import time
headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36'}
urls=['https://www.jianshu.com/c/e048f1a72e3d?order_by=added_at&page={}'.format(i) for i in range(1,4)]
abs=[]#创建空列表储存“摘要”
for url in urls:
    page=requests.get(url,headers=headers)
    time.sleep(3)
    select=etree.HTML(page.text)
    title=select.xpath('//div/a[@class="title"]/text()')
    abstracts=select.xpath('//p[@class="abstract"]/text()')#爬取摘要
    for ab in abstracts:#对摘要进行简单的处理
        ab=ab.replace("\n","")
        ab = ab.replace(' ', '')
        abs.append(ab)
    like=re.findall(r'<span><i class="iconfont ic-list-like"></i> (.*?)</span>',page.text)#爬取点赞数
    author=select.xpath('//a[@class="nickname"]/text()')
for t,a,k,au in zip(title,abs,like,author):#进行打包输出
    data={
            "标题":t,
            "作者": au,
            "点赞数":k,
            "摘要": a
    }
    print(data)

爬取的结果如下：在这里插入图片描述
若有不足之处，请给予指正
谢谢啦

安斯在

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
异步加载——简书大学堂

2019-12-01今天进行异步加载的练习，练习的网页是：简书大学堂https://www.jianshu.com/c/e048f1a72e3d?order_by=added_at&page=1进入页面，会发现该页面跟平常的网页不太一样，它没有“下一页”类似的按钮，滚动鼠标即刻加载了新的页面信息，这种就采用了异步加载的技术。今天我们爬取的内容有：文章的摘要、作者、标题、点赞数。fr...
复制链接

扫一扫