爬取简书标题和摘要

最新推荐文章于 2023-11-22 19:25:18 发布

蜕_变

最新推荐文章于 2023-11-22 19:25:18 发布

阅读量881

点赞数

分类专栏：初识python 文章标签： url python爬虫

本文链接：https://blog.csdn.net/william_sunrise/article/details/78857918

版权

初次尝试爬取简书网站的标题和摘要，遇到问题：爬取的标题数量与摘要数量不一致，且两者数量并不相等。尽管存在小问题，但作为初次实践，是一个宝贵的体验和学习过程。

摘要由CSDN通过智能技术生成

有些小瑕疵不知道为啥爬取的标题个数与摘要个数不是整个页面的，而且两者也不相等，不过是第一次做出来，简单记录一下啦~~~~

import urllib.request
import re
import os

def url_open(url):
    req=urllib.request.Request(url)
    req.add_header('User-Agent','Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.113 Safari/537.36')
    response=urllib.request.urlopen(url)
    html=response.read().decode('utf-8')
    return html

def get_title