网站商品信息爬虫代码及详细注释

最新推荐文章于 2024-05-11 13:37:52 发布

H-T-TYSK

最新推荐文章于 2024-05-11 13:37:52 发布

阅读量935

点赞数

分类专栏：编程文章标签：爬虫注释 url 正则表达式

本文链接：https://blog.csdn.net/yuyushikuan/article/details/71091383

版权

import re          #正则表达式库是为了查找
import requests   #requests库是为了获取网页

def getHTMLText(url):  #获取页面,若用bs4解析，就是html格式文本，若不解析，就是一大串字符串
    try:
        r = requests.get(url, timeout = 30) #获得response对象，r是对象
        r.raise_for_status()          #这就是检查是不是很够返回对象
        r.encoding = r.apparent_encoding  #这里改变编码格式，编码格式不一定支持中文，这里让它支持中文
        return r.text  #返回的htm

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

H-T-TYSK

关注关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
网站商品信息爬虫代码及详细注释

import re #正则表达式库是为了查找import requests #requests库是为了获取网页def getHTMLText(url): #获取页面,若用bs4解析，就是html格式文本，若不解析，就是一大串字符串 try: r = requests.get(url, timeout = 30) #获得response对象，r是对象
复制链接

扫一扫