python爬虫速查

最新推荐文章于 2022-05-08 20:50:33 发布

呆博士实验室

最新推荐文章于 2022-05-08 20:50:33 发布

阅读量151

点赞数

分类专栏： python 文章标签： python

本文链接：https://blog.csdn.net/zincrain/article/details/109647762

版权

python 专栏收录该内容

10 篇文章 1 订阅

订阅专栏

最近在看北京理工大学的Python嵩天教授的网络爬虫与信息提取课程，开个博客记录一下我认为重要的知识点。
课程主页：中国大学Mooc
课程的练习和测验都在python123上

本博客面向有一定基础或是学习过课程的人，用于查找方便，持续更新，正则表达式见另一博客

Requests库

1.安装

pip install reqursts

2.requests库的7个主要用法

requests.request()#构造一个请求，支撑以下方法
requests.get()
requests.head()
requests.post()
requests.put()
requests.patch()
requests.delete()

在爬虫中我们主要使用requests.get()函数

robots协议

爬取网页html信息

import requests
r = requests.get('http://www.baidu.com')
print(r.status_code)
r.text

通用框架

import requests

def getHTMLText(url):
	try:
		r = requests.get(url,timeout=30)
		r.raise_for_status()#如果状态不是200，引发HTTPError异常
		r.encoding = r.apparent_encoding
		return r.text
	except:
		return '产生异常'

if __name__=='main':
	url='http://www.baidu.com'
	print(getHTMLText(url))

呆博士实验室

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python爬虫速查

最近在看北京理工大学的Python网络爬虫与信息提取，开个博客记录一下我认为重要的知识点。课程主页：中国大学Mooc课程的练习和测验都在python123上本博客面向有一定基础或是学习过课程的人，用于查找方便，持续更新Requests库1.安装pip install requrstsrobots协议...
复制链接

扫一扫

专栏目录