爬虫学习笔记1——基本思路

最新推荐文章于 2023-02-14 14:00:00 发布

weixin_44874830

最新推荐文章于 2023-02-14 14:00:00 发布

阅读量198

点赞数

分类专栏：爬虫学习笔记

本文链接：https://blog.csdn.net/weixin_44874830/article/details/103990185

版权

爬虫学习笔记1——基本思路

获取网页html

源代码来自崔庆才《python3网络爬虫开发实战》

获取网页html

使用requests库的get（url , headers）方法headers是用户代理，在浏览器地址栏输入“about：version”就可看到。代码如下：

def get_one_page(url):
	try:
		headers = {
   
			'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64)' 
				+'AppleWebKit/537.36 (KHTML, like Gecko)' 
				+'Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3742.400' 
				+'QQBrowser/10.5.3864.400'
				}
		response = requests.get(url,headers=headers)
		if response.status_code == 200:
			return response.text
		return None
	except RequestException:
		return None

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_44874830

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
爬虫学习笔记1——基本思路

爬虫学习笔记1——基本思路获取网页html从html中提取所需信息存储信息主函数中给出要爬取的网页的url,将各部分连接源代码来自崔庆才《python3网络爬虫开发实战》获取网页html使用requests库的get（url , headers）方法headers是用户代理，在浏览器地址栏输入“about：version”就可看到。代码如下：def get_one_page(url): ...
复制链接

扫一扫