Requests爬虫通用代码框架

最新推荐文章于 2023-07-08 14:15:00 发布

weixin_44318102

最新推荐文章于 2023-07-08 14:15:00 发布

阅读量276

点赞数

分类专栏： Python爬虫

原文链接：https://blog.csdn.net/FLORIDA_tang/article/details/80317704?depth_1-utm_source=distribute.pc_relevant.none-task&utm_source=distribute.pc_relevant.none-task

版权

Python爬虫专栏收录该内容

11 篇文章 2 订阅

订阅专栏

#引入requests库*
import requests	
#定义通用爬虫代码框架
def getHTMLText(url):	
  try:
#设置代理服务器，隐藏IP地址，预防爬虫反追踪
	pxs = {'http':'https://10.10.10.1:4321'}
	r=requests.request('get',url,proxies=pxs)
	r.raise_for_status()	#判断拟爬取的url是否连接正常，200：正常，否则引发HTTPError异常
	r.encoding = r.apparent_encoding
	return r.text
  except:
	return '产生异常'
if __name__ == '__main__':
  url = "https://www.baidu.com"
  print(getHTMLText(url))

注：复制代码可能存在缩进问题，需要手动改一下

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_44318102

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Requests爬虫通用代码框架

import resquests #引入requests库def getHTMLText(url): try: r=requests.get(url,timout = 30) r.raise_for_status() #判断拟爬取的url是否连接正常，200：正常，否则引发HTTPError异常 r.encoding = r.apparene_encoding return r.te...
复制链接

扫一扫