#引入requests库*
import requests
#定义通用爬虫代码框架
def getHTMLText(url):
try:
#设置代理服务器,隐藏IP地址,预防爬虫反追踪
pxs = {'http':'https://10.10.10.1:4321'}
r=requests.request('get',url,proxies=pxs)
r.raise_for_status() #判断拟爬取的url是否连接正常,200:正常,否则引发HTTPError异常
r.encoding = r.apparent_encoding
return r.text
except:
return '产生异常'
if __name__ == '__main__':
url = "https://www.baidu.com"
print(getHTMLText(url))
注:复制代码可能存在缩进问题,需要手动改一下