具体步骤:
1.指定url网址
2.发送请求,访问网址
3.获取响应数据
4.持久化存储,保存在数据库或本地
#UA伪装
#UA:User-Agent(请求载体的身份标题 )
import requests
if __name__ == '__main__':
headers = {
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/119.0.0.0 Safari/537.36 Edg/119.0.0.0'
}
#实现简易网页采集器
url='https://www.sogou.com/web' #处理url携带的参数,封装到字典
kw = input('enter a word:') #输入对应的搜索词
param = {
'query':kw
}
response = requests.get(url=url,params=param,headers=headers) #对指定的url发起的请求是携带参数的,请求过程中处理
page_text = response.text
fileName = kw+'.html'
with open(fileName,'w',encoding='utf-8')as fp:
fp.write(page_text)
print(fileName,'保存成功!')
运行后命令行输入想要采集的搜索结果,文件保存在本地
选择浏览器打开即可