前提:是、一枚python小白,想学习一些python爬虫的技能,并且这就是第一步,记录并监督自己不断学习,当让如果内容帮助到了你的话,也非常的开心;
今天所学:爬取搜狗浏览器
爬虫主要分为四个步骤:
1.选定你所想爬的网站(使url='...')
2.获取网站中的东西即数据(使requests.get(url,param,kwarg*))
3.将数据内容赋给一个代名字(content)
4.保存内容到一个文件当中(with open (...,'...',...') as fp:)
这样你所爬的网站就是你所看到的所有,是固定死的
为了更加灵活一点,咱们得通过字典的形式来增加变量即创建一个param
这样就可以把静态的变为动态的
再者,网站会对爬虫程序进行反爬,所以咱们得伪装成浏览器的用户身份(user-agent)以免被拦截
这里简单提提怎么查询user-agent,进入需要爬的网站
按Fn+F12--弹出工具栏--打开网络--随你便选取一个项目点击----滑至最下查询复制粘贴
然后进行编写,以下是学习编写的简单代码:
import requests
headers={
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/100.0.4896.60 Safari/537.36 Edg/100.0.1185.29' //为自己电脑user-agent
}
url='https://www.sogou.com/web?'//所爬网站
search=input("what do u want to search?")//变量
param={
'query':search
}
area = requests.get(url=url,params=param,headers=headers)//赋予名字
content=area.text
fileName=search+'.html'
with open (fileName) as fp//保存数据
fp.write(content)
print(" the project overed")