url地址分析
百度/豆瓣爬取网站数据,确定url,你爬取的数据基本就确定了,就可以进行后续操作了
1.http,https
都是属于协议的一种
http——超文本传输协议,就是浏览器和服务器之间数据交互遵守的协议
https是由http与ssl组成,ssl是一个安全证书。同时具有服务器验证和数据传输加密的功能
域名相当于IP地址的别名,方便记忆
爬虫流程
1导入模块
requests:请求模块,第三方库
安装第三方库的方法:
1.终端安装:
win+r——cmd——回车
2.python中安装
python下方终端
爆红——time out(超时)
换源安装:pip install requests -i https://pypi.tuna.tsinghua.edu.cn/simple
安装完成之后——successful
2.指定url
当前网页显示的数据都是当前url的
1.在网页源码当中,你想要的数据能够搜索的到,就是静态加载 例如:搜狗搜索
2.在网页代码中,你想要的数据搜索不到,就是动态加载 例如:网易云喜欢程度歌单每日更新
3.确定url:当前的url,对应的就是源码的内容,如果你源码当时有你想要的数据,url就是你当前的url
源代码查看方法:右击查看源码——ctrl+F进行搜索
3.发送请求,获取响应
发请求:就是浏览器向对应的网站服务器发消息,告诉他,我发送了某个内容
获取响应:服务器接收到浏览器的要求,将响应的内容返回给浏览器
发送请求的两种方法
1.get:一般是获取数据,参数会显示在地址栏上 例如:百度搜索
2.post:一般是提交数据,参数不会显示到地址栏上 例如:输入密码,在地址栏上不显示,但是会验证
案例演示
状态码:
200:请求成功
301:永久重定向
302:临时重定向
404:请求失败(服务器无法根据客户端的请求找到资源(网页))
505:服务器内部请求