这里写目录标题
1:什么是爬虫
- 用来代替人去模拟浏览器进行操作的程序
- 总的来说就是使用程序来模拟人去网络上获取数据
1.1:爬虫的模仿
- 1:写的更接近人的实际行动
- 2:注意反反爬
- 3:添加请求头
- 4:注意节奏,爬取的速度太快的话会被网站网站封IP
2:为什么写爬虫
- 1:爬虫可以为其他的程序提供数据
- 2:可以在短时间内获取大量的数据
- 3:用于数据分析
- 3:Al、人工智能
2.1:企业获取数据的方式
- 1:公司自己用的
- 2:第三方平台购买的(百度制数–>免费)
- 3:爬虫开发程序员
3:使用python做爬虫的优势
- 1:支持的模块多
- 2:代码简介
- 3:开发效率高(scrapy框架)
3.1:网站的语句
- site:可以观看一个网站收录了多少的数据
4:爬虫的分类
- 通用爬虫:百度
- 聚焦爬虫:爬虫开发要做的就是聚焦爬虫
5:爬虫的几个常见概念
5.1:GET和POET请求
- GET和POST都是爬虫的一种请求方法
- GET请求:只会从服务器获取数据,但是不会对服务器产生干扰,其参数可以在URL上看到
- POST请求:会向服务器发送请求(登录,上传文件),会对服务器产生影响,它的参数不会出现在URL上
5.2:URL
- URL:全球统一资源定位符
- 如:
https://www.jianshu.com/writer#/notebooks/49957068/notes/86631582
https:协议
www.jianshu.com:域名(host)
余下的:访问资源的路径,
但是该URL省略了端口号443
6:其它知识
6.1:User-Agent
- 用户代理,反反爬的第一步
- 定义在一个字典中,User为键,Agent为值
6.2:header
- 头的意思,有请求头,和响应头
6.3:cookie
- 记录用户的相关信息
- HTTP本身是无状态的,服务器无法判断用户的身份,cookie实际就是一段记录用户的文本信息
- 使用字典来保存cookie,键为cookie,值为文档字符串
- cookie只是用来记录客户端的信息,在写爬虫的时候先别加,不行的时候再加
6.4:refer
- 表明当前的url是从那个地方过来的,是一种反反爬的技术
6.5:状态码(code)
- 200:表示请求成功
- 404:表示请求失败
- 301:永久重定向,如京东的网址
- 302:临时重定向