爬虫基础知识

1:什么是爬虫

  • 用来代替人去模拟浏览器进行操作的程序
  • 总的来说就是使用程序来模拟人去网络上获取数据

1.1:爬虫的模仿

  • 1:写的更接近人的实际行动
  • 2:注意反反爬
  • 3:添加请求头
  • 4:注意节奏,爬取的速度太快的话会被网站网站封IP

2:为什么写爬虫

  • 1:爬虫可以为其他的程序提供数据
  • 2:可以在短时间内获取大量的数据
  • 3:用于数据分析
  • 3:Al、人工智能

2.1:企业获取数据的方式

  • 1:公司自己用的
  • 2:第三方平台购买的(百度制数–>免费)
  • 3:爬虫开发程序员

3:使用python做爬虫的优势

  • 1:支持的模块多
  • 2:代码简介
  • 3:开发效率高(scrapy框架)

3.1:网站的语句

  • site:可以观看一个网站收录了多少的数据

4:爬虫的分类

  • 通用爬虫:百度
  • 聚焦爬虫:爬虫开发要做的就是聚焦爬虫

5:爬虫的几个常见概念

5.1:GET和POET请求

  • GET和POST都是爬虫的一种请求方法
  • GET请求:只会从服务器获取数据,但是不会对服务器产生干扰,其参数可以在URL上看到
  • POST请求:会向服务器发送请求(登录,上传文件),会对服务器产生影响,它的参数不会出现在URL上

5.2:URL

  • URL:全球统一资源定位符
  • 如:https://www.jianshu.com/writer#/notebooks/49957068/notes/86631582
    https:协议
    www.jianshu.com:域名(host)
    余下的:访问资源的路径,
    但是该URL省略了端口号443

6:其它知识

6.1:User-Agent

  • 用户代理,反反爬的第一步
  • 定义在一个字典中,User为键,Agent为值

6.2:header

  • 头的意思,有请求头,和响应头

6.3:cookie

  • 记录用户的相关信息
  • HTTP本身是无状态的,服务器无法判断用户的身份,cookie实际就是一段记录用户的文本信息
  • 使用字典来保存cookie,键为cookie,值为文档字符串
  • cookie只是用来记录客户端的信息,在写爬虫的时候先别加,不行的时候再加

6.4:refer

  • 表明当前的url是从那个地方过来的,是一种反反爬的技术

6.5:状态码(code)

  • 200:表示请求成功
  • 404:表示请求失败
  • 301:永久重定向,如京东的网址
  • 302:临时重定向
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值