爬虫前导知识

#1.端口
每一个应用程序都有他们独立的标识 这个标识我们称之为端口
Eg QQ发消息是QQ接收而不是微信呢
#2.通讯协议
TCP/IP 国际组织定义的通用的通信协议
HTTP 超文本传输协议 通讯协议 80 html 超文本标记语言 超文本(网页源代码html)
#3.网络模型
https = http + ssl 是以安全为目标的http通道 443

  • http的安全版本 ssl是用于web的安全传输协议
  • http和ssl是在应用层的
    #4HTTP的请求和响应
    1)General的全部
    Request URL 请求的地址
    Request Method 请求的方式(get post 一般我们看到的是啥请求方式就用啥请求方式 但有时也要具体情况具体分析)
    Status Code 状态码
    静态加载的页面 数据都在网页源码中
    动态加载的页面 Requests URL(目标url)是需要去network中分析数据包才能找到的 response看响应的结果在这里插入图片描述
    2)Request Header
    headers请求头 = {
    请求方式 目标url (不加)
    Host: www.baidu.com 域名 (可加可不加)
    Connection: keep-alive 长连接 (不加)
    User-Agent: 用户代理(操作系统、浏览器和浏览器版本号) 一般是反反爬的第一步 (加)
    Accept-Encoding: gzip, deflate (不加 加了数据可能会出现问题)
    Cookie:xxx 记录了服务器与用户的信息 (加不加看情况) 一般有时间限制
    Referer:xxx 页面跳转 记录了当前页面是由哪个页面(url)过来的 (加不加看情况)
    }
    在这里插入图片描述
    在这里插入图片描述
    3)Response Header
    Query String Parameters
    有url中的所有参数
    在这里插入图片描述
    #5爬虫的介绍
    爬虫:代替人模拟浏览器去访问和获取互联网上信息的一个小程序
    爬虫的分类;
    通用网络爬虫 eg baidu google
    聚焦网络爬虫 到互联网上有选择有目的的去抓取特定的目标和相关主题内容
    其他的:增量式、深层网络爬虫(不需要了解)
    为什么要爬虫呢?
    • 为其他程序提供数据源
    • 数据分析
    • AI人工智能

企业获取数据的方式?
- 公司自己有的数据
- 第三方数据平台
- 免费的大数据平台
- 付费的大数据平台
- 爬虫爬取的数据 爬虫开发者

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值