什么是爬虫:网络爬虫是一种按照一定的规则自动地抓取网络信息的程序和脚本,
就是根据一定的算法实现编程开发,主要通过URL实现数据的抓取和发掘。
(通过编写程序,模拟浏览器上网,让后让其去互联网上抓取数据的过程)
URL:在浏览器的地址栏输入的网站地址叫作URL(统一资源定位符)。
爬虫类型:
-- 网络爬虫
-- 聚焦网络爬虫
-- 增量式网络爬虫
-- 深层网络爬虫。
爬虫的合法性:在法律中不被禁止;
爬虫技术本身无罪,问题往往出现在人的无限的欲望上。因此爬虫开发者和企业经营者的道德良知才是避免触碰法律底线的根本所在。
爬虫所带来的的违法风险体现如下:
-- 利用爬虫技术与黑客技术相结合,攻击网站后台,从而窃取后台数据。
-- 利用爬虫恶意攻击网站,造成网站系统的瘫痪。
如何在使用编写的过程中避免进入局子的厄运:
-- 时常的优化自己的程序,避免干扰被访问的网站的正常运行。
-- 在使用,传播爬取到的数据时,审查抓取到的内容,如果发现涉及到用户隐私、商业机密等敏感内容需要及时停止爬取和传播。
http协议:
-- 概念:就是服务器和客户端进行数据交互的一种形式。常用请求头信息
-User-Agent: 请求载体的身份标识
- Connection: 请求完毕后,是断开连接还是保持连接
常用响应头信息
-Content-Type: 服务器响应回客户端的数据类型
https协议:
-- 安全的超文本传输协议I
加密方式
-- 称秘钥加密-非对称秘钥加密-证书秘钥加密。