![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
hit-wxb
越努力越幸运
展开
-
爬虫基础篇
爬虫基础篇1 爬虫的基本流程2 一个完整的HTTP请求过程2.1 DNS寻址2.1.1 DNS递归查询2.1.2 DNS迭代查询2.2 建立TCP连接2.2.1 TCP报文格式简介2.2.2 TCP连接之三次握手 1 爬虫的基本流程 爬虫的核心过程是模拟浏览器与服务器交互的过程,首先向服务器发送请求(如HTTP请求、HTTPS请求等),获取到服务器响应结果后将其转化为程序语言可提取对象,然后从对象中解析出的想要的内容以及下一步访问的网址,将内容格式化存储在本地文件或者数据库中,继续向下一个网址发送请求重复上原创 2020-06-16 20:35:13 · 267 阅读 · 0 评论 -
爬虫介绍篇
爬虫介绍篇1 什么是爬虫?2 爬虫的起源与发展3 爬虫的应用场景 1 什么是爬虫? 网络爬虫(又被称为网页蜘蛛,网络机器人),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。可以简单地把网络爬虫的行为理解为以程序代替浏览器,作为客户端与服务器交互,获取服务器数据的过程。 2 爬虫的起源与发展 诞生之初 在搜索引擎没有被开发之前,互联网只是文件传输协议(FTP)站点的集合,用户只能在这些站点中导航以找到特定的共享文件,此时的互联网还没有搜索。因此,人们为了查找和组合互联网上可用的分布式数据,创建原创 2020-06-14 14:40:12 · 874 阅读 · 0 评论