爬虫
文章平均质量分 88
Censor T
小白学习ing
展开
-
爬虫1---基础知识
文章目录一.什么是Urllib二.urllib的用法一.什么是UrllibUrllib是Python内置的HTTP请求库urllib.request— 请求模块urllib.error — 异常处理模块urllib.parse — url解析模块urllib.robotparser— robot.txt解析模块二.urllib的用法...原创 2021-06-28 10:39:15 · 193 阅读 · 1 评论 -
爬虫的基本原理
文章目录一.什么是爬虫?二.爬虫的基本流程三.什么是Request和Response?一.什么是爬虫?爬虫是请求网站并提取数据的自动化程序二.爬虫的基本流程发起请求通过HTTP库向目标站点发起请求,即发送一个Request,请求可以包含额外的headers等信息,等待服务器响应。获取响应内容如果服务器能正常响应,会得到一个Response,Response的内容便是所要获取的页面内容,类型可能有HTML,Json字符串,二进制数据(如图片视频)等类型。解析内容得到的内容可能是HTML,原创 2021-06-23 19:30:25 · 755 阅读 · 0 评论