爬虫基础知识笔记
wlrobot
这个作者很懒,什么都没留下…
展开
-
Python爬虫基础知识笔记——代理
代理(破解封IP这种反爬机制)代理的作用突破自身IP访问的限制隐藏自身真实IP反爬机制:封ip反反爬策略:使用代理进行请求发送代理相关的网站快代理西祠代理www.goubanjia.com代理ip的类型:http:应用到http协议对应的url中https:应用到https协议对应的url中import requestsurl="https://www.baidu.com/s?wp=ip"headers = { 'User-Agent':'Mozilla原创 2021-07-04 13:25:33 · 95 阅读 · 0 评论 -
Python爬虫基础知识笔记——xpath解析
xpathxpath解析原理实例化一个etree的对象,且需要将被解析的页面源码数据加载到改对象中。调用etree对象中的xpath方法结合着xpath表达式实现标签的定位和内容的捕获。xpath环境的安装如何实例化一个etree对象将本地的html文档中的源码数据加载到二tree对象中:etree.parse(filePath)可以将互联网上获取的源码数据加载到该对象中,etree.HTML(‘page_text’)xpath('xpath表达式’)xpath表达式/:表原创 2021-07-04 12:37:18 · 124 阅读 · 0 评论 -
Python爬虫基础知识笔记——聚焦爬虫bs4
bs4(Python独有)bs4数据解析的原理:实例化一个BeautifulSoup对象,并将页面源码数据加载到该对象中通过调用BeautifulSoup对象相关的属性或者方法进行标签定位和数据提取环境的安装下载lxml的解析器实例化BeautifulSoup...原创 2021-05-24 17:11:36 · 115 阅读 · 0 评论 -
Python爬虫基础知识笔记——聚焦爬虫正则
数据解析数据解析的原理:数据解析分类正则bs4xpath聚焦爬虫爬取页面中指定的页面内容。爬取图片import requestsurl='https://pic.qiushibaike.com/system/pictures/12432/124323774/medium/4TR4PKG57RJD1N82.jpg'#content返回的是二进制的图片数据#text(字符串)content(二进制)json(对象)img_data=requests.get(url).conten原创 2021-05-16 16:16:14 · 85 阅读 · 0 评论 -
Python爬虫基础知识笔记——requests2
requests爬取搜狗指定词条对应的搜索结果页面(简易网页采集器)UA:User-Agent(请求载体的身份标识)UA伪装:门户网站的服务器会检测对应请求的载体身份标识,如果检测到请求的载体身份为某以款浏览器,说明该请求是一个正常的请求。都是如果检测到的请求的载体身份标识不是基于某一款浏览器的,则表示该请求为不正常的请求(爬虫),则服务器端就很有可能拒绝该次请求。所以正常爬取会失败,所以我们要使用UA伪装。UA伪装UA伪装:让爬虫对应的请求载体身份标识伪装成某一款浏览器。注:浏览器身份标识可原创 2021-05-10 12:49:27 · 283 阅读 · 0 评论 -
Python爬虫基础知识笔记——requests
requests模块requests模块:Python中原生的一款基于网络请求的模块,功能强大,简单便捷,效率高。作用:模拟浏览器发请求。如何使用:指定url发起请求获取响应数据持久化存储import requestsif __name__=="__main__": #指定url url="https://www.sogou.com/" #发起请求 #get方法返回一个响应对象 response=requests.get(url=url)原创 2021-05-02 16:55:45 · 144 阅读 · 1 评论 -
Python爬虫基础知识笔记——HTTP基本原理
文章目录HTTP基本原理URI和URL超文本HTTP和HTTPSHTTP基本原理URI和URLURI的中文意思是统一资源标志符。URL是URI的子集,URI还有一个子集为URN。超文本浏览器中的文本就是超文本解析出来的,其网页源码是一系列HTML代码,里面包含了一系列的标签,网页的源代码HTML就是超文本。HTTP和HTTPSHTTP的意思是超文本运输协议。HTTPS是以安全为目标的HTTP通道,在HTTP下加入SSL层。...原创 2021-04-24 23:27:12 · 113 阅读 · 0 评论