requests
男神的世界不拥挤
这个作者很懒,什么都没留下…
展开
-
猿人学12题:入门JS
分析网址题目:需要将5页中的数加起来url:http://match.yuanrenxue.com/match/12第一步:F12进行抓包可以看见我们需要的数据都在这个请求中第二步:请求该URL需要携带那些参数 需要携带一个page和m参数page就是第几页,m参数看上去是加密过的,我们进行下一步分析找到m函数具体实现方法第三步:分析m参数是如何加密 我们直接进入到该请求的发起者,也就是调用栈,点击这个request可以清晰的看到m参数是如何实现的,m ="yuanre原创 2021-07-28 10:46:29 · 133 阅读 · 0 评论 -
Python爬虫(三)代理和cookie
代理代理概念:代理服务器接受请求 -> 请求转发免费代理IP:- 快代理- 西祠代理- 代理精灵- www.goubanjia.com代理的匿名程度:- 透明代理:目的服务器知道你使用了代理机制并且也知道你的真实IP- 匿名代理:知道使用了代理机制,但是不知道你的真实ip- 高匿代理:不知道使用了代理,也不知道你的真实ip实战1#准备:#代理ip和端口号#测试的过程import requestsurl = 'https://www.baidu.com/s?ie原创 2021-07-17 11:52:13 · 218 阅读 · 0 评论 -
Python爬虫(二)数据解析Xpath
xpath的使用安装-pip install lxml解析原理(流程)-实例化一个etree对象,将需要解析的数据加载到改对象中-调用etree对象中的xpath方法结合不同的xpath表达式进行标签定位和文本数据提取etree对象实例化- etree.parse(“FilePath”):将本地数据加载到etree对象中- etree.HTML(page_text):将爬取的数据加载到该对象中html中所有标签是遵循了树状结构xpath方法的返回值是一个列表使用标签定位原创 2021-07-05 13:54:36 · 165 阅读 · 0 评论 -
Python爬虫(二)数据解析之BeautifulSoup
bs4是如何解析的bs4数据解析解析原理:-实例化一个BeautifulSoup对象,将需要解析的页面源码加在到该对象中-调用BeautifulSoup对象中的方法和属性实现对标签定位和文本数据的提取bs4 操作#安装 #- pip install bs4 #- pip install lxml#实例化方式 #- BeautifulSoup(page_text,'lxml'):将互联网请求的数据加在到该对象#bs4相关解析操作#标签定位 # soup.tagName:定位到原创 2021-07-01 14:11:29 · 315 阅读 · 0 评论 -
Python爬虫requests的基本使用
1,爬虫概述什么是爬虫-通过编写代码模拟用户去访问网站,在网站中抓取数据。2,Requests模块的基本上使用requests模块作用:模拟浏览器发送请求环境安装:pip install requests实战1:爬取百度首页数据#1,requests.get(url,[headers],[params],[proxies]) 向指点网站发送get请求数据 #- url:网址,必须参数 #- headers:请求头,[可选参数] #- params:请求网址需要携带的参数,原创 2021-06-30 13:59:17 · 157 阅读 · 0 评论