python爬虫
Monkey大圣
这个作者很懒,什么都没留下…
展开
-
requests模块使用——使用代理proxy
我们使用requests进行一些网络数据读取工作的时候会高频率的访问某些网站,为了防止我们的真实IP地址被对方拉黑,所以就需要再访问的时候使用假的IP地址,也就是所谓的代理代理的逻辑就是在请发送和响应获取的中间部分设置一个可以操作的屏障,大概逻辑类似于下图用法:直接在请求中添加参数 proxies="代理地址"import requestsparamers = {"rtt": "1", "bsst": "1", "cl": "2", "tn": "news", "rsv_dl":原创 2020-05-09 10:01:21 · 9769 阅读 · 0 评论 -
requests模块使用——快速开始requests模块
创建请求get请求requests是一个拥有及其简单API的用于实现HTTP的模块,实现起来非常容易。现在我们以百度新闻为例来尝试一下get请求的实现,只需要直接调用requests模块中的get()函数传入url地址就可以语法:requests.get(url)import requestsresponse = requests.get("http://news.ba...原创 2020-05-08 10:30:06 · 226 阅读 · 0 评论 -
requests模块使用——入门知识
一、requests是干什么的?requests是一个python的库,通过简单的api实现python对http请求的操作,多用于爬虫或者接口测试二、什么是http?TTP协议是Hyper Text Transfer Protocol(超文本传输协议)的缩写,是用于从万维网(WWW:World Wide Web )服务器传输超文本到本地浏览器的传送协议。HTTP是一个基于TCP/...原创 2020-05-07 09:02:03 · 670 阅读 · 0 评论 -
python爬虫——爬老友记贴吧帖子
import requestsclass TiebaSpider: """创建贴吧爬虫类""" def __init__(self, tieba_name): """初始化方法,传入需要爬取的贴吧的名称:六人行(老友记)""" self.tieba_name = tieba_name # 通过观察贴吧的url地址 ...原创 2020-04-28 23:05:23 · 255 阅读 · 0 评论