![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫学习
*^O^*—*^O^*
这个作者很懒,什么都没留下…
展开
-
爬取自己的IP池,筛选出可用IP
我们接着来应对反爬虫,当我们使用一个IP连续访问一个网站的时候,很容易被这个网站封掉,运气不好,你的IP就永远的被这个网站给封了,那么这时我们有两种处理方法:第一种是访问一会儿,延迟一会;第二种就是构建一个代理IP池,延迟比较简单,下面我把构建IP池的步骤,以及筛选出可用IP的一系列操作整理出来。首先我们找到可以免费获取IP的网站(毕竟白嫖才是真香)http://www.66ip.cn/可以看到这里有一个免费HTTP获取,我们先获取10个,点进去,页面解析,得到一个URLhttp://www.原创 2021-04-09 21:31:04 · 390 阅读 · 1 评论 -
查看自己的IP,以及更换IP
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录前言一、查看自己的IP二、更换自己的IP前言当我们一直爬取一个网站时,由于我们的IP值是不会变的,虽然我们的User-Agent是可以的变的,但是网站检测到我们的IP值始终是一个,如果多次访问,就有可能会被封掉,那么怎么解决呢?一、查看自己的IPfrom urllib import requestfrom fake_useragent import UserAgentge = UserAgent()url = '原创 2021-03-16 09:12:12 · 396 阅读 · 0 评论 -
反爬虫robots协议,处理方法
Robots协议Robots:通过robots协议告诉搜索引擎那些页面可以抓取,那些页面不能抓取;位置:根目录下,网址/robots.txt;例如:https://www.baidu.com/robots.txthttps://www.douban.com/robots.txt得到如下结果:User-agent: *Disallow: /subject_searchDisallow: /amazon_searchDisallow: /searchDisallow: /group/sea原创 2021-03-15 09:28:20 · 2352 阅读 · 1 评论 -
post的作用,实现一个最简单的post
post作用Post方法:提交更新数据from urllib import request, parsePost应用场景登录,提交表单,上传文件等:使用:request.urlopen(url, data=postdayta)Postdata为字节流(编译的时候,一定要进行编码,否则会报错)第一个post请求第一个post:Post内容:用户名密码步骤:post内容:数据编码post消息查看应答消息from urllib import request,parseurl =原创 2021-03-12 10:46:06 · 2053 阅读 · 0 评论 -
构建请求header fake_useragent安装以及解决方法
问题如果服务器端拒绝非浏览器访问,如何处理?表现形式问题原因出现这样的情况原因就是,服务器知道我们这是一个爬虫直接给禁止了,我们可以在网站上输入http://httpbin.org/get得到如下结果这时我们在看我们的爬虫from urllib import requesturl = 'http://httpbin.org/get'req = request.urlopen(url)obj = req.read().decode('utf-8')print(obj)这里其他原创 2021-03-08 10:04:36 · 1191 阅读 · 0 评论 -
爬虫学习 bs4模块的查找操作
findfind_all(name=None,attrs={},recursive=True,text=None,**kwargs)recursive=True 查找所有节点,为False的时候只查找当前对象下的直接子节点返回匹配所有节点,(find返回匹配第一个节点)select方法:obj.select():通过css选择元素提取页面信息的方法tag相关属性与方法...原创 2021-03-04 17:07:33 · 544 阅读 · 1 评论 -
爬虫学习 bs4模块安装
安装在命令行下输入如下指令pip install beautifulsoup4使用推荐第二种方法import bs4from bs4 import BeautifulSoup创建对象obj = BeautifulSoup(html,’html5lib’)浏览数据基本操作简单示例from bs4 import BeautifulSoupfrom urllib import requesturl = 'http://www.baidu.com/s?'r..原创 2021-03-04 16:30:01 · 371 阅读 · 1 评论 -
爬虫学习 urllib模块介绍
四个常用模块应答信息状态码:req.code, req.status状态:req.reason应答消息头:req.headers:获取headers对象req.getheaders():获取所有headers信息req.getheader(key):根据key获取对应头信息(获取页面的编码格式:req.headers.get_content_charset() )读取页面信息读取完了之后,再次读取就会是一个空...原创 2021-03-02 20:32:50 · 228 阅读 · 0 评论 -
爬虫学习 HTTP应答状态码
Http应答Headers原创 2021-03-02 20:24:27 · 199 阅读 · 0 评论 -
爬虫 请求头header组成以及说明
原创 2021-03-02 20:21:24 · 880 阅读 · 0 评论 -
爬虫 请求方法名称及说明GET POST
原创 2021-03-02 20:18:46 · 213 阅读 · 0 评论 -
运行 Jupyter notebook
1.什么是Jupyter notebook2014 年 Fernando和IPython团队发布了Jupyter项目(http://jupyter.org)。Jupyter项目旨在设计一个适用于更多语言的交互式计算工具。IPython web notebook 则成为Jupyter notebook,可以支持超过40中编程语言。Jupyter 项目中的主要组件就是notebook,这是一种交互式的文档类型,可以用于编码,文本,数据可视化及其其他输出。2.安装可在官网上直接安装一整套的python3.原创 2021-02-07 18:05:35 · 247 阅读 · 0 评论 -
学习爬虫需要的简单知识
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录前言一、什么是爬虫二、Python爬虫架构三、 需要的基础知识四、快速构建爬虫前言作为初学者慢慢开始学习爬虫,下面是在网上找的一些简单的知识,感觉写的比较好,整理了一下,作为笔记存入吧,还是要感谢一下。一、什么是爬虫爬虫:一段自动抓取互联网信息的程序,从互联网上抓取对于我们有价值的信息。二、Python爬虫架构Python 爬虫架构主要由五个部分组成,分别是调度器、URL管理器、网页下载器、网页解析器、应用程序(爬取的原创 2021-01-09 19:06:08 · 261 阅读 · 0 评论 -
用python写一个最简单的网络爬虫,豆瓣250
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录前言一、爬虫是什么?二、使用步骤1.引入库2.读入数据总结前言用python写一个简单的爬虫代码。爬取豆瓣电影排名前多少的的海报。一、爬虫是什么?网络爬虫(又称为网页蜘蛛,网络机器人),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。二、使用步骤1.引入库from urllib import requestimport reurl = 'htt原创 2020-11-12 14:53:06 · 402 阅读 · 1 评论