python3爬虫
一望红尘
最头疼的就是一个人摸索了
展开
-
Python3 爬虫教程 (二)
从爬取的页面获取所需信息 这个需要用到Python的解析库lxml和xpath的知识,不知道的同学请自行百度,菜鸟或者w3c都有,十分钟就能搞定个大概,剩下的还是实战磨合比较好 话不多说,先确定目标,还是那个网站,我们先来爬取一张首页展示的一个套图的标题和点进去的url链接 就这个吧,含蓄点,不然我怕会出事(尴尬的笑了笑) 首先让我们按下F12,定位到标题和链接的位置 哦,巧了,注意一下下面的...原创 2019-10-02 18:23:35 · 206 阅读 · 0 评论 -
Python3 爬虫教程(三)
根据爬取到的链接下载文件 还是那个充满福利的网站 不过这次我们先来点别的,来点前置的技术 先从网上随便找一张图片下载下来,这点比较简单,直接上代码了 import requests url = 'http://img.mp.itc.cn/upload/20170115/41577bdc81e248fd830b4758d7ccd52e_th.jpeg' img = requests.get(url...原创 2019-10-02 18:46:04 · 442 阅读 · 0 评论 -
Python3爬虫教程(四)
爬虫逻辑 对于有针对性的爬取数据,爬虫的每一层逻辑可以不必多么精妙,但必须力求准确,而这便需要探寻到网站的规律,亦或者逻辑(因为需要管理和维护,所以网站肯定有他自己的规律或者逻辑) 咳咳,还是这个福利网站(mzitu.com) 我们由浅入深 先尝试单个套图的爬取 那么 第一步:获取此套图的所有单页url 从首页F12探寻翻页按钮,我们可以察觉到这个网站的一个套图下的所有图片所在页面的url得规律...原创 2019-10-02 22:56:13 · 194 阅读 · 0 评论 -
Python3爬虫教程(五)
将单爬虫改成多爬虫 前面我们已经学习了爬取(mzitu.com)单个套图,但是这样的效率太低了点,现在我们来给他改成爬取指定的多个套图 最简单的做法自然是在最外面套一个循环,以读取文件的方法导入url import requests import os from lxml import html all_message = [] def GetAllMessage(url): glob...原创 2019-10-03 09:15:32 · 164 阅读 · 0 评论 -
Python3爬虫教程(六)
多线程爬虫 关于python3多线程,大家去菜鸟学学就行了,并没有多难 接下来我们来改造我们那个爬取指定多套图的爬虫(讲一下基础就行了,至于生产着消费者之类的有兴趣的可以自己改) 一、数据存储改成队列 二、每次发送请求前用time.sleep(random)改变发送请求的频率 三、发送请求后验证就收信息状态码page.status_code,如果不为200(成功),则time.sleep(rand...原创 2019-10-03 09:54:50 · 385 阅读 · 0 评论