![](https://img-blog.csdnimg.cn/20190828092452703.jpeg?x-oss-process=image/resize,m_fixed,h_224,w_224)
Spider
这孩子谁懂哈
坚持比努力更可怕/You Reap What You Sow
展开
-
python通过下载链接批量获取数据
我们在获得下载数据的请求,怎么根据请求地址直接保存成对应的文档。这里的下载请求是,把链接地址放在浏览器里是可以直接下载文件的,这样的地址哈把下载地址补充完整即可#引用 requests文件import requests#下载地址Download_addres=''#把下载地址发送给requests模块f=requests.get(Download_addres)#下载文件with open("12.xlsx","wb") as code: code.write(f.原创 2021-05-18 17:05:01 · 7590 阅读 · 0 评论 -
在scrapy框架中判断数据库中是否存在某个表来实现表中数据全量更新
现在有这么个需求:就是我有一个爬虫脚本,我想把爬取到的数据存入到mysql数据库里去(这个是比较简单的),同时我还想定时执行这个脚本文件,然后让用户能及时看到最新的数据,所以就出现一个问题就是如何保证数据库里的数据是最新的呢?这里使用的是一个全量的办法,不是一个增量的办法。增量:就是每次插入数据的时候,根据里面的一个字段(时间time)来判断即将插入的数据是不是在数据库里,如果没有就插...原创 2019-10-10 13:17:37 · 1842 阅读 · 0 评论 -
爬取双色球的中奖号码
好久没更新了,最近工作才慢慢进入正轨,才有时间来慢慢记录自己喜欢和感兴趣的事。前段时间看到有朋友在研究双色球的事,顺便学习了一下,感觉可以用我们所学来简单的预测一下下一期的双色球事多少,所以我爬取来往期所有中奖的双色球的号码,讲真这个纯属好玩。下面上代码:import reimport requestsfrom bs4 import BeautifulSoup as BS ...原创 2019-08-10 11:47:34 · 3184 阅读 · 0 评论 -
爬取最新斗图啦网站上表情包
女朋友找我斗图,最后斗她到自闭。网址:https://www.doutula.com/难度不大,代码如下:# -*- coding: utf-8 -*- import randomimport requestsfrom bs4 import BeautifulSoupimport urllibimport os BASE_URL = 'https://www....原创 2019-05-17 16:36:37 · 2812 阅读 · 0 评论 -
23行代码带你爬取美女图
爬取妹子图可能在爬虫里面没有什么技术含量了,新手练练手还是可以的。今天爬取的网址是:http://www.youzi4.cc/mm/meinv/index_1.html注意:爬取图片一般要加上referer,要不然就就出现,链接正确,总是返回<response 404>1,分析网页我们可以发现网页结构还是比较简单的,src链接就是图片的真实链接,那么我们就想办法获取...原创 2019-04-26 08:29:48 · 4439 阅读 · 2 评论 -
可运行的最新的使用scrapy框架爬取链家租房数据
看了一圈网上很多爬取链家数据的爬虫,但是由于链家已经把网页结构换掉了,所以原来的网上代码已经不能够使用,刚写了一个最新的爬虫,可以获取租房信息。工具:python3.6scrapy 1.6.0 框架vscode 编辑器基础知识关于如何使用scrapy框架什么的就不说了,网上一搜一大堆。说明:因为链家上面的数据排列并不是一样的,有的数据是缺失的,这就给数据获取造成很大麻...原创 2019-04-23 15:37:59 · 914 阅读 · 3 评论 -
利用Scrapy框架爬取数据使用pipelines保存成csv出现乱码的解决办法
之前写了一篇关于使用命令行来执行scrapy代码保存csv文件出现乱码的解决办法,但是我把保存csv的文件代码写到pipelines里的时候,原来的设置(在创建项目的settings.py中,添加如下代码FEED_EXPORT_ENCODING = 'gb18030')就会出现错误,也就是说,不同的保存方法,设置方式要变化。我的代码如下:网上很多的解决办法,例如在seting.py里...原创 2019-04-03 16:18:33 · 952 阅读 · 0 评论 -
使用scrapy框架爬虫的时候xpath的extract()和extract_first()的区别
在使用scrapy爬虫的时候,我们常常使用xpath来获取html标签,但是我们经常会用到提取的方法,有两种提取的方法,分别是:extract():这个方法返回的是一个数组list,,里面包含了多个string,如果只有一个string,则返回['ABC']这样的形式。extract_first():这个方法返回的是一个string字符串,是list数组里面的第一个字符串。...原创 2019-04-02 11:35:27 · 10680 阅读 · 0 评论 -
python3.5爬取电影网站电影下载链接
本文使用简单的面向过程的编程思想,更容易理解。说明:本文使用了简单的模块:requests和re模块,当然也可以使用urlib模块。开发环境是:Python3.5开发工具:VsCode代码如下:import requestsimport re #循环制造网页for page in range(1,2): #这里默认爬取了一页,爬取多页修改此处即可 ...原创 2018-03-16 13:51:44 · 2197 阅读 · 0 评论 -
python3.5 爬取mzitu网站图片
之前的文章,都是基于python2.X来做的,现在我们很多都是使用python3.x,导致很多的代码不能用 ,因为python2和python3 的差别还是很大的,所以根据修改后可以执行的代码如下:模块使用的是:requests和bs4模块,安装也是很简单,pip install XXX 即可编辑器:Vscode版本:python3.5import requestsfrom b...原创 2018-03-16 14:16:57 · 3746 阅读 · 2 评论 -
python3.5爬取王者荣耀官网所有英雄的皮肤
最近 跟着老师爬取了王者荣耀逛网的英雄皮肤;工具:Vscode版本:python3.5需要json文件:获取步骤如下:复制这个链接到浏览器,直接下载,乱码不用管是浏览器没解析好;使用的时候,把json文件的地址换成自己的就行了。代码如下:# 导入模块import requests # pip install requestsimport json # ...原创 2018-03-18 19:33:23 · 3104 阅读 · 0 评论 -
利用Scrapy框架爬取数据命令行保存成csv出现乱码的解决办法
Scrapy是一个很好的爬虫框架,但是在我们把爬取的数据保存成csv的时候,我们常常会发现,保存下来的数据是乱码,网上也搜索了很多中解决办法,但是很多都是解决不了,先总结下来。我们在命令行里执行Scrapy框架的时候的步骤如下:1,首先我们先进入我们spider的目录cd /Users/zhaomeng/licaiproduct/licaiproduct/spiders2,执...原创 2019-03-19 12:01:43 · 3986 阅读 · 6 评论 -
第一次使用Scrapy框架使用记录
由于使用Mac系统,Mac系统是自动安装了python2.7,貌似要升级,所以我是之前就安装了python3.6的,所以为安装Scrapy也提供了很好的帮助。首先讲安装,ython3.5中以上版本会自带 pip,所以不需要额外安装了,可以直接在终端输入 pip3 --version查看版本和路径上图是我已经升级过后的pip版本,如果pip版本过低,在你安装完成后,会提示你进行...原创 2019-03-19 14:32:01 · 198 阅读 · 0 评论 -
使用vs code环境调试scrapy框架程序
最近使用scrapy框架,因为我们使用scrapy框架一般都是通过命令行来执行的,所以对于我们调试就会出现很多的不便,上网查了一圈,发现很多都是一些pycharm软件的教程,vs code 很少,而且有的讲的不是很明白,先记录下来。要想在vocode里进行调试,首先我们要先模拟一下,在vs code端进行运行scrapy,所以我们首先解决的是怎么在python端运行框架,而不是使用命令行来执行...原创 2019-03-29 10:46:10 · 7064 阅读 · 7 评论 -
vs code下使用scrapy框架爬虫出现No module named:XXX解决办法
出现这个问题的原因是,python执行的时候,是根据我们最初设置的python路径,而我们自己创建的scrapy的路径不在上面路径的情况下,导致scrapy找不到路径了,所以我们把该路径下添加到python执行路径即可;解决办法:import sysimport osfpath = os.path.abspath(os.path.join(os.path.dirname(__file...原创 2019-03-29 09:49:20 · 3740 阅读 · 5 评论 -
Mac 系统vs code环境下使用selenium记录
起因:想爬取一个网站上的数据,但是这个网址不是一般的html,而是shtml,至于这两者的区别,大家可以自行百度,简单的说就是html一般都是静态网页,而shtml一般是动态网页,也就是我们在抓取的时候,不能真正得到网页上的数据,要想拿到数据,就要想别的办法,说这么多可能有点懵逼,简单例子如下:当我们点击网页检查的时候如下所示,可以看到很多数据都在网页上,但是当我们把这个网址...原创 2019-04-01 14:26:44 · 2000 阅读 · 1 评论