Python爬虫专栏
创建一些热门的爬虫代码来进行数据分析
这孩子谁懂哈
坚持比努力更可怕/You Reap What You Sow
展开
-
获取企业服务超市企业信息
【代码】获取企业服务超市企业信息。原创 2023-05-21 21:56:56 · 436 阅读 · 0 评论 -
Python获取天天基金上的数据
获取想要查询的基金数据,通过基金代码、开始日期和结束日期等import requestsimport reimport pandas as pd'''获取单页面 基金数据'''def get_html(code, start_date, end_date, page=1, per=40): url = f'http://fund.eastmoney.com/f10/F10DataApi.aspx?type=lsjz&code={code}&page={page}&原创 2022-04-05 19:42:18 · 2424 阅读 · 0 评论 -
python爬虫OpenSSL.SSL.Error: [(‘SSL routines‘, ‘ssl3_get_server_certificate‘, ‘certificate verify fail
今天在获取很久之前写的爬虫的时候传送门发现运行直接报错,除了网站更改以后的错误(网站加强了反爬措施),还报了另外一个错:SSLError: bad handshake: Error([('SSL routines', 'SSL3_GET_SERVER_CERTIFICATE', 'certificate verify failed')],)后来查询意思是 request证书过期:该问题的原因是:因为网址使用了https,所以经过代理时会报错。报错原因是:Python3之关闭SSL证书验证解.原创 2021-02-02 17:18:48 · 16446 阅读 · 1 评论 -
使用python获取中国证券投资基金业协会上数据
目标网址:http://www.amac.org.cn/这个网站上只有查询功能,但是业务想要上面的数据进行更有效的分析。所以记录一下。就拿私募基金这个相对比较难的,难点不在于数据难拿,难点在于 我们想要的数据要层层筛选,也就是说为了拿到一条完整的数据需要请求三次页面才能够拿到完整的数据,且,后一页的数据通过前一页面上的数据拿到后一页的请求地址,所以要发送三次请求。如下图所示:看看这个页面的请求:看到这个请求后,还是比较简单的。为一个算“反爬”措施的是 rand=XXX..原创 2020-07-12 16:44:06 · 16457 阅读 · 9 评论 -
爬虫post请求时候参数出现A JSONAray text must start with '[' at character 1 of ...时候解决办法
最近在拿数据的时候,获取数据很简单,就是一个post请求,出现如下的错误:一开始时候的获取是通过下面的方式拿数据的。但是这种方式总是出现A JSONAray text must start with '[' at character 1 of ...的错误,从这两个错误中,就很容易理解,它同时是我们再进行post请求的时候,参数里是[]是以这个形式传递的,但是我们在进行post请求...原创 2020-02-29 16:56:42 · 10064 阅读 · 0 评论 -
在scrapy框架中判断数据库中是否存在某个表来实现表中数据全量更新
现在有这么个需求:就是我有一个爬虫脚本,我想把爬取到的数据存入到mysql数据库里去(这个是比较简单的),同时我还想定时执行这个脚本文件,然后让用户能及时看到最新的数据,所以就出现一个问题就是如何保证数据库里的数据是最新的呢?这里使用的是一个全量的办法,不是一个增量的办法。增量:就是每次插入数据的时候,根据里面的一个字段(时间time)来判断即将插入的数据是不是在数据库里,如果没有就插...原创 2019-10-10 13:17:37 · 1850 阅读 · 0 评论 -
python中定时执行爬虫文件方法
我们爬取数据的时候,经常会希望定时运行爬虫,一般在凌晨的时候执行,那样挂服务器上就会减轻很大的负荷,所以我们就需要定时的任务,本文使用了scrapy框架,然后定时执行爬虫代码的方法。声明:此方法不一定是最好的方法,但是肯定是能达到效果的方法。网上有很多的代码介绍,最多的就是下面的方法:import timefrom scrapy.cmdline import executeimp...原创 2019-08-29 20:56:59 · 1866 阅读 · 3 评论 -
爬取双色球的中奖号码
好久没更新了,最近工作才慢慢进入正轨,才有时间来慢慢记录自己喜欢和感兴趣的事。前段时间看到有朋友在研究双色球的事,顺便学习了一下,感觉可以用我们所学来简单的预测一下下一期的双色球事多少,所以我爬取来往期所有中奖的双色球的号码,讲真这个纯属好玩。下面上代码:import reimport requestsfrom bs4 import BeautifulSoup as BS ...原创 2019-08-10 11:47:34 · 3234 阅读 · 0 评论 -
爬取最新斗图啦网站上表情包
女朋友找我斗图,最后斗她到自闭。网址:https://www.doutula.com/难度不大,代码如下:# -*- coding: utf-8 -*- import randomimport requestsfrom bs4 import BeautifulSoupimport urllibimport os BASE_URL = 'https://www....原创 2019-05-17 16:36:37 · 2831 阅读 · 0 评论 -
23行代码带你爬取美女图
爬取妹子图可能在爬虫里面没有什么技术含量了,新手练练手还是可以的。今天爬取的网址是:http://www.youzi4.cc/mm/meinv/index_1.html注意:爬取图片一般要加上referer,要不然就就出现,链接正确,总是返回<response 404>1,分析网页我们可以发现网页结构还是比较简单的,src链接就是图片的真实链接,那么我们就想办法获取...原创 2019-04-26 08:29:48 · 4595 阅读 · 2 评论 -
可运行的最新的使用scrapy框架爬取链家租房数据
看了一圈网上很多爬取链家数据的爬虫,但是由于链家已经把网页结构换掉了,所以原来的网上代码已经不能够使用,刚写了一个最新的爬虫,可以获取租房信息。工具:python3.6scrapy 1.6.0 框架vscode 编辑器基础知识关于如何使用scrapy框架什么的就不说了,网上一搜一大堆。说明:因为链家上面的数据排列并不是一样的,有的数据是缺失的,这就给数据获取造成很大麻...原创 2019-04-23 15:37:59 · 925 阅读 · 3 评论 -
python3.5爬取王者荣耀官网所有英雄的皮肤
最近 跟着老师爬取了王者荣耀逛网的英雄皮肤;工具:Vscode版本:python3.5需要json文件:获取步骤如下:复制这个链接到浏览器,直接下载,乱码不用管是浏览器没解析好;使用的时候,把json文件的地址换成自己的就行了。代码如下:# 导入模块import requests # pip install requestsimport json # ...原创 2018-03-18 19:33:23 · 3115 阅读 · 0 评论 -
python3.5 爬取mzitu网站图片
之前的文章,都是基于python2.X来做的,现在我们很多都是使用python3.x,导致很多的代码不能用 ,因为python2和python3 的差别还是很大的,所以根据修改后可以执行的代码如下:模块使用的是:requests和bs4模块,安装也是很简单,pip install XXX 即可编辑器:Vscode版本:python3.5import requestsfrom b...原创 2018-03-16 14:16:57 · 3775 阅读 · 2 评论 -
python3.5爬取电影网站电影下载链接
本文使用简单的面向过程的编程思想,更容易理解。说明:本文使用了简单的模块:requests和re模块,当然也可以使用urlib模块。开发环境是:Python3.5开发工具:VsCode代码如下:import requestsimport re #循环制造网页for page in range(1,2): #这里默认爬取了一页,爬取多页修改此处即可 ...原创 2018-03-16 13:51:44 · 2208 阅读 · 0 评论 -
爬取微博用户ID和评论
本代码简单爬取了鹿晗微博下的评论:def weibo(ID,Pages):ii=0while iiii=ii+1url='https://m.weibo.cn/api/comments/show?id='+str(ID)+'&page='+str(ii)html=requests.get(url)#header={'User-Agent':'Mozilla/5.原创 2018-01-31 09:59:35 · 5723 阅读 · 0 评论