python3爬虫
文章平均质量分 59
xudailong_blog
徐代龙的新博客:http://blog.csdn.net/xudailong_blog
微信公众号:蛇崽网盘教程资源
展开
-
uniapp小程序练手项目并上线
如题:做一个自己的小程序,并在各大小程序开发者平台上线。背景:因没有小程序开发经验,且前端知识掌握得不好,作为一个小程序爱好者,总想有一款自己的小程序,同时也想有一款自己的app(虽然目前还没有实现),在整体难度上来说,小程序的实现比app的成功多了,且成本比较低。分析:0 小程序定位1 使用框架2 后台3 发布渠道(1)小程序的定位:油价查询这里想了想,作为一个兼职小程序开发者,还是要轻应用为主,主要是工具类的小程序,再细分一下领域,我选择了油价查询这一块,想到了现在私家车越来越多原创 2020-07-27 23:10:51 · 2961 阅读 · 0 评论 -
python3 爬虫实战之爬取网易新闻APP端
留坑:网易新闻类型:{"BBM54PGAwangning","BCR1UC1Qwangning","BD29LPUBwangning","BD29MJTVwangning","C275ML7Gwangning"}原创 2018-05-23 23:19:56 · 6813 阅读 · 0 评论 -
scrapy接入IP代理池(代码部分)
> 记录一个比较完整的通过ip池进行爬虫被禁的处理class HttpProxymiddleware(object): # 一些异常情况汇总 EXCEPTIONS_TO_CHANGE = ( defer.TimeoutError, TimeoutError, ConnectionRefusedError, ConnectError, Connect...原创 2018-04-30 23:59:36 · 4754 阅读 · 1 评论 -
python3 scrapy_redis 分布式爬取房天下存mongodb
(一)scrapy_redis 简单介绍scrapy_redis基于scrapy框架的基础上集成了redis,通过了redis实现了去重,多台服务器进行分布式的爬取数据。(二)scrapy_redis 简单配置(1)settings.py 文件中加入两行代码:#启用Redis调度存储请求队列SCHEDULER = "scrapy_redis.scheduler.Sched...原创 2018-04-30 23:54:15 · 2847 阅读 · 2 评论 -
python3 scrapy爬取智联招聘存mongodb
写在前面,这次写智联招聘的爬虫是其次,主要的是通过智联招聘上的数据信息弄一个数据挖掘的小项目,这一篇主要是如何一气呵成的将智联招聘上的招聘信息给爬下来(一)scrapy框架的使用scrapy框架是python爬虫里面一个比较出色的框架,支持分布式,里面内部已经实现了从爬取解析到下载的一条龙服务,用这个框架或者是基于这个框架,可以很大程度上避免了一些不必要的bug,当然前提是你需...原创 2018-04-30 21:25:45 · 1581 阅读 · 0 评论 -
python爬虫利器:user agent switcher
(一)推荐理由:方便相比于在浏览器中右键检查,再将浏览器设置成手机端如下图:user agent switcher给我们带来更多的是方便,一次设置好,就不怕每次麻烦的右键检查,设置成手机端的重复性操作了,这对于python爬虫算是一个比较技巧的地方。(二)安装使用针对火狐浏览器,相比于谷歌,我可能更爱火狐多一些,火狐可以有更多的DIV吧,当然,谷歌浏览器是老大哥。在...原创 2018-04-30 20:42:45 · 3914 阅读 · 0 评论 -
python selenium 获取frame中的元素
版权声明:本文为徐代龙原创文章,未经徐代龙允许不得转载。 https://blog.csdn.net/xudailong_blog使用情景在很多的视频播放网站,视频播放页面往往获取不到iframe里面的内容,也或者是模拟登陆的时候,会跳入一个新的页面,单独使用请求的时候,就获取不到另外一个目标网页如何在selenium中使用例:网页中有源码:<iframe id=...原创 2018-04-21 23:22:05 · 5238 阅读 · 0 评论 -
Python3 豆瓣《前任3》评论的词云
纪念下自己的过去本是件技术活,无奈却也伤感了少许,《体面》 这首歌单曲循环两个礼拜,每次深夜一两点设置四点后再睡去,也许现在的自己并不够优秀,只能一个劲的羡慕别人的五年小长跑,一辈子的长跑,而我,却再也不能回去了吧。不想一份感情像纸张一样,揉了又铺好,又揉。她很好,只是我不够优秀 大学两年,异地一年,不同校,隔三差五就往她的学校跑,熟悉了两个校园,也习惯了有彼此的日子。...原创 2018-03-28 01:19:35 · 1088 阅读 · 1 评论 -
Linux下Python3环境安装selenium跟phantomjs
场景因为项目中在爬今日头条的时候,基于破解今日头条的验签跟cp等参数难度大,不得不转向selenium库Linux下安装Selenium 这里主要是记录下在Linux下Python3环境中的selenium与phantomjs的安装,上一篇已经说道在Linux下进行Python3与scrapy框架的安装(一)依赖包安装 sudo yum install build-e...原创 2018-03-24 00:10:46 · 2871 阅读 · 0 评论 -
Centos7 安装Python3和scrapy(正确安装姿势)
苦逼的前夜昨晚很辛苦,搞到晚上快两点,最后还是没有把python3下的scrapy框架安装起来,后面还把yum这玩意给弄坏了,一直找不到命令。今天早上又自己弄了快一上午,又求助@函兮,弄了快一个中午,最后无奈还是没有弄好yum跟python这玩意,最后还是放弃治疗了。真的是什么招,什么损招都用完了,最后也没折了,直接报告老大去,然后把阿里云的centos7实例重新磁盘回滚了一下。正确的...原创 2018-03-13 22:16:38 · 4415 阅读 · 1 评论 -
ThriftPy does not support generating module with path in protocol 'c'
场景在使用happybase 在Windows端读取hbase 的时候,提示“ ThriftPy does not support generating module with path in protocol ‘c’”的错误,在github上查到资料:https://github.com/eleme/thriftpy/issues/234 说是源码在解析url的时候出现的错误,...原创 2018-03-18 00:01:29 · 1341 阅读 · 0 评论 -
Scrapy 存数据到Hbase
网上很多教程都是使用Scrapy存数据到MongoDB,Mysql或者直接存入Excel中的,很少有存入到Hbase里面的前言为什么没有像大多数网上那样将数据存入到MongoDB,Mysql中呢,因为项目中使用到Hbase加上阿里云的推荐引擎系统,Hbase是Hadoop的一个子项目,要想用到Hbase软件的服务,需要进行Hadoop跟zoopeer的环境的安装。这里就不对Hbas...原创 2018-03-17 23:53:39 · 2104 阅读 · 1 评论 -
python3 scrapy爬取微信公众号及历史信息V1.0
环境: python3 scrapy 目的写这篇文章主要是做一下纪念,毕竟是搞了快两天的东西了,今天加大了量,使用scrapy爬取100多个微信公众号,然后出现IP被封的情况下,当然了,这种情况并不是没有办法解决,只需要在scrapy中进行设置一下就可以了,主要是在本地进行调试,然后IP代理池那一块暂时找不到好的质量高的IP,只是爬取了各大网站的免费IP,并没有很...原创 2018-02-26 22:33:26 · 4797 阅读 · 1 评论 -
scrapy-redis简单配置详解
注意:该篇文章为转载内容,此处只是为了巩固一下scrapy-redis的注意事项,scrapy-redis 现已在公司项目中稳稳当当的运行了,可以查看该篇文章:http://xudailong.gitee.io/2018/01/09/python_crawl_words/由于Scrapy_redis已经为封装了大部分的流程,所以使用它不会有任何难度。1.启动Redis首先需要把...原创 2018-02-10 19:08:13 · 1922 阅读 · 1 评论 -
python3 [爬虫实战] selenium + requests 爬取安居客
很简单,这里是根据网友的求助爬取的安居客上的一个页面的全部地区名称跟链接 因为她用的scrapy框架,感觉有些大才小用了,所以就直接用了一个requests库,selenium 和xpath进行一整页数据的爬取 我们爬取的网站:https://www.anjuke.com/sy-city.html 获取的内容:包括地区名,地区链接:1 一开始直接用reques...原创 2018-02-10 11:14:13 · 2546 阅读 · 0 评论 -
python3 scrapy 爬虫实战之爬取站长之家
爬取目标 站长之家:http://top.chinaz.com/all/爬取工具 win10 python3 scrapy BeautifulSoup爬取内容 1 网站缩略图 2 网站名称 3 网址 4 Alexa排名,5 百度权重 6 网站简介 7 网站得分爬取理由 想着可以通过网站top 来注...原创 2018-05-17 22:04:28 · 1980 阅读 · 4 评论 -
BeautifulSoup 获取第二个span标签内容
场景声明下:这里把span标签替换成a标签是一样的逻辑。<a href="http://example.com/elsie" class="sister" id="link1">Elsie</a><a href="http://example.com/lacie" class="sister" id="link2&quo原创 2018-05-21 21:26:56 · 29877 阅读 · 3 评论 -
scrapy提高爬取速度
scrapy在单机跑大量数据的时候,在对settings文件不进行设置的时候,scrapy的爬取速度很慢,再加上多个页面层级解析,往往导致上万的数据可能爬取要半个小时之久,这还不包括插入数据到数据库的操作。下面是我在实验中测试并且验证爬取速度大幅度提升,不过前提你要注意到你爬取的目标网站有没有反IP的可能。settings文件设置以下参数:DOWNLOAD_DELAY = 0CONCURR...原创 2018-11-06 11:10:58 · 8701 阅读 · 2 评论 -
python scrapy 保存数据到mysql的坑(1064错误)
在将scrapy中的数据存储到mysql中,出现部分数据插入不进去的问题, 一直报:You have an error in your SQL syntax;mysql相对于mongo来说,对数据要严格些,有时候,很多SQL语句写对了,还是插不进去数据。针对上面的问题,我使用了一个pymysql中的方法file_count = pymysql.escape_string(item['file...原创 2018-10-20 10:48:03 · 2335 阅读 · 0 评论 -
scrapy mysql的同步插入与异步插入
主要代码是在Pipeline中进行编写,上完整代码:同步插入代码:# 同步插入class MysqlPipeline2(object): """ 同步操作 """ def __init__(self): # 建立连接 self.conn = pymysql.connect('localhost', 'root', 'Abcd1...原创 2018-10-20 10:36:48 · 817 阅读 · 0 评论 -
python去重
由于在python 爬虫过程中有爬取到重复的链接,并没有进行去重操作,故,这里再通过python自带的set再次进行去重一次。下面是给出来的代码# -*- coding: utf-8 -*-# @Time : 2018/9/21 13:31# @Author : 蛇崽# @Email : 643435675@QQ.com# @Site : http://www...原创 2018-09-28 22:57:56 · 873 阅读 · 0 评论 -
python3 爬取今日头条文章(巧妙避开as,cp,_signature)
使用环境:python3scrapywin10爬取思路(一)关于as、cp的生成与_signature的想法对于今日头条的爬虫,网上搜索出来的文章大多是基于崔庆才(通过搜索爬取美女街拍的方案),怎么说呢,类似这样的虽说是个巧办法,但是用到工作中却是行不通的。在这里,网上是搜了又搜,谷歌,百度都用上了。在这里做一下今日头条爬取文章的几个方案。一个方案是:破解了a...原创 2018-07-21 23:30:54 · 14764 阅读 · 3 评论 -
python3 scrapy抓取今日头条视频(西瓜视频)
使用环境:python3scrapywin10爬取步骤(1)从用户视频列表页开始 (2)使用ajax对接接口 (3)获取今日头条视频真实地址(西瓜视频真实地址)备注: 这里的今日头条视频链接是直接跳转到365阳光宽频网的 https://www.365yg.com/ (1)我们要做的目标就是从把某个作者下的视频全部爬取下来。(2)列表页下滑,获取x...原创 2018-07-21 16:07:56 · 12111 阅读 · 6 评论 -
python3调用js的库之execjs
针对现在大部分的网站都是使用js加密,js加载的,并不能直接抓取出来,这时候就不得不适用一些三方类库来执行js语句执行JS的类库:execjs,PyV8,selenium,node这里主要讲一下execjs,一个比较好用且容易上手的类库(支持py2,与py3),支持 JS runtime。官网:https://pypi.org/project/PyExecJS/(一...原创 2018-07-29 15:05:41 · 43964 阅读 · 6 评论 -
python3 抖音短视频链接去水印下载视频到本地
基于近段时间对抖音,快手,秒拍等视频抓取一直想搞一下。加了个QQ群,里面全是自媒体,就是抖音、快手、秒拍的视频搬运工,把一个平台搬到另外一个平台上,去除水印。降低被干掉的危险。经过半天的琢磨,自己用python也搞出来一个根据抖音分享视频链接去除水印并下载的功能。(一)得到分享链接抖音分享链接:http://v.douyin.com/JkNaor/(二)浏览器总打开我们会在...原创 2018-07-04 23:36:47 · 24643 阅读 · 6 评论 -
python3 scrapy爬取微信公众号及历史信息V2.0
代码部分,日后补充:# -*- coding: utf-8 -*-# @Time : 2018/2/25 14:24# @Author : 蛇崽# @Email : 643435675@QQ.com# @File : WeChatSogou.py(微信公众号爬虫:不包含浏览量跟评论)import scrapyimport reimport timeimpo...原创 2018-05-24 22:33:26 · 1853 阅读 · 0 评论 -
python3[爬虫实战] 使用selenium,xpath爬取京东手机(上)
当然了,这个任务也是从QQ群里面接过来的,主要是想提升自己的技术,一接过来是很开心的,但是,接完之后,写了又写,昨晚写了3小时,前提晚上写了2小时,搞的有些晚了,搞来搞去就卡在一个地方了,希望懂的大神们多帮忙指点一下, 使用selenium ,可能感觉用的并不是很深刻吧,可能是用scrapy用多了的缘故吧。不过selenium确实强大,很多反爬虫的都可以用selenium来解决掉吧。...原创 2018-02-10 11:12:07 · 946 阅读 · 0 评论 -
win下python3 scrapy框架再次搭建
目录:环境初次安装打开网站安装wheel安装whl文件end环境: python3 3.6.4, win7 64位 初次安装: pip install scrapy使用这个命令,在win7 64位是怎么也安装不上去的,因为这已经是第二次了,当这个命令输出完后,会出现一系列的问题。当然了,不用怕,这不是需要解决问题的方法来了嘛原创 2018-01-04 23:35:30 · 654 阅读 · 0 评论 -
ImportError: No module named RedisCrawlSpider
问题:出现的问题是在centos7 安装scrapy的时候出现的,当时使用的python3.6 环境 File "/home/chan/example-project/example/spiders/mycrawler_redis.py", line 4, in module> import RedisCrawlSpiderImportError: No module nam原创 2018-01-14 17:05:23 · 2590 阅读 · 0 评论 -
python3[爬虫实战] 爬虫之requests爬取新浪微博京东客服
爬取的内容为京东客服的微博及评论 思路:主要是通过手机端访问新浪微博的api接口,然后进行数据的筛选,类似于这样的:https://m.weibo.cn/u/5650743478?uid=5650743478&luicode=10000011&lfid=100103type%3D1%26q%3D%40%E4%BA%AC%E4%B8%9C%E5%AE%A2%E6%9C%8D&featurecod原创 2017-08-09 00:36:36 · 13308 阅读 · 0 评论 -
python3 [爬虫入门实战]爬虫之scrapy爬取游天下南京短租房存mongodb
总结:总的来说不是很难,只是提取的字段有些多。总共获取了一个120多个南京房租信息1 爬取的item# -*- coding: utf-8 -*-# Define here the models for your scraped items## See documentation in:# http://doc.scrapy.org/en/latest/topics/items.htmlimp原创 2017-07-21 10:10:24 · 1039 阅读 · 1 评论 -
python3 [爬虫入门实战]爬虫之scrapy安装与配置教程
不得不说,自己经历过的,才是真的经历过,有很多网上的教程并不是很好,都是一把辛酸泪啊。 网上很多教程都是python2.7的,少有python3的教程,找起资料来还是挺难的。搞了算是蛮久的,一个上午加上半个晚上, 不过最终还是搞出来了总结一下:方法对了,安装的方法还是蛮简单的前人的经验,别一开始就上来 pip install Scrapy不论如何这个绝对是有问题的结果就是: erro原创 2017-07-08 15:38:51 · 3346 阅读 · 0 评论 -
python3 [爬虫入门实战]爬虫之mongoDB数据库的安装配置与可视化
从安装过程到可视化工具可查看数据信息,历时两天,昨天坐了一天的火车,今天早上才到的青岛–> 来找女朋友玩。前天说是要学习如何使用mongoDB的链接与安装。到今天过去了将一天, 不过还是在函兮的唠叨下慢慢的安装好了,确实来之不易,一脸懵逼 安装环境: wind10 还是盗版的 磁盘分析:只有一个C盘, 步骤: 1 . 下载 http://www.mongod原创 2017-07-05 18:52:23 · 925 阅读 · 0 评论 -
python3 [爬虫入门实战]scrapy爬取盘多多五百万数据并存mongoDB
总结:虽然是第二次爬取,但是多多少少还是遇到一些坑,总的结果还是好的,scrapy比多线程多进程强多了啊,中途没有一次被中断过。 此版本是盘多多爬取数据的scrapy版本,涉及数据量较大,到现在已经是近500万的数据了。1,抓取的内容主要爬取了:文件名,文件链接,文件类型,文件大小,文件浏览量,文件收录时间一,scrapy中item.py代码# -*- coding: utf-8 -*-# D原创 2017-07-20 20:04:26 · 1727 阅读 · 1 评论 -
python3 [爬虫入门实战]爬虫之scrapy爬取织梦者网站并存mongoDB
主要爬取了编程栏目里的其他编程里的36638条数据 过程是自己一步一步的往下写的,有不懂的也是一边找笔记,一边百度,一边调试。 遗憾:没有进行多栏目数据的爬取,只爬了一个栏目的数据,希望有想法的有钻研精神的可以自己去尝试爬取一下,难度应该不会很大。给一张效果图: 爬取字段:标题,标题链接,标题描述,发布时间,发布类型,发布tag爬取方式:主要是获取div【pull-left ltxt原创 2017-07-16 22:49:20 · 815 阅读 · 2 评论 -
python3 [入门基础实战] 爬虫入门之智联招聘的学习(一)
老实说:懵逼啊 这次爬取的是智联招聘上的求职数据,虽然没有仔细正确核对一下数据是否具有重复性,随机抽查了些,数据大部分还是能对上来的,这次爬取的智联招聘上的数据90页,每页60条,主要抓取的是android开发工程的数据, 抓取的数据为全国的数据,先上张结果图吧,如果是想看大图,可以选中图片,长按,移动到网页最上面的边上就可以了。ide 部分 数据用了多线程的方式,这是第一次用,因为这次原创 2017-07-02 00:18:16 · 2389 阅读 · 2 评论 -
python3 [爬虫入门实战] 爬虫之selenium 模拟QQ登陆抓取好友说说内容(暂留)
很遗憾,部分数据有些问题,不过还是可以进行爬取出来的先贴上源代码#encoding=utf8from selenium import webdriverimport refrom bs4 import BeautifulSoupfrom selenium.webdriver.common.keys import Keysfrom selenium.webdriver.common.act原创 2017-07-06 12:55:24 · 703 阅读 · 0 评论 -
python3 [爬虫入门实战]爬虫之selenium 安装设置与初步使用
总结:过程还是可以的,成就感还是稍微有些的。耗时一个上午准备:selenium 相对应的可执行文件的下载与安装 解压放在: 就是这两部,如果官网慢的话,可以去csdn上进行下载 。下面是python代码中的模块导包模块:# encoding=utf8from selenium import webdriverimport refrom selenium.webdriver.common原创 2017-07-06 12:07:07 · 876 阅读 · 0 评论 -
python3 [爬虫入门实战] 爬虫之使用selenium 爬取百度招聘内容并存mongodb
爬取的内容为百度招聘页面下的python 杭州地区 所要爬取的内容 一共爬取的是6个字段 1 招聘岗位 2 招聘城市 3 招聘公司 4 招聘薪资 5 招聘日期 6 招聘来源网站用的是selenium + beautifulsoup + mongodb + re 模块进行爬取的内容总体上难度不是很大,内容清除也不是很完整,记不住的或者没有记牢原创 2017-07-07 11:21:44 · 3155 阅读 · 3 评论 -
python3 [爬虫入门实战]爬虫之scrapy爬取中国医学人才网
自己第一次试着用scrapy进行爬取网页,总共爬下9240条数据,也就两分钟不到,400多页吧。用的比较简单,但是爬取成功后感觉成就感满满的。来张爬取结果图 爬取字段: “hospitalName”: “hospitalDesc”: “hospitalSize”:”hospitalAddress”: 1爬取字段 这里爬取的内容上面都有标注,只不过,爬取下来没有保存链接(稍微原创 2017-07-15 22:25:29 · 1866 阅读 · 0 评论