python_bugs
xudailong_blog
徐代龙的新博客:http://blog.csdn.net/xudailong_blog
微信公众号:蛇崽网盘教程资源
展开
-
Scrapy: 爬虫返回403错误
问题 抓取数据时,通常调试信息是:DEBUG: Crawled (200) <GET http://www.techbrood.com/> (referer: None)如果出现DEBUG: Crawled (403) <GET http://www.techbrood.com/> (referer: None)表示网站采用了防爬技术anti-web-crawling technique(Ama原创 2017-08-11 01:00:44 · 2890 阅读 · 0 评论 -
pandas DataFrame sort 排序的问题
在使用sort函数排序的时候出现的问题:一开始代码是这样子的:df.sort('realgdp',ascending=False)然后出现报错:AttributeError: ‘DataFrame’ object has no attribute ‘sort’解决方法:df.sort_values('realgdp',ascending=False)这里告诉我们...原创 2018-04-30 00:34:55 · 8060 阅读 · 0 评论 -
用shell同时执行多个scrapy命令
项目中单机使用shell脚本进行多个scrapy命令的运行,即同个shell进行多个scrapy命令的执行,这样会大大提高爬取效率,好好利用CPU使用率在shell命令行一次执行多个scrapy命令,可以有三种方式:(一)每个命令之间用 ; 隔开 各命令的执行结果,不会影响其他命令的执行。也就是命令执行起来,不一定都能保证成功。 或的意思 scrapy cra...原创 2018-05-21 20:57:12 · 1391 阅读 · 0 评论 -
BeautifulSoup 获取第二个span标签内容
场景声明下:这里把span标签替换成a标签是一样的逻辑。<a href="http://example.com/elsie" class="sister" id="link1">Elsie</a><a href="http://example.com/lacie" class="sister" id="link2&quo原创 2018-05-21 21:26:56 · 29802 阅读 · 3 评论 -
scrapy_redis对接布隆过滤器(Bloom Filter)
使用方式:pip3 install scrapy-redis-bloomfilter使用的方法和Scrapy-Redis基本相似,在这里说明几个关键配置。# 去重类,要使用Bloom Filter请替换DUPEFILTER_CLASSDUPEFILTER_CLASS = "scrapy_redis_bloomfilter.dupefilter.RFPDupeFilter"#...原创 2018-05-28 23:37:48 · 3104 阅读 · 1 评论 -
elasticsearch 出现 cluster_block_exception read_only_allow_delete问题
做爬虫的时候,只是简单的存入elasticsearch中,在测试服务器上结果发现老是插入不进去:提示的错误:logstash.outputs.elasticsearch] retrying failed action with response code: 403 ({"type"=>"cluster_block_exception", "reason"=>"blocked b...原创 2018-06-28 22:54:45 · 29417 阅读 · 4 评论 -
linux(centos7) 查看磁盘空间大小
距离上一个问题 centos7 上的elasticsearch插入数据失败,死活插入不了数据的问题,后面经猜想可能是服务器上磁盘满了,这不又得记一下这个命令,上次貌似已经查过一次了,未做笔记,现在再记一次:命令: df -hl 显示: 文件系统 容量 已用 可用 已用% 挂载点 Filesystem Size Used Avail Use% Mounted on...原创 2018-06-28 23:03:24 · 116844 阅读 · 4 评论 -
python3 requests出现Exceeded 30 redirects
环境:win10 python3.5 requests pycharm2017社区版在使用requests库操作post请求的时候,出现了一个这样的问题 Exceeded 30 redirects展示一下源代码:try: r = requests.post('http://zmcz.yicai.com/insertdata/apiConnect/cacheDat...原创 2018-07-04 22:15:26 · 6938 阅读 · 0 评论 -
python3 requests出错重试解决方法
对python3下的requests使用并不是很熟练,今天稍微用了下,请求几次下来后发现出现连接超时的异常,上网查了下,找到了一个还算中肯的解决方法。retrying是python的一个自带的重试包导入方式:from retrying import retry简单使用retrying 这个包的用法原理就是在你不知道那段代码块是否会发生异常,若发生异常,可以再次执行该段...原创 2018-09-06 22:31:19 · 11029 阅读 · 0 评论 -
Centos7 服务器上phantomjs自启动问题
版权声明:本文为徐代龙原创文章,未经徐代龙允许不得转载。 https://blog.csdn.net/xudailong_blog无界面浏览器phantomjs是selenium子包webdriver下面的一个浏览器,本身是一个浏览器(headless browser),更详细的使用教程可移步:[官方文档]http://selenium-python-zh.readthedocs.io...原创 2018-04-21 22:16:00 · 1459 阅读 · 0 评论 -
python selenium 获取frame中的元素
版权声明:本文为徐代龙原创文章,未经徐代龙允许不得转载。 https://blog.csdn.net/xudailong_blog使用情景在很多的视频播放网站,视频播放页面往往获取不到iframe里面的内容,也或者是模拟登陆的时候,会跳入一个新的页面,单独使用请求的时候,就获取不到另外一个目标网页如何在selenium中使用例:网页中有源码:<iframe id=...原创 2018-04-21 23:22:05 · 5199 阅读 · 0 评论 -
python3 No module named 'PIL'
在python3,scrapy框架已经安装好的情况下,还是出现了:python3 No module named 'PIL'在Python3下,PIL已经被Pillow替代了,所以只需要安装Pillow就可以了使用命令:pip3 install Pillow 可能中途会一直安装不上去,就跟下图的报红的一样(多半是连接超时),这时候我们需要做的就是多安装几次,用的还是...原创 2018-03-20 23:51:04 · 11304 阅读 · 0 评论 -
python3 查看Django版本
由于python3 与 Django存在不兼容的问题:需要用相对应的Django版本号跟python3进行匹配: Django版本号地址:https://docs.djangoproject.com/en/1.9/releases/原创 2017-10-15 12:03:43 · 1926 阅读 · 0 评论 -
E: 无法获得锁 /var/cache/apt/archives/lock - open (11: 资源暂时不可用) E: 无法对目录 /var/cache/apt/archives/ 加锁
问题描述:安装软件或卸载软件时出现以下情况: E: 无法获得锁 /var/cache/apt/archives/lock - open (11: 资源暂时不可用) E: 无法对目录 /var/cache/apt/archives/ 加锁解决方法(强制解锁): sudo rm /var/cache/apt/archives/lock sudo rm /var/lib/dpk原创 2017-10-25 21:22:44 · 11843 阅读 · 6 评论 -
xxx command not found
编译redis时 提示make cc Command not found这个主要是gcc环境环境没有装好。 我们需要进行gcc环境的安装,然后再进行redis的编译安装gcc环境: yum install gcc类似于很多 xxx command not found 都是环境未安装好,我们只需要用yum进行安装好即可原创 2018-01-21 15:01:38 · 480 阅读 · 0 评论 -
zipimport.ZipImportError: can't decompress data; zlib not available
编译python3.6 版本出现的问题这个问题在centos7 进行python3.6版本的编译,在过程中提示出的问题1 解压缩python-xx.tgz2 cd python-xx3 ./configure4 make && make install在make后出现的问题:这个主要提示我们包还未安装,我们只需要进行包的安装即可解决方法yum -y in原创 2018-01-14 16:13:40 · 820 阅读 · 0 评论 -
ImportError: No module named RedisCrawlSpider
问题:出现的问题是在centos7 安装scrapy的时候出现的,当时使用的python3.6 环境 File "/home/chan/example-project/example/spiders/mycrawler_redis.py", line 4, in module> import RedisCrawlSpiderImportError: No module nam原创 2018-01-14 17:05:23 · 2567 阅读 · 0 评论 -
this license xxx has been cancelled
目录:出现的主要是注册码没有注册成功的问题修改end出现的主要是注册码没有注册成功的问题:修改需要修改系统配置windows C:\Windows\System32\drivers\etc\hosts**使用时需要将“0.0.0.0 account.jetbrains.com”添加到hosts文件中end原创 2018-01-05 00:17:13 · 5199 阅读 · 0 评论 -
scrapy DNS lookup failed: no results for hostname lookup
版权声明: 更多最新原创文章请访问:最新原创主页 更多最全原创文章请访问:更多原创主页DNS lookup failed 问题第一天还可以正常跑起来的代码,第二天就跑不起来了。scrapy 中:解决方法:...原创 2018-03-03 18:53:28 · 7877 阅读 · 3 评论 -
ThriftPy does not support generating module with path in protocol 'c'
场景在使用happybase 在Windows端读取hbase 的时候,提示“ ThriftPy does not support generating module with path in protocol ‘c’”的错误,在github上查到资料:https://github.com/eleme/thriftpy/issues/234 说是源码在解析url的时候出现的错误,...原创 2018-03-18 00:01:29 · 1315 阅读 · 0 评论 -
Centos7 安装Python3和scrapy(正确安装姿势)
苦逼的前夜昨晚很辛苦,搞到晚上快两点,最后还是没有把python3下的scrapy框架安装起来,后面还把yum这玩意给弄坏了,一直找不到命令。今天早上又自己弄了快一上午,又求助@函兮,弄了快一个中午,最后无奈还是没有弄好yum跟python这玩意,最后还是放弃治疗了。真的是什么招,什么损招都用完了,最后也没折了,直接报告老大去,然后把阿里云的centos7实例重新磁盘回滚了一下。正确的...原创 2018-03-13 22:16:38 · 4399 阅读 · 1 评论 -
python scrapy 保存数据到mysql的坑(1064错误)
在将scrapy中的数据存储到mysql中,出现部分数据插入不进去的问题, 一直报:You have an error in your SQL syntax;mysql相对于mongo来说,对数据要严格些,有时候,很多SQL语句写对了,还是插不进去数据。针对上面的问题,我使用了一个pymysql中的方法file_count = pymysql.escape_string(item['file...原创 2018-10-20 10:48:03 · 2324 阅读 · 0 评论