Spider
西山枫叶
计算机专业 做爬虫 / 逆向 / python 后端
展开
-
selenium+chromedriver 本地使用和服务器使用
selenium+chromedriver 本地使用和服务器使用服务器使用:首先需要安装 google-chrome 官网下载-进入再点击其他平台64 位 .deb(适用于 Debian/Ubuntu)64 位 .rpm(适用于 Fedora/openSUSE)然后使用 google-chrome --version 查看 版本下载对应chromedriver 版本 下载链接1 下载链接2网速慢的 试试翻墙运行代码测试本地使用:先在本读Google 浏览器查看版本下载对应版原创 2020-09-25 18:02:58 · 737 阅读 · 2 评论 -
爬虫框架对比(附 支持的数据库)
爬虫框架对比构架技术优点缺点Github统计CrawlabGolang + Vue不限于Scrapy,可用于所有编程语言和框架。漂亮的UI界面。自然支持分布式蜘蛛。支持蜘蛛管理,任务管理,计划任务,结果导出,分析,通知,可配置蜘蛛,在线代码编辑器等。尚不支持蜘蛛版本控制Star:6.8kScrapydWebPython Flask + Vue漂亮的UI界面,内置的Scrapy日志解析器,用于执行任务的统计信息和图形,支持节点管理,cron作业,邮原创 2020-08-20 17:35:49 · 554 阅读 · 0 评论 -
SpiderKeeper使用心得
慢慢更新1.添加egg 发现没有添加成功爬虫解决方式:观察后台scrapyd.log日志报的错误,一般是需要增加pip包2.在project 选项可以添加多个项目,你可以一个选择添加ip代理,一个不用ip代理。。。。...原创 2020-06-02 14:36:07 · 649 阅读 · 9 评论 -
python RSA加密最新(RSA/ECB/PKCS1Padding)
遇到一个 java 的RSA/ECB/PKCS1Padding 加密 要改成python的网上搜一堆不靠谱的,没办法只能自己动手写一份了中间遇到一个ERROR: OverflowError: 458 bytes needed for message, but there is only space for 117遇到问题解决它上代码:import rsaimport base64from Crypto.PublicKey import RSAfrom Crypto.Cipher im原创 2020-06-02 12:12:47 · 7744 阅读 · 5 评论 -
python 使用pymysql模块通过ssh隧道连接mysql(python、mysql、ssh)
参考链接今天做一个日志抓取的爬虫,然后碰到一个问题,我要在本地将数据存到线上BI数据库,但是这个线上数据库只能通过特殊的一台机器来连(这里称跳板机)而且是通过ssh这种方式。localhost----> 机器A ------->机器B怎么办呢?然后查了一下,查询了一个可以用的工具叫sshtunnel ,需要在你想要登录数据库的机器上安装。首先是安装:pip3 instal...原创 2019-09-04 19:01:36 · 3318 阅读 · 1 评论 -
selenium模拟登陆之截屏验证码位置跑偏
在用selenium做爬虫的模拟登陆时遇到验证码图片截取下来的和目标区域的图片不匹配截到的:目标是这样的:明显坐标写的不对,导致截屏区域不是验证码的区域。只能一步一步取修改坐标,来确定具体的图片位置。服务器上和测试环境的坐标有时候也不一样,也是需要重新再找一遍。...原创 2019-07-31 19:25:37 · 1402 阅读 · 3 评论 -
修改一下pip install 下载的包然后再执行的步骤
之前安装了spiderkeeper ,用了一段时间后发现添加任务的api功能不好用,就想修改一下里面的逻辑,在这里记录一下步骤:1.先在github上下载下来你要的安装包(点击Downloda ZIP下载):2.然后在本地打开,并修改你不满意的代码。3.然后在终端代开该文件目录,输入:pip install .注意 最后有个点 ‘.’...原创 2019-08-02 18:49:13 · 1664 阅读 · 0 评论 -
Fiddler自动保存监听的请求
Fiddler自动保存监听的请求 仅仅在Fiddler中设置一下就行。2018/12/28 亲测可用Fiddler 下 Rules------>Customize Rules----->修改request 和 response 中的代码。//过滤无关请求,只关注特定请求 if (oSession.fullUrl.Contains("域名")) { va...原创 2018-12-28 22:10:19 · 536 阅读 · 0 评论 -
selenium+Phantomjs安装(ubuntu)
Selenium是一个Web的自动化测试工具,最初是为网站自动化测试而开发的,类型像我们玩游戏用的按键精灵,可以按指定的命令自动操作,不同是Selenium 可以直接运行在浏览器上,它支持所有主流的浏览器(包括PhantomJS这些无界面的浏览器)。Selenium 可以根据我们的指令,让浏览器自动加载页面,获取需要的数据,甚至页面截屏,或者判断网站上某些动作是否发生。Selenium 自己不...原创 2018-12-22 15:30:37 · 648 阅读 · 0 评论 -
ubuntu 下的环境搭建
1.安装vmware 12一路下一步、输入秘钥2.创建虚拟机 自定义 稍后安装操作系统3.vmtools的安装原创 2018-11-26 22:08:12 · 289 阅读 · 0 评论 -
虚拟环境下安装scrapy
最新换了台电脑,需要重新配置一下新的环境,下面记录一下scrapy的安装流程官方api安装教程1.先卸载之前的错误安装pip uninstall scrapypip uninstall twisted2.按照官方步骤安装依赖(最好是安装一下)sudo apt-get install python-dev python-pip libxml2-dev libxslt1-dev ...原创 2018-12-07 09:48:02 · 774 阅读 · 0 评论 -
Python中遍历pandas数据的几种方法介绍及效率对比
点击原文Pandas是python的一个数据分析包,提供了大量的快速便捷处理数据的函数和方法。对pandas数据遍历的几种方法:1.for…in循环迭代方式2.iterrows()生成器方式3.apply()方法循环方式4.Pandas series 的矢量化方式5.Numpy arrays的矢量化方式总结使用timeit方法对以上几种遍历方式进行执行时间测试,测试结果如下。可...原创 2018-11-20 23:31:11 · 6609 阅读 · 0 评论 -
ImportError: cannot import name BeautifulSoup(点这里就对了)
做爬虫实例的时候用到了bs4 ,正确安装好了,代码里也有from bs4 import BeautifulSoup但是还报错 出现的提示是: ImportError: cannot import name BeautifulSoup,想了半天还是不知道怎么解决这个问题就百度了一下。看了第一篇就解决了这个问题方法:搜索路径的问题,用sys.path查看搜索路径,包含bs4库的路径。...原创 2018-11-12 12:00:54 · 17108 阅读 · 2 评论 -
Selenium support for PhantomJS has been deprecated, please use headless
UserWarning: Selenium support for PhantomJS has been deprecated, please use headless versions of Chrome or Firefox insteadwarnings.warn('Selenium support for PhantomJS has been deprecated, please use...原创 2018-11-09 19:32:45 · 2607 阅读 · 0 评论 -
爬虫
1.User-Agent1.第一种反反爬伪装 正常的浏览器 使用 正常浏览器的的User-Agent如果想完整模拟就将头部全部复制下来2.requests 发送get请求 wd = input("关键词>") url = "https://www.baidu.com/s?wd=%s"%wd #响应头 h原创 2018-10-31 22:03:18 · 261 阅读 · 0 评论