python
文章平均质量分 61
掌勺者
这个作者很懒,什么都没留下…
展开
-
scrapyd:基于scrapy的爬虫发布管理工具
最近研究scrapy爬虫框架,在整站爬取上及其方便。但是因为boss的需求比较怪异,需要自动化的最大量不同站点做爬取,而scrapy实现上述功能又不够智能和方便。后来在scrapy文档里发现了scrapyd,找到了思路。scrapyd相当于scrapy server,可以同时运行多个爬虫。1、安装scrapyd:pip install scrapyd2、运行scrapyd:sc原创 2017-07-11 11:26:05 · 2133 阅读 · 0 评论 -
python安装mysql-connector-python
用python连接mysql数据库,需要安装第三方的工具包,常用的有Mysqldb,pymysql,mysql-connector-python。其中,mysql-connector-python是mysql官方给出的python扩展包,本文以此包的安装为准。首先,采用官方的安装方式。登录官网https://dev.mysql.com/downloads/connector/python/原创 2017-06-23 09:35:02 · 5562 阅读 · 1 评论 -
ubuntu下安装web服务器及爬虫框架
1、安装anacondabash Anaconda2-4.4.0-Linux-x86_64.sh 2、安装ssh服务:确定是否有安装SSH服务ps -e | grep ssh*安装SSH-serversudo apt-get install openssh-server安装SSH-clientsudo apt-get install openss原创 2017-06-23 09:36:40 · 283 阅读 · 0 评论 -
使用paramiko的SFTP get或put整个目录(转)
使用paramiko的SFTP get或put整个目录 在《使用paramiko执行远程linux主机命令》中举例说明了执行远程linux主机命令的方法,其实paramiko还支持SFTP传输文件。 由于get或put方法每次只能传输一个文件,而不是整个目录,因此我们先看一下传输单个文件的方法,其实非常简单,网上也有很多参考资料了。 还是直接使用前文中转载 2017-07-18 08:42:49 · 2091 阅读 · 0 评论 -
win10 64位系统下,搭建spark环境,并配置python+pycharm开发环境
因为个人需要,想要学习大数据的处理知识,在学习之前首先要搭建基本软件环境。目前用的比较广泛的大数据平台基本都是基于hadoop生态圈的一系列软件,不过这两年spark异军突起,比hadoop生态中的MR的处理方式要快非常多,而且spark中的SQL、streaming、MLlib、GraphX等组件功能十分强大,所以选择搭建以spark为基础的大数据处理环境。一、系统环境理论上说,无论原创 2017-11-28 18:13:27 · 1993 阅读 · 0 评论