Python
文章平均质量分 52
woshizoe
这个作者很懒,什么都没留下…
展开
-
Scrapy复习
python爬虫之Scrapy 使用代理配置转载 2014-09-10 15:09:57 · 852 阅读 · 0 评论 -
Windows下用pip安装scrapy - drk
http://www.tuicool.com/articles/JFzeqyScrapy 是一个自由开源的Python爬虫框架,虽然其官方主页有安装指导,但是在Windows下实现起来却没有那么容易。自己一番折腾之后总算可以正常运行,这里总结一下。需要的软件和扩展包按照安装顺序分别是:Anaconda (IPython) Win 32bits (python versi转载 2014-04-16 14:59:34 · 1511 阅读 · 0 评论 -
python操作MySQL数据库
http://www.cnblogs.com/rollenholt/archive/2012/05/29/2524327.html坚持每天学一点,每天积累一点点,作为自己每天的业余收获,这个文章是我在吃饭的期间写的,利用自己零散的时间学了一下python操作MYSQL,所以整理一下。我采用的是MySQLdb操作的MYSQL数据库。先来一个简单的例子吧:?转载 2014-02-19 11:22:27 · 522 阅读 · 0 评论 -
python下的MySQLdb使用
http://drizzlewalk.blog.51cto.com/2203401/448874/下载安装MySQLdblinux版本http://sourceforge.net/projects/mysql-python/ 下载,在安装是要先安装setuptools,然后在下载文件目录下,修改mysite.cfg,指定本地mysql的mysql-config文件的路径wind转载 2014-02-19 11:21:42 · 509 阅读 · 0 评论 -
[Python]MySQLdb for Python使用指南/Python的数据库操作
http://www.cnblogs.com/czh-liyu/archive/2008/04/13/1151758.html网站就是要和数据库进行交互,否则什么都不用做了...今天我们来看一个叫MySQLdb的库,这个用来和MySQL数据库进行交互.可以从这里获得这个库http://sourceforge.net/projects/mysql-python如果你不确定你的py转载 2014-02-19 11:20:26 · 504 阅读 · 0 评论 -
Python多线程学习
http://www.cnblogs.com/tqsummer/archive/2011/01/25/1944771.html 一、Python中的线程使用: Python中使用线程有两种方式:函数或者用类来包装线程对象。1、 函数式:调用thread模块中的start_new_thread()函数来产生新线程。如下例: view plaincopy to转载 2014-02-26 15:43:24 · 471 阅读 · 0 评论 -
Python中如何获得访问网页所返回的cookie
http://www.crifan.com/get_cookie_from_web_response_in_python/用Python脚本模拟登陆百度空间。需要先获得最开始登陆的百度空间网页所返回的cookie。【解决过程】1.搜了一番,最后参考这个:利用Python抓取需要登录网站的信息实现了对应的代码:?转载 2014-02-26 14:20:03 · 9969 阅读 · 0 评论 -
python --enumerate用法
http://blog.csdn.net/suofiya2008/article/details/5603861python cookbook Recipe 2.5. Counting Lines in a File , 今日发现一个新函数 enumerate 。一般情况下对一个列表或数组既要遍历索引又要遍历元素时,会这样写:for i in range转载 2014-02-26 14:19:34 · 564 阅读 · 0 评论 -
scrapy在采集网页时使用随机user-agent的方法
http://www.sharejs.com/codes/python/8310默认情况下scrapy采集时只能使用一种user-agent,这样容易被网站屏蔽,下面的代码可以从预先定义的user-agent的列表中随机选择一个来采集不同的页面在settings.py中添加以下代码DOWNLOADER_MIDDLEWARES = {转载 2014-02-13 17:16:41 · 11224 阅读 · 0 评论 -
enumerate用法
http://www.cnblogs.com/vivilisa/archive/2009/03/19/1417083.html今日发现一个新函数 enumerate 。一般情况下对一个列表或数组既要遍历索引又要遍历元素时,会这样写:for i in range (0,len(list)): print i ,list[i] 但是这转载 2014-02-26 14:21:10 · 1839 阅读 · 0 评论 -
scripy爬取页面并按目录结构存放页面
http://www.w3c.com.cn/scripy%E7%88%AC%E5%8F%96%E9%A1%B5%E9%9D%A2%E5%B9%B6%E6%8C%89%E7%9B%AE%E5%BD%95%E7%BB%93%E6%9E%84%E5%AD%98%E6%94%BE%E9%A1%B5%E9%9D%A20.00 / 5 51 / 52 / 5转载 2014-02-26 15:39:01 · 2181 阅读 · 0 评论 -
python enumerate 用法
http://www.pythonclub.org/python-basic/built-inpython enumerate 用法 | 在for循环中得到计数参数为可遍历的变量,如 字符串,列表等; 返回值为enumerate类:import strings = string.ascii_lowercasee = enumerate(s)print spr转载 2014-02-26 14:30:56 · 632 阅读 · 0 评论 -
Scrapy的简介和安装
http://blog.csdn.net/nothi/article/details/18712577pip --proxy=http://168.219.241.177:80 install scrapyScrapy简介scrapy是一个快速(fast)、高层次(high-level)的web爬虫构架。用来下载、并解析web页面,安装环境Ubunt转载 2014-05-05 13:48:01 · 556 阅读 · 0 评论 -
Python:如何获取当前的日期和时间
http://www.osetc.com/python-how-to-get-the-current-date-and-time.htmlPython:如何获取当前的日期和时间admin 发表于2013/10/11-20:10 Linux 11,854 views 暂无评论分享到QQ分享到:在python里如何转载 2014-05-06 16:54:19 · 2779 阅读 · 0 评论 -
Python MySQLdb 查询返回字典结构
http://chenxiaoyu.org/2009/11/10/python-mysqldb-return-dict.htmlMySQLdb默认查询结果都是返回tuple,输出时候不是很方便,必须按照0,1这样读取,无意中在网上找到简单的修改方法,就是传递一个cursors.DictCursor就行。默认程序:import MySQLdbdb = MySQLdb.转载 2014-03-27 11:23:24 · 2846 阅读 · 0 评论 -
django&python&linux后台运行
在后台运行 django:nohup python manage.py runserver 0.0.0.0:9000 &ps:&可以不写查看后台某个进程:ps -ef|grep "python"杀死进程:kill -9 34353重启 apache:apachectl restart转载 2014-05-04 17:05:21 · 8441 阅读 · 0 评论 -
The Django Book
http://djangobook.py3k.cn/Table of contents1.0, English -> Chinese注意:Django book 2.0 的中文翻译已经开始,请访问http://djangobook.py3k.cn/2.0/!这里进行的是Django book 1.0 的中文翻译,是django 0.96 版本,要适合django转载 2014-04-23 15:45:29 · 554 阅读 · 0 评论 -
Scrapy入门教程
http://www.cnblogs.com/txw1958/archive/2012/07/16/scrapy-tutorial.htmlScrapy入门教程关键字:scrapy 入门教程 爬虫 Spider作者:http://www.cnblogs.com/txw1958/出处:http://www.cnblogs.com/txw1958/archive/2012/07转载 2014-09-10 14:00:34 · 491 阅读 · 0 评论 -
Python Requests快速入门
http://blog.csdn.net/iloveyin/article/details/21444613快速上手迫不及待了吗?本页内容为如何入门Requests提供了很好的指引。其假设你已经安装了Requests。如果还没有, 去 安装 一节看看吧。首先,确认一下:Requests 已安装Requests是 最新的让我们从一些简单的示例开始吧。转载 2014-06-13 17:41:07 · 601 阅读 · 0 评论 -
Scrapy:一次性运行多个Spiders
http://blog.csdn.net/iefreer/article/details/20677943如果创建了多个Spider,希望通过cronjob一次性运行所有的Spiders,可以通过自定义Scrapy命令来实现。1. 在你的Scrapy工程下面新建一个目录:cd path/to/your_projectmkdir commands注意这个com转载 2014-05-12 11:09:36 · 2186 阅读 · 0 评论 -
Scrapy pipeline spider_opened and spider_closed not being called
http://stackoverflow.com/questions/4113275/scrapy-pipeline-spider-opened-and-spider-closed-not-being-calledScrapy pipeline spider_opened and spider_closed not being called转载 2014-05-15 18:50:20 · 3135 阅读 · 0 评论 -
Locally run all of the spiders in Scrapy
http://stackoverflow.com/questions/15564844/locally-run-all-of-the-spiders-in-scrapy7down voteacceptedHere is an example that does not run inside a custom command, but runs转载 2014-05-12 14:04:16 · 1040 阅读 · 0 评论 -
在线程里运行scrapy的方法
http://www.sharejs.com/codes/python/8400# When you run the Scrapy crawler from a program, the code blocks until the Scrapy crawler is finished. This is due to how Twisted (the underlying asynchron转载 2014-05-09 18:39:13 · 2008 阅读 · 0 评论 -
Python 以一个指定的间隔定时循环执行任务
http://www.linuxidc.com/Linux/2014-03/97555.htm转载 2014-05-08 17:22:56 · 22494 阅读 · 2 评论 -
python调用module的几种方法
http://blog.sina.com.cn/s/blog_b3a4f3f80101cq60.htmlpython包含子目录中的模块方法比较简单,关键是能够在sys.path里面找到通向模块文件的路径。下面将具体介绍几种常用情况:(1)主程序与模块程序在同一目录下:如下面程序结构:`-- src |-- mod1.py `-- test1.py转载 2014-05-08 13:57:09 · 2317 阅读 · 0 评论 -
Python多线程学习
http://www.cnblogs.com/tqsummer/archive/2011/01/25/1944771.html 一、Python中的线程使用: Python中使用线程有两种方式:函数或者用类来包装线程对象。1、 函数式:调用thread模块中的start_new_thread()函数来产生新线程。如下例: view plaincopy t转载 2014-05-09 14:06:01 · 470 阅读 · 0 评论 -
Python实例讲解 -- 定时播放 (闹钟+音乐)
http://justcoding.iteye.com/blog/901606自己写的闹钟, 只可以播放wav格式的音频。 Python代码 import time import sys soundFile = 'sound.wav' not_executed = 1 def soundStart():转载 2014-05-08 17:23:48 · 4765 阅读 · 0 评论 -
distribute_crawler
https://github.com/gnemoug/distribute_crawlerdistribute_crawler使用scrapy,redis, mongodb,graphite实现的一个分布式网络爬虫,底层存储mongodb集群,分布式使用redis实现, 爬虫状态显示使用graphite实现。这个工程是我对垂直搜索引擎中分布式网络爬虫的探索实现,它包转载 2014-02-14 11:32:25 · 1379 阅读 · 0 评论 -
scrapy 使用代理
http://blog.csdn.net/mldxs/article/details/8701440# Importing base64 library because we'll need it ONLY#in case if the proxy we are going to use requires authenticationimport base64# Start you转载 2014-02-13 14:25:56 · 935 阅读 · 0 评论 -
Python日期操作
http://www.cnblogs.com/rollenholt/archive/2012/04/10/2441542.html1. 日期输出格式化所有日期、时间的api都在datetime模块内。1. datetime => stringnow = datetime.datetime.now()now.strftime('%Y-%m-%d %H:%M:%S转载 2014-02-25 14:32:57 · 594 阅读 · 0 评论 -
python 日期加減
http://blog.csdn.net/liukeforever/article/details/6621677python 中日期類型是datetime.date 可以相加減的類型是datetime.timedeltatimedelta = date1 - date2date1 = date2 + timedeltadatetime.tim转载 2014-02-25 14:32:07 · 591 阅读 · 0 评论 -
python 获取当前时间
http://www.cnblogs.com/wanpython/archive/2010/08/07/1794598.html我有的时候写程序要用到当前时间,我就想用python去取当前的时间,虽然不是很难,但是老是忘记,用一次丢一次,为了能够更好的记住,我今天特意写下python 当前时间这篇文章,如果你觉的对你有用的话,可以收藏下。取得时间相关的信息的话,要用到pyt转载 2014-02-25 14:31:03 · 595 阅读 · 0 评论 -
Python中dict详解
http://blog.csdn.net/tianmohust/article/details/7621424#字典的添加、删除、修改操作dict = {"a" : "apple", "b" : "banana", "g" : "grape", "o" : "orange"}dict["w"] = "watermelon"del(dict["a"])dict["g"] =转载 2014-02-24 13:48:06 · 622 阅读 · 0 评论 -
python变量作用域
在python中,变量查找遵循LGB原则,即优先在局部作用域(local scope)中对变量进行查找,失败则在全局作用域(global scope)中进行查找,最后尝试再内建作用域(build-in scope)内查找,如果还是未找到的话,则抛出异常。后来由于闭包和嵌套函数的出现,作用域又增加了外部作用域,这样变量的查找作用域优先级变为:局部、外部、全局和内建。 作用域由def、class、la转载 2014-02-21 11:43:03 · 629 阅读 · 0 评论 -
Requests:Python HTTP Module学习笔记(一)
http://www.cnblogs.com/paisen/p/3399357.html在学习用python写爬虫的时候用到了Requests这个Http网络库,这个库简单好用并且功能强大,完全可以代替python的标准库urllib2。在学习的同时把我的学习笔记记录下来,资料基本上都是从Requests官网翻译过来的,欢迎指出有错误或者有表述的不准确的地方。1.介绍Reque转载 2014-01-26 17:41:58 · 790 阅读 · 0 评论 -
python requests 高级用法
http://my.oschina.net/HankCN/blog/123201原创。高级用法 本文档涵盖了一些requests更先进的功能。 Session Objects会话对象 Session对象在请求时允许你坚持一定的参数。此外,还坚持由Session实例的所有请求的cookie。 让我们坚转载 2014-01-26 17:19:59 · 4531 阅读 · 0 评论 -
比urllib好用的requests
http://www.bsdmap.com/2013/01/13/python-requests/Python标准库里提供了httplib以及urllib、urllib2,但是学习了好几次,都没有记住(下的功夫不够)。今天崔推荐了一个requests库,看了一下样例,几乎立即就会使用了,所以推荐给大家。看官方是怎么描述这种情况的:“Python’s standard urlli转载 2014-01-26 17:43:32 · 2401 阅读 · 0 评论 -
一只小爬虫
http://matrix.42qu.com/10724693#h25引子当Google创始人用python写下他们第一个简陋的爬虫, 运行在同样简陋的服务器上的时候 ;很少有人能够想象 , 在接下的数十年间 , 他们是怎样地颠覆了互联网乃至于人类的世界 ;今天 , 我们谨以一只小小的python爬虫 , 作为我们的第一个编程作品 ;纪念并缅怀那个从python开始征途的伟大搜索引擎转载 2014-01-26 17:40:44 · 995 阅读 · 0 评论 -
Python 爬虫框架
http://lerry.me/post/2012/09/15/python-spider学Python的应该都写过爬虫吧,如果希望提高爬虫的效率就要用到并发,可以选择的用多线程、多进程,还有最近很火的Gevent,据说是基于一种新的概念,协程,不管什么程,总之好用就行了。写一个爬虫有一系列的东西需要处理,如果有一个好用的框架就会事半功倍。在42qu.com源码里面,有个教主写的爬转载 2014-01-26 17:18:43 · 818 阅读 · 0 评论 -
python——urllib模块
http://blog.csdn.net/lxlzhn/article/details/104742811. 简述这里说的urllib模块,是urllib*模块,包括了urllib、urllib2和urllib3等几个。urllib和urllib2都是属于python的基础库,类似于java中官方jdk提供的库,在http://docs.python.org/2/library转载 2014-01-26 16:06:27 · 872 阅读 · 0 评论