Python
文章平均质量分 67
Win_Man
这个作者很懒,什么都没留下…
展开
-
Python正则表达式
学习Python自然而然就不得不面对正则表达式这个难题。当初在没有学习Python之前,自己也曾经尝试着学习过正则表达式,但是那时候感觉很麻烦,很难懂,结果就是不了了之。但是现在学习Python我用的书是《Python基础教程(第二版)》,这本书中对re模块的讲解很简单易懂,内容不多但起码把人领进门了,之后的学习看个人了。首先先了解正则表达式的定义:就是匹配文本片段的模式。学习正则表达式必原创 2015-05-20 22:53:57 · 737 阅读 · 0 评论 -
python 多线程下载图片
接上一篇,因为图片量太大,所以试着用多线程来下载图片不知道会不会快一点,我将每个收藏夹内的所有图片的url放在url_list的列表中,然后将列表中的url分成100份,分配给100个线程同时下载,用切片来分割列表 尝试多线程的时候,发现线程数量不能过多,线程数量过多,程序会报内存错误兴趣是第一生产力#-*-coding:utf-8-*-import sysimport osimport S原创 2016-02-08 20:19:58 · 4069 阅读 · 0 评论 -
Python Requests爬虫——获取一个收藏夹下所有答案的图片
Spider.py#-*-coding:utf-8-*-import requestsfrom bs4 import BeautifulSoupimport timeimport jsonimport oshead ={'Accept':'*/*', 'Content-Type':'application/x-www-form-urlencoded; cha原创 2016-02-08 18:32:25 · 2299 阅读 · 0 评论 -
python Requests 知乎问题图片爬虫
将相应问题出的数字改成想要爬取的问题的号码即可,将账号密码改成自己的#-*-coding:utf-8-*-import requestsimport timeimport jsonimport sysimport osfrom bs4 import BeautifulSoupreload(sys)sys.setdefaultencoding('utf-8')email =原创 2016-01-26 21:42:38 · 3032 阅读 · 0 评论 -
Python使用Requests第三方库自动登陆知乎
写爬虫就是我学习python的动力,刚开始学习的时候是用python自带的urllib和urllib2的库写爬虫,感觉有点繁琐,今天学习了Requests库感觉用起来比之前用的库方便多了。对网页的分析用的是BeautifulSoup4,之前用正则表达式写麻烦还伤脑经,有便利的工具于是就用了。准备工具:python2.7 RequestBeautiful第一步:分析登录请求原创 2016-01-23 20:32:12 · 9196 阅读 · 5 评论 -
Scrapy爬虫的尝试
今天尝试了一下使用Scrapy框架来写Python的爬虫。是根据Scrapy的官方文档中的简单的样例修改的。尝试了一下分析http://zj.qq.com网页,找出网站中的所有的图片。首先定义了一个Item类class ImgItem(scrapy.Item): src = scrapy.Field()之后是Spider的类import scrapyfrom tutorial.it原创 2015-11-15 18:43:35 · 489 阅读 · 0 评论 -
windows安装配置Scrapy环境
转载文章这篇文章中描述的很详细,步骤全,很容易操作。但是有一些注意点就是下载的一些文件可能是.whl文件。在windows环境下安装.whl需要通过pip来操作。具体操作:1.在cmd中运行pip操作,如果提示不是系统命令,就想python安装目录下的Scripits文件的路径添加到path环境变量中去。2.切换到.whl文件所在的目录下,在命令行中输入 pip install x转载 2015-11-13 23:36:58 · 863 阅读 · 0 评论 -
python 重命名当前文件夹下所有文件
#coding:utf-8import Imageimport osfs = [a for a in os.listdir('.') if os.path.isfile(a) and os.path.splitext(a)[1] != '.py']count = 0for f in fs: os.rename(f,'%d%s' %(count,os.path.splitext(f)[原创 2015-11-11 21:32:53 · 700 阅读 · 0 评论 -
python 拼写检查
无意中刷微博看到这篇文章http://python.jobbole.com/81675/作者用很简短的语句写了一个拼写检查的python程序。看完之后发现原来拼写检查的原理是这样的,之前感觉应该是很高深的东西。但是由于对python中lambda表达式的不怎么理解于是,我就又凭着自己的理解简单的写了一遍。没有原文中作者的优化部分,只是简单的实现了功能。而且是只有文章中提到的编译距离1以内的情况。原创 2015-07-06 16:44:11 · 943 阅读 · 0 评论 -
python开发微信公众平台 BAE
最近学习Python,发现可以使用python来开发微信公众平台,就想尝试一下。因为微信公众平台的开发者模式需要用到服务器,自己的电脑不可能整天开着,所以拿自己电脑当服务器有点不太现实,所以我选择了将应用部署到了BAE上,其实部署到SAE上也是可以的。首先申请一个微信公众号以及一个bae账号。在bae上创建一个python-web应用。使用SVN将应用内容CheckOut到本地会看到原创 2015-06-14 15:41:12 · 2693 阅读 · 0 评论 -
纪念我的第一个Python爬虫——图片
爬虫小程序原创 2015-05-19 20:43:24 · 1136 阅读 · 0 评论 -
python 使用requests第三方库自动登陆新浪微博
学习python的最初原因就是写爬虫,最近一直在写爬虫。感觉写爬虫的时候主要问题就是四个:页面分析,网站登录,反反爬虫,多线程并发。四个问题难度依次递增。刚开始的时候觉得页面分析挺没有头绪的,但是写过几次之后就有了套路,对页面中的自己感兴趣的内容的抓取也变得得心应手了。其次就是网站登录,这是写爬虫一定会遇到的问题,因为有些网站需要用户登录之后才可以查看,所以需要去分析网站的登录机制。难点在于,虽然原创 2016-02-10 10:46:10 · 5811 阅读 · 2 评论