- 博客(5)
- 收藏
- 关注
原创 scrapy pipelines(MySQL )
import MySQLdbclass MySQL_Easy_Pipeline(object): # 简单的MySQL管道 def open_spider(self, spider): print('爬虫开始') self.conn = MySQLdb.connect(**spider.settings['MYSQL_INFO'])
2018-01-14 14:11:20 893 1
原创 最长子序列python递归实现
def lcs1(A, B): # 普通递归 if not(A and B): return '' elif A[-1] == B[-1]: return lcs1(A[:-1], B[:-1]) + A[-1] else: if len(lcs1(A[:-1], B)) > len(lcs1(A, B[:-1])):
2018-01-10 23:48:28 729
原创 代理池使用,python的简单队列实现
爬取到代理之后,使用时当然不能老是撸一只羊的毛。循环着使用代理可以增加单个代理的间隔时间,远离反爬阈值下面介绍一种简单的python队列实现:通过pop返回并删除第一个代理,可用则用完之后加到末尾,通过break结束循环;不可用则舍弃,通过continue进入下一次循环。当proxies为空之后,通过break结束url的迭代。以下是代码:urls = []#你要抓取的url链接列表proxies...
2017-09-19 15:03:36 519
翻译 selenium知识点
注:摘自selenium官方文档,感谢有道词典前期学习的时候建议使用Firefox + ipython,方便查看每一步的效果。遇到不懂记得使用help()和dir()一个简单的测试:from selenium import webdriver #导入需要的网页驱动driver =
2017-09-08 22:10:08 322
原创 python 错误日志
import timedef print_Error(err,filepath='log.txt'): with open(filepath,'a',encoding='utf-8') as f: print('出错了:', file=f) print('日期时间:', time.strftime("%Y-%m-%d %H:%M:%S", time.lo
2017-09-01 19:54:02 301
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人