2018年09月_西门大盗

原创 selenium截屏保存、截取特定区域的图片

browser = webdriver.Chrome() wait = WebDriverWait(browser, 10) browser.get('https://www.baidu.com') time.sleep(3) browser.get_screenshot_as_file('C:\\Users\\zd\\Desktop\\baidu.pn...

2018-09-30 17:46:20 18436 12

原创 python爬虫时图形验证码识别( tesserocr)

window环境下：第一步：安装tesseract：教程如下：https://www.cnblogs.com/jianqingwang/p/6978724.html第二步：安装tesserocr ：到这里下载whl版本https://github.com/simonflueckiger/tesserocr-windows_build/releases ...

2018-09-30 15:40:05 2409

原创 mongodb中复制（备份）collection，复制数据库

db.new_product.find().forEach(function(x){db.tt.insert(x)})原collection为new_product 复制到tt表中复制本地数据库到本地，原名,现名db.copyDatabase("wenshu","wenshu","localhost")复制云数据库到本地，原名,现名,ip,用户名,密码db.copyD...

2018-09-28 15:22:53 2245

原创 python中选择数字小数点的个数（round）

>>> print(round(0.88888,2)) # 2代表小数点2位数0.89 >>> print(round(1.666))2

2018-09-26 17:59:38 2112

原创爬虫时session的使用

Session是另一种记录客户状态的机制，不同的是Cookie保存在客户端浏览器中，而Session保存在服务器上客户端浏览器访问服务器的时候，服务器把客户端信息以某种形式记录在服务器上。这就是Session。客户端浏览器再次访问时只需要从该Session中查找该客户的状态就可以了如果说Cookie机制是通过检查客户身上的“通行证”来确定客户身份的话，那么Session机...

2018-09-18 21:49:45 4364

原创 scrapy 中匹配item中字段的简易方法

比如items.py中设置了字段有id = scrapy.Field()name = scrapy.Field()那么在spider中可以简化来匹配要获取的item:weibo_item = WeiboItem()for field in weibo_item.field: try: weibo_item[field]=eval(field) ...

2018-09-16 14:13:15 1093

原创爬虫遇到反爬，基本的几个思路

经常遇到网站反爬的情况，一下是几个基本的底层思路。一：做好伪装。请求头、模拟浏览器登陆等等。二：请求频率降低。time.sleep(1)，或者download.delay = 1 , 对某些网站已经够用了三：上代理。效果最好的方式，只是繁琐了很多，甚至需要购买好用的代理。...

2018-09-10 22:30:52 1017

原创字符、字节(byte)、位（bit）的总结

字符：一个汉字或一个英文字母，就是一个字符。如“中”，‘a’，‘5’，都算是一个字符字节（byte）：存储空间的计量单位：1字节=8位 1汉字 = 2字节 = 16位 1字母 = 1字节 = 8位位（bit）：二进制数据，0或者1，一个0就是1bit 标点符号 ...

2018-09-06 12:34:09 754

西门大盗捉虫专家