- 博客(8)
- 收藏
- 关注
原创 selenium截屏保存、截取特定区域的图片
browser = webdriver.Chrome() wait = WebDriverWait(browser, 10) browser.get('https://www.baidu.com') time.sleep(3) browser.get_screenshot_as_file('C:\\Users\\zd\\Desktop\\baidu.pn...
2018-09-30 17:46:20 18436 12
原创 python爬虫时图形验证码识别( tesserocr)
window环境下:第一步:安装tesseract:教程如下:https://www.cnblogs.com/jianqingwang/p/6978724.html第二步:安装tesserocr : 到这里下载whl版本https://github.com/simonflueckiger/tesserocr-windows_build/releases ...
2018-09-30 15:40:05 2409
原创 mongodb中复制(备份)collection,复制数据库
db.new_product.find().forEach(function(x){db.tt.insert(x)})原collection为new_product 复制到tt表中 复制本地数据库到本地,原名,现名db.copyDatabase("wenshu","wenshu","localhost")复制云数据库到本地,原名,现名,ip,用户名,密码db.copyD...
2018-09-28 15:22:53 2245
原创 python中选择数字小数点的个数(round)
>>> print(round(0.88888,2)) # 2代表小数点2位数0.89 >>> print(round(1.666))2
2018-09-26 17:59:38 2112
原创 爬虫时session的使用
Session是另一种记录客户状态的机制,不同的是Cookie保存在客户端浏览器中,而Session保存在服务器上 客户端浏览器访问服务器的时候,服务器把客户端信息以某种形式记录在服务器上。这就是Session。客户端浏览器再次访问时只需要从该Session中查找该客户的状态就可以了 如果说Cookie机制是通过检查客户身上的“通行证”来确定客户身份的话,那么Session机...
2018-09-18 21:49:45 4364
原创 scrapy 中匹配item中字段的简易方法
比如items.py中设置了字段有id = scrapy.Field()name = scrapy.Field()那么在spider中可以简化来匹配要获取的item:weibo_item = WeiboItem()for field in weibo_item.field: try: weibo_item[field]=eval(field) ...
2018-09-16 14:13:15 1093
原创 爬虫遇到反爬,基本的几个思路
经常遇到网站反爬的情况,一下是几个基本的底层思路。一:做好伪装。请求头、模拟浏览器登陆等等。二:请求频率降低。time.sleep(1),或者download.delay = 1 , 对某些网站已经够用了三:上代理。效果最好的方式,只是繁琐了很多,甚至需要购买好用的代理。...
2018-09-10 22:30:52 1017
原创 字符、字节(byte)、位(bit)的总结
字符:一个汉字或一个英文字母,就是一个字符。如“中”,‘a’,‘5’, 都算是一个字符字节(byte):存储空间的计量单位:1字节=8位 1汉字 = 2字节 = 16位 1字母 = 1字节 = 8位 位(bit):二进制数据,0或者1,一个0就是1bit 标点符号 ...
2018-09-06 12:34:09 754
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人