- 博客(6)
- 收藏
- 关注
原创 异步写入数据库
使用异步写入数据库的原因:1.同步: 同步写入数据速度比较慢, 而爬虫速度比较快, 可能导致数据最后写不到数据库中。2. 异步: 是将爬虫的数据先放到一个连接池中, 再同时将连接池的数据写入到数据库中, 这样既可以提高数据库的写入速度, 同时也可以将爬取到的所有数据都写到数据库中, 保证数据的完整性。异步写入流程:在settings中配置Mysql链接需要的参数自定义Pipeline...
2018-10-15 21:08:16 6618
原创 天堂图片下载
from urllib import requestimport re, osclass IvskySpider(object): def __init__(self): self.url = 'http://www.ivsky.com/tupian/ziranfengguang/' self.html = '' self.tit...
2018-10-08 22:39:24 361
原创 图片下载
首先我们要下载urllib模块从urllib导入urlretrieve模块from urllib.request import urlretrieve获取要下载图片的地址img_url = ‘图片地址’图片保存名称(注意:图片名称不能重复)urlretrieve(img_url, ‘名称.jpg’)如需下载多张图片, 遍历即可实现示例代码如下图:...
2018-10-08 22:31:06 136
原创 税额计算器
步骤总结:输入一个税前工资计算各项社会保险费(1).如果税前工资>=7662 社会保险费 = 7662 * 五险一金比例 22.5%(2).如果税前工资< 7662 社会保险费 = 税前工资 * 五险一金比例 22.5%计算应纳税所得额, 计算公式如下:应纳税所得额 = 税前工资收入金额 - 各项社会保险费 - 起征点(3500)判断应纳税所得额所在阶梯的适用税率和速算...
2018-10-08 21:57:55 637
原创 Redis 非关系型数据库的使用
修改配置文件(找到redis下的redis.windows.conf修改主的配置文件 搜索bind,将后面的ip改成当前服务器ip2. 修改从的配置文件 搜索slaveof,将该代码解注释,然后添加ip和端口号。注意:端口号必须写重启主和从的redis服务1.进入文件夹路径下:shift 右键 在此处打开命令窗口2.在cmd终端输入 redis-server red...
2018-09-29 20:49:22 482
原创 基于Scrapy_redis部署scrapy分布式爬虫
1 . 使用命令行工具下载工具包 scrapy_redis 注意:要在自己使用的环境中下载安装包2. 使用pycharm打开项目,找到settings文件,配置scrapy项目使用的调度器及过滤器3. 修改spider爬虫文件4. 如果连接的有远程服务,例如MySQL,Redis等,需要将远程服务连接开启,保证在其他主机上能够成功连接。如果redis想访问远程的redis服务器,需...
2018-09-29 20:25:43 162
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人