- 博客(9)
- 收藏
- 关注
原创 requests翻页爬虫
适用于以下情况:数据通过ajax返回总页码在返回数据中定义初始页码num=1使用while循环执行爬虫爬虫最后使页码num自增1当num大于总页码nums时,退出循环
2022-01-05 14:49:23 1104
原创 scrapy-redis分布式爬取 读取redis数据库中内容存储到mongo
import jsonimport pymongofrom redis import StrictRedisrediscli=StrictRedis(host='192.168.6.223',port=6379,db=0,decode_responses=True)client=pymongo.MongoClient('mongoip',27017)db=client.xixiancollention=db.demowhile True: source, data = redisc
2021-12-24 14:51:24 857
原创 pymongo数据存在则不执行,不存在则更新
示例:使用update命令,关键参数setOnInsert、upsert第一次返回结果:此时表中插入一条数据第二次运行:仍为只有一条数据
2021-12-14 09:05:55 749 3
原创 pyinstaller打包时遇到的问题
记录pytinstaller打包时遇到的错误错误截图:解决方案:进入python安装目录:C:\Users\希贤\AppData\Local\Programs\Python\Python39\Lib\site-packages\PyInstaller\hooks\rthooks找到pyi_rth__tkinter.py文件,注释掉如下代码:即可打包成功。...
2021-11-12 18:36:54 1040
原创 某东商品价格抓取
今天做了一个京东商品价格的需求,整理一下。第一步:打开Chrome浏览器自带抓包工具,选择network选项卡第二步:按下Ctrl+F5,打开search,在里面输入价格,例如图中输入的是1318.00.然后回车就会出现包含价格的接口出现分析下接口,可以看到价格为‘price’下面的’p’字段中。第三步:分析下请求接口,为get请求。第四步,分析下请求url,发现url形式为:https://item-soa.jd.com/getWareBusiness?skuId= ,只需要获取到商品
2021-08-04 16:11:16 1796
原创 记录一下学习使用aiohttp+async抓取商城价格
记录一下学习使用aiohttp+async抓取商城价格# -*-coding:utf-8-*-import timeimport aiohttpimport asynciofrom lxml import etreeimport pandas as pddef get_url(): df=pd.read_excel('商城链接.xlsx') return dfheaders={ "user-agent": "Mozilla/5.0 (Windows
2021-05-11 15:55:26 104
原创 使用正则爬取糗图图片(爬虫日记1)
这里写自定义目录标题欢迎使用Markdown编新的改变前言一、pandas是什么?二、使用步骤1.引入库2.读入数据总结功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Markdown编你好! 这是你第一次使用 Mark
2020-12-03 20:52:07 152
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人