爬虫
文章平均质量分 59
飞飞帅傅
这个作者很懒,什么都没留下…
展开
-
Scrapy(2) JavaScript与AJAX数据爬取
爬取QQ音乐榜单歌曲定位到XHR,发现歌曲名称,歌手等信息在这里双击下面这个会跳转一个JSON文件的页面,要爬取的信息都在这里了这个网页下的JSON数据比较乱,我们可以百度搜索JSON校验格式化工具,把JSON数据拷贝到这里,就很清晰的可以找到各个关键字的包含关系了启动项目scrapy startproject QQmusicscrapy genspider music www.xxx.com在music.py中写代码import scrapyimport jsonfrom.原创 2021-07-06 11:34:41 · 251 阅读 · 0 评论 -
Scrapy(1) 爬取起点中文网小说,并保存到数据库
爬取起点中文网小说Scrapy框架结构引擎(ENGINE)调度器(SCHEDULER)下载器(DOWNLOADER)爬虫(SPIDERS)项目管道(ITEM PIPELINES)下载器中间件(Downloader Middlewares)爬虫中间件(Spider Middlewares)需求分析目标网站 https://www.qidian.com/rank/hotsales?style=1&page=1提取内容为:小说名称、作者、类型和形式项目创建项目,在命令原创 2021-07-04 22:42:11 · 3011 阅读 · 0 评论 -
scrapy爬取校花全站数据
爬取目标网址http://www.521609.com/tuku/shz/1.准备工作命令行下进行创建工程 scrapy startproject xiaohuaPro进入目录 cd xiaohuaPro在spiders子目录中创建一个爬虫文件 scrapy genspider spiderName www.xxx.com打开pycharm,自动创建如下的目录2.开始爬虫1、打开xiaohua.py,注释掉这一行allowed_domains = ['www.xxx.com.原创 2021-05-26 18:30:55 · 189 阅读 · 0 评论