八爪鱼爬虫
文章平均质量分 82
利用八爪鱼软件进行爬虫
薄荷杂学
触底反弹
展开
-
4-八爪鱼boss直聘信息采集
目录4-1-综合实践背景4-2-综合实践操作1-打开网页2-按关键词进行搜索3-报错“当前IP地址可能存在异常访问”4-数据采集4-3-思考参考文献4-1-综合实践背景小张是某高校管理学研究生,在毕业课题中需要采集boss直聘武汉地区的相关数据,而小张同学因为是人文科学背景没有接触过爬虫,在网上搜索很多资料后,现在她找到你希望你帮她采集boss直聘网的相关数据,你应该怎么做呢?boss直聘武汉地区网站:https://www.zhipin.com/wuhan/4-2-综合实践操作1-打开网页打开转载 2021-08-22 20:35:03 · 2543 阅读 · 1 评论 -
3-八爪鱼自定义数据采集(关键词循环、数据格式化)
目录3-1-京东关键词循环与特殊字段登录账号,设置Cookie设置循环按关键词搜索3-2-豆瓣数据格式化1.替换2、正则表达式替换3、正则表达式匹配4、去除空格5、添加前缀6、添加后缀7、日期时间格式化8、HTML转码3-3-正则表达式1、正则表达式简介2、正则表达式的用途3、常用元字符及描述4、边界匹配3-4-练习与思考参考资料3-1-京东关键词循环与特殊字段京东链接:https://www.jd.com登录账号,设置Cookie进入八爪鱼打开京东的链接与“2-自动识别初体验”的微博登录设置一致转载 2021-08-19 18:13:24 · 6587 阅读 · 0 评论 -
2-八爪鱼的自动识别(Cookie设置、翻页与循环)
目录2-1-知识储备Cookie2-2-微博数据抓取(登陆Cookie设置)1-在八爪鱼页面打开微博的官网2-切换至“浏览模式”3-登录微博4-设置Cookie5-输入关键词6-自动识别网页,完成数据采集2-3-豆瓣图书数据抓取(翻页与循环)1-登陆八爪鱼,进入豆瓣的采集页面2-自动识别网页3-采集各个图书的链接4-循环打开各个网页采集相关信息5-点击采集开始对最终数据进行抓取2-4-采集流程逻辑1-八爪鱼的工作原理2-八爪鱼的流程逻辑案例1案例2案例32-5-思考参考资料2-1-知识储备Cookie转载 2021-08-18 14:28:14 · 8231 阅读 · 3 评论 -
1-初识八爪鱼
文章目录1.八爪鱼软件界面2.运行逻辑[以爬取36Kr快讯为例]3.思考1.八爪鱼软件界面下载地址:免费下载-Windows大数据采集软件下载 - 八爪鱼采集器 (bazhuayu.com)2.运行逻辑[以爬取36Kr快讯为例]打开八爪鱼采集器,在主页的搜索框中输入36kr快讯的地址,点击开始采集在屏幕右侧的操作提示中,点击自动识别网页,点击后会进入到识别网页的过程等网页识别完成后我们就看到了八爪鱼自动识别的结果点击生成采集设置按钮点击保存并开始采集数据采集的方式有2种,一个是转载 2021-08-15 15:03:01 · 893 阅读 · 0 评论