excel爬虫相关学习1:简单的excel爬虫

目录

1 什么是excel 爬虫

2 EXCEL爬虫

2.1 excel 爬虫的入口

 2.2 需要配置的信息

2.2.1 如何获得 ua信息

2.3 获取的信息

2.3.1 获取信息的基本内容

2.3.2 获取过程

2.3.3 我们只用关注“表视图 ” 即可

2.4 EXCEL获得的爬虫数据 加载到excel里

2.5 数据到了excel表后可以加工

2.6  如何处理已经下载到excel里的 爬虫table数据呢?

2.6.1 点击 “查询和连接” 或者 “现有链接” 可以重新呼出 table0 等原始的下载数据表和链接(右键呼出属性)

2.6.2 右键table对应区域,选择 “从表格/区域 获取数据” 可以重新打开 power query来处理数据

2.7  设置table表自动更新

2.7.1 设置自动更新

2.7.2 自动更新作用


1 什么是excel 爬虫

excel也可以爬虫,我是一本书上看到的,还有点意思

好处:

  • 而且可以不用写代码,纯界面操作
  • 理解起来,对新手还是比较友好的
  • 功能还不少
  • 但是如果懂爬虫,懂html,js等,对理解excel爬虫还是有好处的,比如,

2 EXCEL爬虫

2.1 excel 爬虫的入口

 2.2 需要配置的信息

  • url
  • 网页请求相关,比如  ua,cookies 等 headers信息
  • 然后点击确定即可

2.2.1 如何获得 ua信息

  • 网页检查
  • 刷新网页
  • 网页url对应的选项
  • networks /request headers 可以找到 UA信息 User-Agent:

2.3 获取的信息

2.3.1 获取信息的基本内容

  • 网页url
  • docment
  • table
  • 可能因为excel 主要用来处理 表格,所以excel 爬虫着重突出了 table 
  • 其实就是html里的 <table></table>的tag

2.3.2 获取过程

  • 快的网页一瞬间就完成了
  • 如果反映慢则可能看到如下过程
  1. 正在连接url
  2. 获取数据
  3. 数据下载完成

 

2.3.3 我们只用关注“表视图 ” 即可

  • 表视图
  • web视图,没啥用

 

2.4 EXCEL获得的爬虫数据 加载到excel里

  • 点击  加载,存储到excel, 用新的sheet 存档当前excel里
  • 点击 加载到
  • 点击 转换数据,会跳转到  power query 处理数据

2.5 数据到了excel表后可以加工

  • 数据到了excel表后可以加工
  • 也可以使用 power query 加工(暂时不熟悉,留白)

2.6  如何处理已经下载到excel里的 爬虫table数据呢?

2.6.1 点击 “查询和连接” 或者 “现有链接” 可以重新呼出 table0 等原始的下载数据表和链接(右键呼出属性)

2.6.2 右键table对应区域,选择 “从表格/区域 获取数据” 可以重新打开 power query来处理数据

  • 入口:右键table对应区域,选择 “从表格/区域 获取数据” 可以重新打开 power query来处理数据
  • 左上角 侧边栏 会显示多个爬取的table0 表(默认下载的表名)
  • 右下角会显示 爬取的时间

2.7  设置table表自动更新

2.7.1 设置自动更新

  • 点击 “查询和连接” 或者 “现有链接” 可以重新呼出 table0

  • 然后,点击右边侧边栏的table0 右键呼出属性

  • 属性窗口里的设置

2.7.2 自动更新作用

  • 可以定时,循环监控网页内容,爬取下来

 

  • 0
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值