数据采集与预处理

数据采集

数据采集三大要点

  • 全面性 所采集的数据一定要足够多,多到足以产生分析的价值,能够支撑分析的需求。比如我想测试某事物在某段时间内最有可能出现的时间,那么测一次两次时间并不规律,但要是一万两万次那么频次便显而易见了。
  • 多维性 数据要能够满足分析的需求。指的是围绕我们想要分析解决的某一个问题,搜集关于其本身有关系的各类数据,寻求他们之间的联系。比如我们要分析某品牌汽车销量的前三名,那么我们要搜集的不只能是售出量最多的前三名汽车的型号,还要有关于这辆汽车的价格,规格,发动机型号,轮毂材质等等,还要关注买家的体验,多维度的分析为什么这三种型号的车销量最多。
  • 高效性 包括技术执行的高效性、团队内部协同的高效性以及数据分析目标实现的高效性。总而言之,对于数据时刻谨记要明确采集目的。

数据采集的数据源

数据采集的主要数据源一共有四个:传感器数据、互联网数据、日志文件、企业业务系统数据等。

正常在校进行数据采集是不能采集传感器数据、日志文件或企业业务系统数据的,一来是可能所采集的数据没有什么意义,二来可能是没有合法的权限去采集那些数据。所以我们会对互联网数据进行采集。

网络爬虫

对于互联网数据的采集我们常用的方法就是网络爬虫。网络爬虫是一个自动提取网页的程序,他为搜索引擎从万维网上下载网页,是搜索引擎的重要组成部分。

网络爬虫的行为是模拟人们日常上网的行为进行数据的采集,会有一个频次的设置,如果频次太快会被保护机制发现,这个用户并不是正常浏览,而是网络爬虫,就会对其进行拦截,等等。不同的网站其保护机制的规则也可能会有差异,需要实践操作来破解机制。那么在采集数据时一定要注意规避无用信息。

在这里插入图片描述

那么图中就是爬虫的工作原理。所谓的url代表着的是统一资源定位符,每个有效的URL都指向一个唯一的资源,可以是一个HTML页面,一个CSS文档,一幅图像等等。例如,www.baidu.com 就是一个网页的url,当我们从浏览器打开一张原图的时候,在上方地址栏中也会存在这张图片当前的URL。

可以简单说一下URL的组成:协议、Authority(域名和端口)、资源路径、参数和锚点。

[什么是 URL? - 学习 Web 开发 | MDN (mozilla.org)]

[(https://developer.mozilla.org/zh-CN/docs/Learn/Common_questions/Web_mechanics/What_is_a_URL)

具体可以查阅上述文章作品。那么观察上述URL,其中只包含了协议、域名和资源路径。

当我们搜集到了目标数据的URL之后,将他们放入爬虫的队列,不断地循环提取,其中碰到无效URL则立刻丢弃。

明确URL之后,我们的终端就会将其通过DNS解析成为IP地址用来请求Web服务器。为了让这个查找过程更高效,浏览器和操作系统都会将每次的解析结果缓存起来,下次再解析某个域名时,就会先从缓存里去看。建立了连接之后,随后会进行三次握手的过程,大致就像【A:你好 ,我是浏览器A】【B:你好,浏览器A,我是服务器B】【A:久仰,终于见到你了】 这三次握手的方式是通过报文的形式。

详情可以看这:[访问一个网页的全过程(超详细版)_访问原网页_小包同学666的博客-CSDN博客]

[(https://blog.csdn.net/cream66/article/details/104920732)

requests模块

我们要进行爬虫的话,最先要了解的便是requests模块。requests模块是一个常用的HTTP请求库,可以方便的向网站发送HTTP请求,并获取响应结果。

模块是一个常用的HTTP请求库,可以方便的向网站发送HTTP请求,并获取响应结果。

针对HTTP协议的 get, post, put, delete等方法,requests分别有:get, options, head, post, put, patch, delete等。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值