数据采集与预处理

最新推荐文章于 2024-10-12 10:32:13 发布

唐尧_

最新推荐文章于 2024-10-12 10:32:13 发布

阅读量1.5k

点赞数 1

分类专栏：数据采集与预处理作业文章标签：大数据 python 服务器

本文链接：https://blog.csdn.net/weixin_67859530/article/details/133072511

版权

数据采集与预处理作业专栏收录该内容

1 篇文章

订阅专栏

本文阐述了数据采集的三大要点：全面性（确保数据量足够大以支持分析）、多维性（收集相关数据以寻找关联），以及高效性（技术执行、团队协作和目标实现）。介绍了数据采集的主要来源，特别是互联网数据的采集通常通过网络爬虫进行，强调了爬虫的工作原理、URL结构、使用requests模块发送HTTP请求的重要性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

数据采集

数据采集三大要点

全面性所采集的数据一定要足够多，多到足以产生分析的价值，能够支撑分析的需求。比如我想测试某事物在某段时间内最有可能出现的时间，那么测一次两次时间并不规律，但要是一万两万次那么频次便显而易见了。
多维性数据要能够满足分析的需求。指的是围绕我们想要分析解决的某一个问题，搜集关于其本身有关系的各类数据，寻求他们之间的联系。比如我们要分析某品牌汽车销量的前三名，那么我们要搜集的不只能是售出量最多的前三名汽车的型号，还要有关于这辆汽车的价格，规格，发动机型号，轮毂材质等等，还要关注买家的体验，多维度的分析为什么这三种型号的车销量最多。
高效性包括技术执行的高效性、团队内部协同的高效性以及数据分析目标实现的高效性。总而言之，对于数据时刻谨记要明确采集目的。

数据采集的数据源

数据采集的主要数据源一共有四个：传感器数据、互联网数据、日志文件、企业业务系统数据等。

正常在校进行数据采集是不能采集传感器数据、日志文件或企业业务系统数据的，一来是可能所采集的数据没有什么意义，二来可能是没有合法的权限去采集那些数据。所以我们会对互联网数据进行采集。

网络爬虫

对于互联网数据的采集我们常用的方法就是网络爬虫。网络爬虫是一个自动提取网页的程序，他为搜索引擎从万维网上下载网页，是搜索引擎的重要组成部分。

网络爬虫的行为是模拟人们日常上网的行为进行数据的采集，会有一个频次的设置，如果频次太快会被保护机制发现，这个用户并不是正常浏览，而是网络爬虫，就会对其进行拦截，等等。不同的网站其保护机制的规则也可能会有差异，需要实践操作来破解机制。那么在采集数据时一定要注意规避无用信息。

在这里插入图片描述

那么图中就是爬虫的工作原理。所谓的url代表着的是统一资源定位符，每个有效的URL都指向一个唯一的资源，可以是一个HTML页面，一个CSS文档，一幅图像等等。例如，www.baidu.com 就是一个网页的url，当我们从浏览器打开一张原图的时候，在上方地址栏中也会存在这张图片当前的URL。

可以简单说一下URL的组成：协议、Authority（域名和端口）、资源路径、参数和锚点。

[什么是 URL？ - 学习 Web 开发 | MDN (mozilla.org)]

[(https://developer.mozilla.org/zh-CN/docs/Learn/Common_questions/Web_mechanics/What_is_a_URL)

具体可以查阅上述文章作品。那么观察上述URL，其中只包含了协议、域名和资源路径。

当我们搜集到了目标数据的URL之后，将他们放入爬虫的队列，不断地循环提取，其中碰到无效URL则立刻丢弃。

明确URL之后，我们的终端就会将其通过DNS解析成为IP地址用来请求Web服务器。为了让这个查找过程更高效，浏览器和操作系统都会将每次的解析结果缓存起来，下次再解析某个域名时，就会先从缓存里去看。建立了连接之后，随后会进行三次握手的过程，大致就像【A：你好，我是浏览器A】【B：你好，浏览器A，我是服务器B】【A：久仰，终于见到你了】这三次握手的方式是通过报文的形式。

详情可以看这：[访问一个网页的全过程(超详细版)_访问原网页_小包同学666的博客-CSDN博客]

[(https://blog.csdn.net/cream66/article/details/104920732)