6.1 数据采集和预处理(掌握)
6.1.1 数据采集(掌握)
数据采集又称数据收集,是指用户需要收集相关数据的过程
1、采集的数据类型
(1)结构化数据:是以关系型数据库表管理的数据
(2)半结构化数据:是指非关系型模型的、有基本固定结构模式的数据
(3)非结构化数据:是指没有固定模式的数据;如所有格式的办公文档、文本、图片、HTML、各类报表、图像和音频/视频信息等
2、数据采集的方法
(1)传感器采集:通过传感器和相应的信息,并将这些信息按一定的规律变成电信号或其他所需的信息输出,从而获得相关数据。
(2)系统日志采集:通过平台系统读取、收集日志文件变化,系统日志记录系统中硬件、软件和系统运行情况及问题的信息。系统日志一般为流失数据,数据量非常庞大。
(3)网络采集:是指通过互联网公开采集接口或网络爬虫等方式从互联网或特定网络上获取大量数据信息的方式
(4)其他数据采集:如通过与数据服务商合作,使用特定数据集采集方式获取数据
6.1.2 数据预处理(掌握)
数据的预处理一般采用数据清洗的方法来实现。数据预处理是一个去除数据集重复记录,发现并纠正数据错误,并将数据转成符合标准的过程。
从而使数据实现准确性、完整性、一致性、唯一性、适时性、有效性等
数据预处理主要包括数据分析(从数据中发现控制数据的一般原则)、数据监测(根据清理规则及相关数据清理算法)和数据修正(手工或自动)
6.1.3 数据预处理方法(掌握)
进行预处理的数据集主要包括数据缺失、数据异常、数据不一致、数据重复、数据格式不符等情况
1、缺失数据的预处理
数据缺失产生的原因主要分为环境原因和人为原因
(1) 删除缺失值:当出现缺失值的样本占整个样本的比例相对较小时,可以将有缺失值的样本直接丢弃
(2) 均值填补法:根据缺失值的属性相关系数最大的那个属性将数据分组,在分别计算每个组的均值,用均值代替缺失数值
(3) 热卡填补法:在数据库中找到一个与缺失值变量相似的对象,然后采用相似对象的值进行数据填充
(4) 其他方法:最近距离决定填补法、回归填补法、多重填补法、k-最近邻法、有序最近邻法、基于贝叶斯的方法
2、异常数据的预处理
对于异常或有噪声的数据,如超过明确取值范围的数据、离群点数据,可以采用分箱法和回归法来进行处理
(1) 分箱法:通过考察数据的“近邻”(即周围的值)来平滑处理有序的数据值
(2) 回归法:一个函数拟合数据来光滑数据,消除噪声。
3、不一致数据的预处理
不一致数据是指具有逻辑错误或者数据类型不一致的数据。这一类数据的清洗可可以使用人工修改,也可以借助工具来处理。但大部分的不一致情况都需要进行数据转换。
4、重复数据的预处理
数据本身存在的或数据清洗后可能会产生的重复值。可以使用Python等工具处理
5、格式不符数据的预处理
一般需要将不同类型的数据内容清洗成统一类型的文件和统一格式。
6.2 数据存储及管理(掌握)
6.2.1 数据存储(掌握)
1、数据存储介质
数据存储首先要解决的是存储介质的问题。存储介质并不是越贵越好、越先进越好,要根据不同的应用环境,合理选择存储机制。存储介质的类型主要有磁带、光盘、磁盘、内存、闪存、云存储等。
2、存储形式
一般而言,主要有3种形式来记录和存储数据,分别是文件存储、块存储和对象存储。
3、存储管理
(1) 资源调度管理:功能主要是添加或删除存储节点,编辑存储节点的信息
(2) 存储资源管理:不仅包括监控存储系统的状态、可用性、性能以及配置情况,还包括容量和配置管理以及事件报警等,从而提供优化策略
(3) 负载均衡管理:为了避免存储资源由于资源类型、服务器访问频率和时间不均衡造成
(4) 安全管理:防止恶意用户攻击系统或窃取数据,系统攻击大致分为两类:以扰乱服务器正常工作为目的;以入侵或破坏服务器为目的
6.2.2 数据归档(掌握)
数据归档是将不活跃的“冷”数据从可立即访问的存储介质迁移到查询性能较低、低成本、大容量的存储介质中,这一过程是可逆的。数据归档策略需要与业务策略、分区策略保持一致。
在开展数据归档活动时,有以下3点:
(1) 数据归档一般只在业务低峰期执行
(2) 数据归档后,将会删除生产数据库的数据,将会造成数据空洞
(3)如果数据归档影响了线上业务,一定要及时止损
6.2.3 数据备份(掌握)
1、备份结构
2、备份策略
(1) 完全备份:每次都对需要进行备份的数据进行全备份。缺点:会占用较多的服务器、网络等资源;对备份介质资源的消耗往往也较大
(2) 查分备份:每次备份的数据只是相对上一次完全备份之后发生变化的数据,与完全备份相比,差分备份所需时间短,而且节省了存储空间;差分备份的数据恢复很方便,管理员秩序两份备份数据
(3) 增量备份:每次备份的数据只是相对上一次备份之后改变的数据。这种备份策略节省了备份数据存储空间,缩短了备份的时间,但是当进行数据恢复时就会比较复杂。
6.2.4 数据容灾(掌握)
数据备份是数据容灾的基础。
从技术上看,衡量容灾系统有两个主要目标
RPO(恢复点目标):代表了当灾难发生时允许丢失的数据量
RTO(回复时间目标):代表了系统恢复的时间
数据容灾的关键技术主要包括远程镜像技术和快照技术
(1) 远程镜像技术:是在主数据中心和备份中心之间进行数据备份时用到的远程复制技术
(2) 快照技术:关于指定数据集合的一个完全可用的复制,该复制是相应数据在某个时间点的映像。