数据采集与预处理入门【相关概念】

数据采集与预处理【1】

数据科学
科学是对已经发现、不断积累、人们公认的普遍真理的总结,科学是系统化的知识体系,科学包括自然学科和社会学科两大类别。
数据科学是对数据进行分析,抽取信息和知识的过程,提供指导和支持的基本原则和方法。数据科学主要研究数据的各种类型、状态、属性以及其变化规律,研究各种方法对数据进行分析,从而揭示自然界和人类行为等现象背后的规律。
数据科学的核心任务:extracting useful information/ knowledge from data.
数据项目开发流程
数据采集->>数据预处理->>数据存储->>数据分析挖掘->>数据可视化
数据特征
1:数学中的数据类型:自然数、实数等
2:编程语言中的数据类型:整型、浮点型等
3:数据分析处理的分类:结构化、半结构化、非结构化
结构化数据:关系型数据库表示和存储变现为二维形式的数据。数据以行为单位,一行数据表示一个实体的信息,每一行的属性是相同的。数据常见格式有MySQL、Oracle等
半结构化数据:通过相关标记分隔语义元素,也被称为自描述结构,是非关系数据模型,有一定的格式。常见格式有:Email、HTML、XML、JSON格式等
【HTML(HyperText Markup Language)超文本标记语言。查看网页源代码F12,常用功能:Elements、Network
XML(Extensible Markup Language)扩展标记语言。用于标记电子文件使其具有结构性的标记语言,可以用来标记数据、定义数据类型,是一种允许用户对自己的标记语言进行定义的源语言
JSON(JavaScript Object Notation)一种轻量级的数据交换格式。它是基于JavaScript的一个子集。JSON采用完全独立于语言的文本格式,但是也采用了类似于C语言家族的习惯,所以JSON是理想的数据交换语言,易于人阅读和编写,也易于机器解析和生成】
非结构化数据:没有固定结构的数据,各种文档、图片、音视频都属于非结构化数据,整体进行存储,一般存储为二进制的数据格式。常见的格式有:Word、PDF、PPT、图片、音视频等

已标记关键词 清除标记
©️2020 CSDN 皮肤主题: 游动-白 设计师:上身试试 返回首页