数据采集与预处理入门【相关概念】

数据采集与预处理【1】

数据科学
科学是对已经发现、不断积累、人们公认的普遍真理的总结,科学是系统化的知识体系,科学包括自然学科和社会学科两大类别。
数据科学是对数据进行分析,抽取信息和知识的过程,提供指导和支持的基本原则和方法。数据科学主要研究数据的各种类型、状态、属性以及其变化规律,研究各种方法对数据进行分析,从而揭示自然界和人类行为等现象背后的规律。
数据科学的核心任务:extracting useful information/ knowledge from data.
数据项目开发流程
数据采集->>数据预处理->>数据存储->>数据分析挖掘->>数据可视化
数据特征
1:数学中的数据类型:自然数、实数等
2:编程语言中的数据类型:整型、浮点型等
3:数据分析处理的分类:结构化、半结构化、非结构化
结构化数据:关系型数据库表示和存储变现为二维形式的数据。数据以行为单位,一行数据表示一个实体的信息,每一行的属性是相同的。数据常见格式有MySQL、Oracle等
半结构化数据:通过相关标记分隔语义元素,也被称为自描述结构,是非关系数据模型,有一定的格式。常见格式有:Email、HTML、XML、JSON格式等
【HTML(HyperText Markup Language)超文本标记语言。查看网页源代码F12,常用功能:Elements、Network
XML(Extensible Markup Language)扩展标记语言。用于标记电子文件使其具有结构性的标记语言,可以用来标记数据、定义数据类型,是一种允许用户对自己的标记语言进行定义的源语言
JSON(JavaScript Object Notation)一种轻量级的数据交换格式。它是基于JavaScript的一个子集。JSON采用完全独立于语言的文本格式,但是也采用了类似于C语言家族的习惯,所以JSON是理想的数据交换语言,易于人阅读和编写,也易于机器解析和生成】
非结构化数据:没有固定结构的数据,各种文档、图片、音视频都属于非结构化数据,整体进行存储,一般存储为二进制的数据格式。常见的格式有:Word、PDF、PPT、图片、音视频等

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值