Big Data笔记

DAY1

数据类型

分为:structured data、semi-structured data、unstructured data,即结构化数据、半结构化数据与非结构化数据。

类型一、structured data:以关系型数据库表形式管理的数据。

特点:机构化数据的数据存储和排列都是具有规律性的,对于增删改查等功能支持友好。

idnameage
1张三26
2李四22

类型二、semi-structured data:非关系模型的,有基本固定结构模式的数据,例如日志文件、XML 文档、JSON 文档、Email 等。

<student>
	<id>1</id>
	<name>张三</name>
</student>

类型三、unstructured data没有固定模式的数据,如 WORD、PDF、PPT、EXL,各种格式的图片、视频等。

structured data:Easier to work with

unstuctured data:Harder to work with

大数据的定义

It's means so many or complex data exceeds processing capability of conventional data management systems or techniques.

Parallel Relational databases

perform manage update functions very well, and guarantee the ACID properties.

并行关系数据库可以很好地执行事务更新功能,并保证 ACID 属性

Shared nothing architecture

“A shared nothing architecture (SN) is a distributed computing architecture in which each node is independent and self-sufficient, and there is no single point of contention across the system. More specifically, none of the nodes share memory or disk storage”
简单的说:
shared nothing architecture是一 种分布式计算架构,这种架构中不存在集中存储的状态,整个系统中没有资源竞争,这种架构具有非常强的扩张性,在web应用中广泛使用。

Shared-nothing、shared-memory、shared-disk是并行系统最常使用的模式。


shared-memory:多个cpu共享同一片内存,cpu之间通过内部通讯机制进行通讯。
shared-disk:每一个cpu使用自己的私有内存区域,通过内部通讯机制直接访问所有磁盘系统。
和shared-memory、shared-disk相比,shared-nothing优势明显:在针对多用户并行访问的时候,通过横向扩充资源,能够减少response time。

 PS:使用低性能、低成本的并行硬件(标量计算)比使用更少的高性能、高成本硬件更好。

Variety refers to the increased diversity in data

1.Structural variety
2.Media variety
3.Semantic variety
4.Availability variety
结构多样性-格式和模型,例如结构化数据(表格) ,文本,音频,视频,网络。
媒体多样性-数据传输的媒介,例如语音音频与语音文本。
语义多样性-如何解释和操作数据,例如不同的单位,定性与定量测量
可用性多样性-实时与存储?连续还是间歇?

DAY2

定义:数据的特征feature

Veracity refers to the quality of data

Velocity refers to the

increasing speed at which big data is created
increasing speed at which the data needs to be stored and analyzed

Volatility 变化性

Validity   有效性

Data analytics的种类有什么?

Descriptive analytics describes what has happened over a given period of time.
Diagnostic analytics focuses on why something happened . This involves a bit of hypothesizing.
Predictive analytics forecasts what is likely going to happen in the near term.
Prescriptive analytics factors information about possible situations or scenarios, available resources, past performance, and current performance, and suggests a course of action or strategy.
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值