大数据分析基础概论

数据

数据是可以获取和存储的信息,直观而言,表达某种客观事实的数值是最容易被人
们识别的数据(因为那是“数”)。但实际上,人类的一切语言文字、图形图画、音像
记录,所有感官可以察觉的事物,只要能被记下来,能够查询到,就都是数据(data)。

随着互联网快速发展、智能手机以及“可佩带”计算设备的出现,我们的行为、位置
,甚至身体生理数据等每一点变化都成为了可被记录和分析的数据。这些新技术推
动着大数据时代的来临,各行各业每天都在产生数量巨大的数据碎片,数据计量单
位已从Byte、KB、MB、GB、TB发展到PB、EB、ZB、YB甚至BB来衡量

大数据

大数据(big data),是指无法在一定时间范围内用常规软件工具进行捕捉、管理
和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程
优化能力的海量、高增长率和多样化的信息资产。
数据分析的前提是有数据,数据存储的目的是支撑数据分析。究竟怎么去存储庞大
的数据量,是开展数据分析的企业在当下面临的一个问题。传统的数据存储模式存
储容量是有大小限制或者空间局限限制的,怎么去设计出一个可以支撑大量数据的
存储方案是开展数据分析的首要前提。
当解决了海量数据的存储问题,接下来面临的海量数据的计算问题也是比较让人头
疼,因为企业不仅追求可以计算,还会追求计算的速度、效率。
以目前互联网行业产生的数据量级别,要处理这些数据,就需要一个更好、更便捷
的分析计算方式了。传统的显然力不从心了,而且效率也会非常低下。这正是传统
数据分析领域面临的另一个挑战,如何让去分析、计算。这个时候就需要有新的技
术去解决这些问题,这个技术就是大数据。

大数据的特点

大数据的特点可以使用5个字来概括:大、多、值、快、信

Volume:
大 数据的采集,计算,存储量都非常的庞大。是数据体量巨大(Volume)。截至目
前,人类生产的所有印刷材料的数据量是200PB(1PB=210TB),而历史上全人类说
过的所有的话的数据量大约是5EB(1EB=210PB)。当前,典型个人计算机硬盘的容
量为TB量级,而一些大企业的数据量已经接近EB量级。
Variety:
多 种类和来源多样化。种类有:结构化、半结构化和非结构化数据等,常见的来
源有:网络日志、音频、视频、图片等等。
Value:
值 大数据价值密度相对较低。如随着物联网的广泛应用,信息感知无处不在,信
息海量,但价值密度较低,存在大量不相关信息。因此需要对未来趋势与模式作
可预测分析,利用机器学习、人工智能等进行深度复杂分析。而如何通过强大的
机器算法更迅速地完成数据的价值提炼,是大数据时代亟待解决的难题
Velocity:
快 数据增长速度快,处理速度也快,获取数据的速度也要快。这是大数据区分
于传统数据挖掘的最显著特征。根据IDC的“数字宇宙”的报告,预计到2020年,
全球数据使用量将达到35.2ZB。在如此海量的数据面前,处理数据的效率就
是企业的生命。

Veracity:
信 数据的准确性和可信赖度,即数据的质量。

数据分析思路

  1. 明确数据分析思路
  2. 数据收集
  3. 数据处理
  4. 数据分析
  5. 数据展示
  6. 报告撰写

明确数据分析思路要求

1. 确定 谁要看,为什么看,想看什么,看到什么程度,看了要做什么
2. 明确需求方具体需求,规划输出结果几版式
3. 明确需求原因,给出准确的解决方案,提出分析的指标及分析的粒度
4. 敲定指标粒度,计划分析产品的展示及汇报内容
5. 结合分析结果内容,关联基础数据,分析出产生因素及提出建议
6. 确定分析方法及分析架构

数据收集

1. 确定数据来源
2. 获取数据样本
3. 敲定数据获取途径

数据处理

数据清洗、数据转化、数据提取、数据计算

数据分析

1. 用适当的分析方法及工具,对处理过的数据进行分析,提取有价值的信息,形成有效结论
2. 更加有效、直观地传递出分析所要表达的观点

报告撰写

1. 对整个数据分析过程的一个总结与呈现
2. “结构清晰、主次分明”、图文并茂、层次明晰、能够让阅读者一目了然
3. 明确的结论
4. 建议或解决方案

大数据部门的职责分配

在这里插入图片描述

分布式

分布式出现的原因

1. 数据量态大存储和计算都出现了瓶颈

分布式系统原理

分布式系统是一个硬件或软件组件分布在不同的网络计算机上,彼此之间仅仅通过消息
传递进行通信和协调的系统。简单来说就是一群独立计算机集合共同对外提供服务,但
是对于系统的用户来说,就像是一台计算机在提供服务一样。

分布式的意义

1. 采用更多的普通计算机(相对于昂贵的大型机)组成分布式集群对外提供服务。计
2. 算机越多,CPU、内存、存储资源等也就越多,能够处理的并发访问量也就越大。
3. 分布式可以横向扩展几乎无上限

分布式实现思路

1. 横向扩展解决性能瓶颈
2. 负载均衡提高集群安全性及性能
3. 弹性伸缩性合理的控制资源
4. 失效转移提高可用性
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值