大数据背景
现在的社会发展相当迅速,科技发达,信息流通,使得人们之间的交流越来越密切,生活也越来越方便,在智能手机、智能穿戴设备基本普及的高科技时代的背景下,大数据应运而生。
未来的时代将不再是IT时代,而是DT(Data Technology)时代。各个行业和领域都已经被数据渗透了,数据已然成为非常重要的生产因素。在DT时代,大数据才是主角,对于大数据的挖掘和处理必不可少。
大数据的大小并没有一个确切的衡量标准,而大数据的重点也并不在文件资料等的大小,资料的价值才是大数据的真正意义。所以大数据的意义并不在于量上的“大”,而是在于数据的“有用”。所以通过大数据实现盈利的关键在于如何提高对大数据的“加工”能力。
定义
维基百科给出的大数据的定义是: 大数据是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。
IBM提出通过4+1个V来定义大数据的特点:Volume(容量)、Velocity(速度)、Variety(多样性)、Veracity(真实性)和Value(价值),容量大、处理速度快、来源多样性高的数据,同时具备真实性,并能创造,可以在多种层面进行应用,这就是大数据的特质。
什么是大数据?
大数据是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。
大数据技术特点
1、IBM 4+1个v
Volume(容量)、Velocity(速度)、Variety(多样性)、Veracity(真实性)、和Value(价值),容量大、处理速度快、来源多样性高的数据,同时具备真实性,并能创造,可以在多种层面进行应用,这就是大数据的特质。
Volume(容量)1024GB = 1TB、1024TB = 1PB 、1024PB = 1EB。
Variety(多样性)网络日志、视频、图片、地理位置显示。
Value(价值密度低)以视频为例,联系不断监控过程中,可能有用的数据仅有一两秒、挖掘其潜在的商业价值(无穷)。
2、Volume(容量)为了更准确地理解人们现在面临的数据量大小,再来看一组公式:
1024GB=1TB
1024TB=1PB
1024PB=1EB
。。。
阿里数据量50TB/天,18PB/年*3~至今纸质图书的数据量
3、Velocity(高速),持续的高速增长
以1分钟为单位,看看在爆炸的数据世界中发生了什么。
(1)搜索:全球最大的搜索引擎Google处理了200万次搜索请求。
(2)通信:在中国产生了时长531万分钟的移动通话,发出了165万条短信。
(3)音频:在Pandora音乐网站上,播放的音乐时长超过61 000小时。
(4)微博:新浪微博的用户发出了10万+
大数据框架
离线分析 hadoop、实时分析 STORM、内存计算spark、算法、数据挖掘分析R
大数据出现的原因有以下几点:
数据生产方式变的自动化
数据生产融入到每个人的日常生活
图像、视频和音频数据所占的比例越来越大
网络技术的发展为数据的生产提供了极大的方便
云计算概念的出现进一步促进了大数据技术的发展
Linux
概述
Linux内核最初只是由芬兰人李纳斯•托瓦兹(Linus Torvalds)在赫尔辛基大学上学时出于个人爱好而编写的。
Linux能运行主要的UNIX工具软件、应用程序和网络协议。它支持32位和64位硬件。Linux继承了Unix以网络为核心的设计思想,是一个支持多用户、多任务、多线程且性能稳定的多用户网络操作系统。
特点 开源、多用户、多任务、良好的界面、支持多平台
**开源且免费:**用户可以任何网络途径来进行获得,并可以任意修改其源代码
**多用户:**各个用户对于自己的文件设备有自己特殊的权利,保证了各用户之间互不影响;
**多任务:**可以多个程序同时独立地运行(类似window系统一边下载大片、一边听着音乐、一边浏览着你“亲爱的她”的空间美照);
**良好的界面:**Linux同时具有字符界面和图像界面。建议大家使用字符界面(也被称为命令行界面)—在这强烈建议大家使用字符界面(命令行界面)
**支持多平台:**可以在多种硬件平台上安装和运行,如X86或嵌入式系统(三星、oppo、小米等安装系列的手机底层使用的就是linux系统)。
与传统系统的区别
![img](file:///C:\Users\ADMINI~1\AppData\Local\Temp\ksohtml10848\wps1.jpg)
发行版本及应用领域
Linux主要的发行版
1.RedHat Linux:红帽企业级Linux,它有众多的程序支持,同时也可以提供技术服务,由于他是商业化产品,所有不是免费的。
2.CentOS:一款企业级Linux,它使用红帽企业级Linux中的免费源代码重新构建而成。这款重构版完全去掉了注册商标,免费版。
3.其他: Ubuntu、Debain、Fedora、SuSE、OpenSUSE、TurboLinux、BluePoint、RedFlag、Xterm、SlackWare等。
Linux应用领域
从嵌入式设备到超级计算机,并且在服务器领域使用非常多。
系统安装
**1.**所需软件
VMware-workstation/VirtualBox****虚拟机
CentOS-6.5-x86_64-bin-DVD1 操作系统
SSH Secure File Transfer Client**、SecureCRTV5.1或**Xshell** 连接远程云主机/**本地虚拟机