大数据
- 三个观念转变:随机采样 -> 全部数据;精确指导->大体方向;因果关系->相关关系
- 大数据四个特征:规模/体量大Volum、种类多variety、速度快Velocity、价值密度低Value
- 大数据的支撑:存储(云计算)、运算、智能
- 大数据的结构类型:
结构化数据(有明确的格式和结构):关系数据库中数据、Excel数据等
半结构化数据:XML、Json、yml、html等
非结构化数据:图片、视频、音频,email,文章等
- 大数据的处理:
a. 大数据采集:数据抓取、导入、物联网设备自动采集
b. 导入/预处理:数据清理(格式标准化,清楚异常错误重复数据)、数据集成(多源结合统一存储,建立数据仓库)、数据变换(平滑聚集,规范化成适合挖掘的形式)、数据规约(精简数据流,缩减数据规模)
c. 统计与分析:使用分布式数据库或集群存储后进行分析和分类汇总,R语言。
d. 数据挖掘:KDD数据库知识发现。从大量的数据中通过算法搜索隐藏于其中的信息的过程。
- 数据挖掘介绍:
从大量的、不完全的、有噪声的、模糊的、随机的数据中挖掘
- 数据挖掘主要任务:
分类分析:位置样本分到已知类中:KNN算法、朴素贝叶斯算法、决策树算法
关联分析:特征之间的相互依赖关系,描述两个变量之间的密切程度,啤酒尿布分析:Apriori算法
聚类分析:物以类聚,人以群分,找出数据集的共性和差异,将相同特征数据聚集在一起:K-Means算法
回归分析:确定一个变量与其他变量间相互依赖的定量关系,一元/多元;简单/多重;线性/非线性
离群点检测:与众不同的数据也许蕴含更大的研究价值
分布式数据库
- 概念:数据库的数据存储在物理上分布于计算机网络的不同计算机中,一个计算机是一个节点,具备独立处理的能力,也可以一起执行全局应用,逻辑上属于一个系统
- 特点:独立透明性、集中与自治相结合、复制透明性、适当增加冗余度、全局一致性
- 分片需满足:完全性、不相交性、可重构性
- 分布透明性:分片透明性(最高层次)、位置透明性、局部数据模型透明性
云计算
- 概念:是并行计算、分布式计算、网格计算的发展
- 特点:大规模、虚拟化、高可靠、通用性、高可扩展、按需服务、极其廉价、潜在的危险
- 组成:IaaS基础设施即服务(硬件);PaaS平台即服务(开发环境,比如Google App,Azure);SaaS软件即服务(如Gmail、Goog Map)
- 模式:公有云、私有云(客户单独使用,专有资源)、社区云、混合云(前三者任两者混合)
- 技术:虚拟化、云存储、安全、资源监控、自动部署
- 云计算与大数据:
-
- 处理对象:IT资源、应用、处理能力-----数据
- 目的:通过互联网更好调研资源和节约成本------挖掘海量数据里的信息
- 推动力量:IT设备厂商和拥有计算存储资源的企业-----从事数据存储和处理的常识和拥有大量数据的企业
- 价值:节省IT部署成本-----发现数据价值带来收益
- 联系:相辅相成,都用到海量数据存储、管理技术、并行处理技术等
Google分布式数据处理
- Google文件系统GFS
可伸缩、高可用、高可靠的大型分布式文件系统
三类节点:Master主服务器、Client客户端、ChunkServer数据库服务器
Master:管理节点,管理、保存系统元数据,是大脑
Client:提供给用户程序的访问接口,是一组专用接口,不遵守POSIX规范
Chunk Server:负责具体的存储工作,可以有多个,GFS默认文件块Chunk块是64MB,彼此之间完全对等、无中心的
客户访问Master节点,获取与之交互的Chunk Server,然后完成数据存储工作,Client与Master只有控制流,Client与Chunk Server传输数据流。
特点:1. 中心服务器模式:Master管理所有的元数据,文件划分到Chunk存储,Client所有操作经过Master才能执行,Chunk Server之间完全对等雾灯中心。统一的命名空间实现存储的负载均衡。2. 不缓存数据:GFS不实现缓存。3. 用户态下实现:GFS在用户态下实现,直接里有个操作系统的POSIX接口是下存取数据,降低了实现难度,提高了通用性。4. 只提供专用接口:采用专用的文件系统访问接口,降低实现难度,降低了复杂度,提供特殊支持
- 分布式计算编程模型MapReduce
MapReduce是Google提出的一种处理海量数据的并行编程模式,封装了并行处理、容错处理、本地化计算、复杂均衡等细节。用于大规模数据集(TB)的并行计算。采用分而治之的思想,操作分发给主节点管理的各个分节点共同完成,然后整合各个节点中间结果得到最终结果。即任务的分解与结果的汇总。
模型:M个Map操作和R个Reduce操作。Map对应对部分原始数据进行指定的操作;Reduce操作对应每个Map所产生的一部分中间结果进行合并操作,所有Reduce的结果合并就是最终结果。Map与Map之间互相独立,Reduce与Reduce之间互相独立。
步骤:输入文件分割成M块(64MB),Master分配Map任务和Reduce任务给任务机,map处理reduce聚合
- 分布式结构化存储系统BigTable
分布式的结构化数据存储系统,用来处理分布在数千台普通服务器上的PB级数据。
特点:适用性广泛、高性能、高可用、可扩展
组成:是一个稀疏的、分布式的、持久的多维排序映射,有行关键字、列关键字、时间戳进行索引。
多列组合是访问控制和资源分配的基本单元
多行组合是负载均衡的基本单元
时间戳:64位的整数,唯一性
- 分布式锁服务Chubby
BigTable依赖于高可用、持久的Chubby分布式锁服务,保证数据操作过程中的一致性。
提供粗细粒度锁服务的一个文件系统
一个典型的Chubby集群,通常有5台服务器组成,服务器采用Paxos协议,投票选出主控服务器。
Hadoop分布式计算平台
- 开源分布式计算平台
- 核心设计是:HDFS和MapReduce、HBase
- 优点:高可靠、高扩展、高效、高容错、低成本。
- HBase:类似于BigTable,高可靠、高性能、面向列,可伸缩的分布式NoSQL数据库,是一个开源项目。
- ZooKeeper:ZooKeeper是一个分布式应用程序协调服务,为分布式应用提供一致性服务,提供
的功能包括:配置维护、域名服务、分布式同步、组服务等。其目标是封装好复杂易出错的关键服务,将简单易用的接口和性能高效、功能稳定的系统提供给用户。
区块链
- 概念
2008年中本聪提出,一种无需机构授信的使数据库安全的解决方案,有一串使用密码学方法相关联产生的数据块组成,每个数据块包含过去时间的网络交易信息用于验证信息真伪以及产生下一数据块。
- 特点
开放性:除私有信息外,区块链数据对所有人开放,整个系统信息高度透明
难以篡改:区块环环相扣,信息难以篡改,真实性高
去中心化:任何节点权利义务是相等的。
匿名性:数据交互无需新人,无需公开身份
自治性:基于协商一致的规范和协议,人为干预无效
- 分类:公有区块链、私有区块链、行业(联合)区块链
- 架构:数据层、网络层、共识层、激励层、合约层、应用层
- 技术:
分布式账本:交易记账有分布式节点完成,不单独记账,保障安全性与避免假帐
对称式加密:信息公开,单账户身份信息高度加密
共识机制:少数服从多数、人人平等。防止篡改
智能合约:预先定义好的规则条款
物联网
The Internet of Things,物物相连的互联网。通过信息传感设备,按照约定将物品与互联网连接起来,进行信息交换和通讯,实现智能化识别、定位、跟踪、监控和管理的一种网络。
核心和基础是互联网,核心技术是普适网络、下一代网络、普适计算。最基础的是M2M
- 物:有接收器、有数据传输通路、有存储、有CPU、有操作系统、有发送器、遵循协议、有应用程序、存在唯一编号
- 美国(智慧地球)中国(感知中国-无锡)
- 特征:
全面感知:基于RFID、二维码、传感器等,实时性、全天候、大范围、自动化
可靠传递:信息准确实时传输
智能处理:智能化分析处理控制
- 层次结构:感知层、网络层、应用层
- 技术体系:感知层技术、网络层技术、应用层技术、公共技术
感知层:用于采集数据,包括物理量、标识、音视频等
网络层:实现广泛的互联功能
应用层:应用支撑平台(跨行业应用系统之间的信息处理)和应用服务平台(各行业应用)
公共技术:标识与解析、安全、网络管理、服务质量管理
- RFID射频识别技术
利用射频信号通过空间耦合(交变磁场和电磁场)实现无接触信息传递达到识别的目的。
有电子标签tag(唯一ID标识对象)、读写器、天线组成
根据工作频率:分高频低频中频
根据供电方式:分有源无源
根据调制方式:分为主动被动
根据读写方式:可读写、一次写入多次读出、只读
- 无线传感网络WSN
大量传感器节点通过无线通信方式形成的多跳的自组织网络系统。由传感器、感知对象、观察者构成。
通过ZigBee协议进行信息传输。其基础是IEEE 802.15.4协议(MAC和物理层),扩充后对其网络层协议和API进行了标准化。
- ZigBee协议
物理层PHY+媒体访问控制子层MAC+网络层NWK+应用框架APL。
高可靠的无线数传网络,有一个协调器节点、若干路由器、若干终端设备节点构成
组件方式自由、网络拓扑结构不确定、控制方式不集中、安全性不高
- 物联网挑战:
成本、安全、隐私
人工智能
- 自然语言处理:问答系统、机器翻译、语音识别
- 机器人:
- 计算机视觉
- 人工神经网络:输入层、隐藏层、输出层;前向型和反馈型;
- 机器学习:监督学习、无监督学习、强化学习
1万+

被折叠的 条评论
为什么被折叠?



