大数据技术学习笔记
琴&
这个作者很懒,什么都没留下…
展开
-
【笔记】大数据技术之你需要了解的常识(一)
常识大数据、物联网、云计算是第三次浪潮的标志云计算海量数据的分布式存储和分布式处理虚拟化和多用户服务的方式提供服务,网络购买公有云、私有云、混合云IaaS 基础设施即服务PaaS 平台即服务SaaS 软件即服务大数据继承自云计算物联网促使大数据时代到来的质变存储单位的:B KB GB TB PB EB ZB价值密度低大数据时代全样而非抽样效率而非精确…应用投拍电视剧预测流感批处理计算流计算图计算查询分析计算物联网层次架构应用层原创 2020-10-30 18:35:12 · 2869 阅读 · 0 评论 -
【笔记】大数据技术之Hadoop概要(二)
Hadoop简介解决了如何用大量计算机实现分布式计算GFS 分布式文件系统MapReduce 分布式并行编程框架特性可靠性,不会阻断高效性,多计算机并行计算可扩展性强,扩展节点成本低,可以用普通的PC机构成集群支持多种编程语言应用:facebook、中国移动等离线分析HIVE PigMR实时查询Solr RedisHBaseMahoutHadoop2.0相对于1.0Hadoop2.0进行了全新构架,将原负责资源调动的部分抽取成YARN框架,同时Map原创 2020-10-30 18:35:28 · 2502 阅读 · 0 评论 -
【笔记】大数据技术之简单了解HDFS(三)
关于HDFS解决海量数据的分布式存储分布式文件系统需要借助于海量的计算机集群主节点:元数据服务从节点:完成存储任务实现目标兼容廉价的硬件设施实现流数据读写支持大数据集支持简单的文件模型强大的平台兼容性自身局限性不适合低延迟数据访问无法高效存储小数据不支持多用户写入以及任意读写文件相关概念块为了分摊磁盘读写开销比普通的文件系统的块要大得多支持现象大规模数据存储减低分布式节点的寻址开销缺点会导致MapReduce只有几个任务执行,降低了并原创 2020-10-30 18:35:50 · 2893 阅读 · 0 评论 -
【笔记】大数据技术之HBase简介与应用(四)
HBase简介是BigTable开源实现网页索引:爬虫-> BigTable运行MapReduceHBase 是谷歌的GFS的开源实现面向列,分布式数据库底层对应关系BigTableHBase文件存储系统GFS海量数据处理MapReduce协同管理服务Chubby设计初心:为了满足大数据实时处理需求关系数据库模式确定以后就很难变更关系数据库中定义了非常多的数据操作,而这个避免了多表之间的连接错做索引方面,只支持对行键的处理数据维护方原创 2020-10-30 18:35:57 · 2928 阅读 · 0 评论 -
【笔记】大数据技术之NoSQL数据库(五)
NoSQL数据库概述特点:灵活可扩展灵活数据模型HBase数据库对于云计算有很强的扩展性传统数据库不足无法满足海量数据的管理需求无法满足高并发的需求无法高扩展性和高可用性的需求主从机制写负载在主服务器返回从服务器MySQL集群方式缺陷复杂:整个集群部署管理配置非常复杂延迟:主库压力较大时会带来较大的延迟扩容:整个集群压力打需要增加新机器对整个数据集进行重新分区web2.0时代特点NoSQL 与关系数据库比较关系数据库:完备关系数据理论原创 2020-10-30 18:36:12 · 3095 阅读 · 0 评论 -
【笔记】大数据技术之云数据库存储(六)
云数据库概述优势按需服务随时服务通用性高可靠性廉价超大规模动态可扩展安全易用高性能系统架构UMP系统概述保持着单一的对外访问入口清楚单点故障,保证服务的高可靠性具有良好的可伸缩性,能够动态地增加/减少计算资源实现资源之间的相互隔离问题:单个用户消耗过多导致对其它用户产生影响组件Mnesia分布式数据库管理系统支持事务,支持透明的数据分片,利用两阶锁实现分布式事务,可以线性扩展到至少五十个节点数据库模式可以在运行时动态重配置原创 2020-10-30 18:36:29 · 2894 阅读 · 0 评论 -
【笔记】大数据技术之MapReduce介绍(七)
MapReduce概述Map函数原始输出<key,value>包含重复项Reduce函数输入<key,value-list>输出<key,value>体系结构Client可以提交编写的应用程序可以通过它提供的一些接口去查看当前提交作业的JobTracker负责资源的监控和作业的调度监控底层和其他的TaskTracker以及当前运行的Job健康状况一旦探测失败的情况,就把这个任务转移到其他节点继续原创 2020-10-30 18:36:45 · 2835 阅读 · 1 评论 -
【笔记】大数据技术之Hive仓库(八)
Hive简介架构在底层Hadoop架构之上依赖分布式并行计算模型MapReduceHiveQL借鉴了SQL语言特性采用批处理方式处理海量数据提供了一系列对数据进行提取、转换、加载等工具和传统数据库的区别APICLI:一种命令行工具HWI:Hive Web InterfaceJDBC&ODBC:开放数据库连接接口很多应用开发都支持Thrift Servr:实现RPC调用Metastore是一个独立的关系型数据库通过MaySQL数原创 2020-10-30 18:37:00 · 2624 阅读 · 0 评论 -
【笔记】大数据技术之Spark概要(九)
SparkScala为可扩展性语言Spark支持Java/python等,scalaSpark 对比 HadoopHadoop表达能力有限延迟磁盘开销任务之间衔接单线Spark12-1生态系统复杂的批量数据处理基于历史数据的交互式查询基于实时数据流的数据处理三种场景,三种软件复杂批量数据处理MR – hadoop历史数据交互式查询Cloudera Impala实时数据流的数据处理Apache storm生态系统Spar原创 2020-10-30 18:37:13 · 2753 阅读 · 0 评论 -
【笔记】大数据技术之流计算Storm(十)
流计算流数据:数据以大量、快速、时变为主要特点需要实时的处理流式数据->点击流数据->实时跟踪分析->迅速给出相关分析特征:快速,无尽、来源众多、数据量大、注重数据整体价值、数据颠倒不完整等静态数据:例如数据仓库中的数据动态数据:(流数据)概念流计算:实时获取来自不同数据源的海量数据经过实时分析处理获取有价值信息数据的价值随时间的推迟而降低系统要求高性能海量式实时性分布式易用性可靠性开源六计算框架StromS4Dstream…原创 2020-10-31 14:23:40 · 2838 阅读 · 0 评论 -
【笔记】大数据技术之图计算原理概要(十一)
图计算专门针对图结构数据的处理社交网络数据传染病交通事故等非图结构的大数据,也可以转换成为图模型很好的表达了数据之间的关联性大数据计算核心:关联计算图计算软件基于遍历算法的、实时图数据库图顶点为中心,基于消息传递批处理的并行引擎BSP:整体同步并行计算模型网络连接起来的处理器一系列的全局超步超步组件局部计算通讯栅栏同步:等待所有处理器处理器执行完毕Pregel是谷歌公司发布的一款商业图计算产品谷歌公司三大开源产品原创 2020-10-31 14:23:55 · 3184 阅读 · 0 评论