大数据平台
文章平均质量分 86
我为什么可以这么菜
这个作者很懒,什么都没留下…
展开
-
Spark
Spark概述Spark生态系统Spark运行架构Spark SQLSpark的部署和应用方式Spark编程实践Spark概述Spark简介Scala简介Spark与Hadoop的比较Spark简介Spark最初由美国加州伯克利大学(UCBerkeley)的AMP实验室于2009年开发,是基于内存计算的大数据并行计算框架,可用于构建大型的、低延迟的数据分析...原创 2020-05-04 19:33:38 · 364 阅读 · 2 评论 -
Hadoop再探讨
Hadoop的优化与发展HDFS2.0的新特性新一代资源管理调度框架YARNHadoop生态系统中具有代表性的功能组件Hadoop的优化与发展Hadoop1.0的核心组件(仅指MapReduce和HDFS,不包括Hadoop生态系统内的Pig、Hive、HBase等其他组件),主要存在以下不足:抽象层次低,需人工编码表达能力有限开发者自己管理作业(Job)之间的依赖关...原创 2020-05-02 17:20:15 · 533 阅读 · 0 评论 -
第七章-mapreduce编程实战实验
实验的推进模式先配置好eclipse for hadoop直接借用WordCount去测试利用WordCount的基本程序框架,编写自己的代码要点:map/reduce的所在的类和方法的数据类型(Text,intWritable,NullWritable,LongWritable以及自定义的…)map和reduce程序主体的编写…建议 尽量自行去编写一个样例程序(如连接运算)差不多...原创 2020-04-22 22:33:03 · 2721 阅读 · 1 评论 -
MapReduce
概述MapReduce体系结构MapReduce工作流程实例分析:WordCountMapReduce的具体应用MapReduce编程实践概述分布式并行编程MapReduce模型简介Map和Reduce函数分布式并行编程摩尔定律”, CPU性能大约每隔18个月翻一番从2005年开始摩尔定律逐渐失效 ,需要处理的数据量快速增加,人们开始借助于分布式并行编程来...原创 2020-04-20 21:47:43 · 642 阅读 · 0 评论 -
NoSQL数据库
NoSQL简介NoSQL兴起的原因NoSQL与关系数据库的比较NoSQL的四大类型NoSQL的三大基石从NoSQL到NewSQL数据库文档数据库MongoDBNoSQL简介通常,NoSQL数据库具有以下几个特点:灵活的可扩展性灵活的数据模型与云计算紧密融合NoSQL兴起的原因关系数据库已经无法满足Web2.0的需求。主要表现在以下几个方面:无法满...原创 2020-04-01 21:28:41 · 416 阅读 · 0 评论 -
分布式数据库HBase
HBase简介HBase数据模型HBase的实现原理HBase运行机制HBase编程实现HBase简介从BigTable说起HBase简介HBase与传统关系数据库的对比分析从BigTable说起BigTable是一个分布式存储系统BigTable起初用于解决典型的互联网搜索问题建立互联网索引1 爬虫持续不断地抓取新页面,这些页面每页一行地存储到BigTab...原创 2020-03-12 00:08:37 · 419 阅读 · 0 评论 -
分布式文件系统HDFS
HDFS全称为Hadoop Distributed File System,是整个Hadoop平台上的两大核心组件之一HDFS用于解决海量数据的分布式存储问题计算机集群结构分布式文件系统把文件分布存储到多个计算机节点上,成千上万的计算机节点构成计算机集群与之前使用多个处理器和专用高级硬件的并行化处理装置不同的是,目前的分布式文件系统所采用的计算机集群,都是由普通硬件构成的,这就大大降低...原创 2020-03-05 12:56:27 · 910 阅读 · 0 评论 -
大数据处理架构Hadoop
Hadoop简介Hadoop是Apache软件基金会旗下的一个开源分布式计算平台,为用户提供了系统底层细节透明的分布式基础架构Hadoop是基于Java语言开发的,具有很好的跨平台特性,并且可以部署在廉价的计算机集群中Hadoop的核心是分布式文件系统HDFS(Hadoop Distributed File System)和 MapReduceHadoop被公认为行业大数据标准开源软件,...原创 2020-03-05 12:08:41 · 269 阅读 · 0 评论