自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 收藏
  • 关注

转载 产品经理学大数据——大数据软件框架:框架的选择

大数据系统架构有两种组成部分, 实时流处理和批量数据处理。我们根据具体的需求选择适当的数据处理框架。一些框架适合于批量数据处理,而另外一些适用于实时数据处理。一些框架使用内存模式,另外一些是基于磁盘I/O处理模式。基于内存的框架性能明显优于基于磁盘I/O的框架,但是同时成本也高很多。总之,要选择一个能够满足需求的框架,否则就有可能就无法满足功能需求,也无法满足非功能需求(比如:性能需求)。一些...

2019-02-19 21:06:30 425

转载 产品经理学大数据——大数据软件框架:实时流处理框架

在大数据领域,Hadoop无疑是炙手可热的技术。作为分布式系统架构,Hadoop具有高可靠性、高扩展性、高效性、高容错性和低成本的优点。然而,随着数据体量越来越大,实时处理能力成为了许多客户需要面对的收腰挑战。Hadoop的MapReduce是一个批处理计算框架,在实时计算处理方面显得十分乏力。Hadoop生态圈终于迎来了实时流处理框架。除了实时性,流处理可以处理更复杂的任务,能够以低延时执行大部...

2019-02-19 20:58:47 444

转载 产品经理学大数据——大数据软件框架:Spark(4)之Spark Streaming

Spark Streaming是基于Spark引擎对数据流进行不间断处理。只要有新的数据出现,Spark Streaming就能对其进行准实时(数百毫秒级别的延时)的转换和处理。Spark Streaming的工作原理是在小间隔里对数据进行汇集从而形成小批量,然后在小批量数据上运行作业。使用Spark Streaming编写的程序与编写Spark程序非常相似,在Spark程序中,主要通过操...

2019-02-19 20:46:27 232

转载 产品经理学大数据——大数据软件框架:Spark(3)之Spark SQL

Spark SQL是什么?Spark的存在是为了快于MapReduce的速度进行分布式计算。Spark的设计者很快就了解到,大家还是想用SQL来访问数据,于是Spark SQL就出现了。Spark SQL是基于Spark引擎对HDFS上的数据集或已有的RDD执行SQL查询。有了Spark SQL就能在Spark程序里用SQL语言操作数据了。Spark SQL的前身——SharkSpark ...

2019-02-19 20:30:07 398

转载 产品经理学大数据——大数据软件框架:Spark(2)之Scala

Scala是什么?Spark框架使用Scala开发的,并提供了Scala语言的一个子集。那么,什么是Scala呢?Scala是一种类似Java的编程语言,它的设计初衷是创造一种更好地支持组建的语言。Scala的编译器把源文件编译成Java的class文件,从而让Scala程序运行在JVM上。Scala兼容现有的Java程序,从Scala中科调用所有的Java类库。Scala能够让我们花更少的时间...

2019-02-19 20:08:32 198

转载 产品经理学大数据——大数据软件框架:Spark(1)

随着大数据的发展,人们对大数据的处理要求也越来越高,原有的批处理框架MapReduce适合离线计算,却无法满足实时性要求较高的业务,如实时推荐、用户行为分析等。因此,Hadoop生态系统又发展出以Spark为代表的新计算框架。相比MapReduce,Spark速度快,开发简单,并且能够同时兼顾批处理和实时数据分析。Apache Spark来源Apache Spark是加州大学伯克利分校的AM...

2019-02-18 23:02:20 702

转载 产品经理学大数据——大数据软件框架:Hadoop框架(5)之Ambari(管理工具)

Ambari是什么?Apache Ambari是一种基于Web的Hadoop管理工具,可以快捷地监控、部署、管理Hadoop集群。Ambari目前已支持大多数Hadoop组建,包括HDFS、MapReduce、Hive、Pig、HBase、Zookeeper、Sqoop和Hcatalog等。Ambari可以做什么?Ambari可以帮助Hadoop系统管理员来完成以下工作:通过一步一步的...

2019-02-18 21:46:05 291

转载 产品经理学大数据——大数据软件框架:Hadoop框架(4)之Zookeeper(分布式协作服务)

Zookeeper是一个集中式服务,主要负责分布式服务调度,它用来完成配置管理、名字服务、提供分布式锁以及集群管理等工作。配置管理应用程序中经常有一些配置,比如数据库连接等。一般我们都是使用配置文件的方式,在代码中引入这些配置文件。这种方式是适合只有一台服务器的时候。当我们有很多服务器时,就需要寻找一种集中管理配置的方法,而不是在每个服务器上存放配置文件。我们在这个集中的地方修改了配置,所有...

2019-02-16 11:51:23 222

转载 产品经理学大数据——大数据软件框架:Hadoop框架(3)之YARN(集群资源管理器)

YARN是什么?从Hadoop 2 开始,MapReduce背一个改进的版本所替代,这个版本叫做MapReduce 2.0(MRv2)或YARN(Yet Another Resource Negotiator,另一种资源协调者)。YARN是一种新的Hadoop资源管理器,也是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度,它的引入为集群在利用率、资源统一管理和数据共享等方面带来了...

2019-02-15 21:21:28 416

转载 产品经理学大数据——大数据软件框架:Hadoop框架(2)之MapReduce(分布式计算框架)

MapReduce是一种编程模型,用以大数据量地批处理计算。MapReduse的思想——Map & ReduceMapReduce的思想是将批量处理的任务主要分成两个阶段(Map和Reduce阶段),所谓的Map阶段就是把数据生成“键-值”对,按键排序。中间有一步叫shuffle,把同样的key运输到同一个reducer上面去,在reducer上,因为都是同一个key,就直接可以做聚...

2019-02-14 20:22:56 194

转载 产品经理学大数据——大数据软件框架:Hadoop框架(1)之HDFS

Hadoop是Apache的子项目,是一个分布式系统基础架构,它主要是用于大数据的处理。Hadoop所提供的分布式文件系统(HDFS)实现了大规模的存储(在所有计算节点上分布式存储50TB数据),这为整个集群带来了非常高的带宽,因此能大大提高效率。Hadoop可以让用户在不了解分布式底层细节的情况下,开发分布式程序,充分利用集群的威力进行高速运算和存储。Hadoop框架Hadoop框架使用J...

2019-02-14 19:56:14 498

转载 产品经理学大数据——什么是大数据(2)

企业如何迎接大数据大数据不应该只是IT部门的事情,而是全公司协同作战的事情。管理层可以从大数据中获得洞察做决策,运营部门可以根据数据分析结果来改善运营策略,市场部门可以从数据分析中来优化广告投放策略,甚至是客服部门也可以从数据分析结果中来优化自己的工作,更别提销售部门了,他们更需要大数据的支持。评估大数据方案的维度:数据整合和分析所带来的业务价值。 数据整合(无论是新来源的数据还是原...

2019-01-23 18:53:04 350

转载 产品经理学大数据——什么是大数据?(1)

大数据是什么?大数据不是一向单一的技术,而是一个概念,是一套技术,是一个生态圈。对于大数据的概念,不同研究狗从不同角度有不同的定义。Gartner认为“大数据是需要新处理模式才能具有更强的决策力、洞察发现李和流程优化能力的海量、高增长率和多样化的信息资产”。 麦肯锡认为“大数据指的是大小超出常规的数据库工具获取、存储、管理和分析能力的数据集。但它同时强调,并不是说一定要超过特定TB值...

2019-01-21 20:38:56 585

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除