大数据应用
文章平均质量分 94
几窗花鸢
这个作者很懒,什么都没留下…
展开
-
云服务器搭建flink集群
YARN上部署的过程是:客户端把Flink应用提交给Yarn的ResourceManager,Yarn的ResourceManager会向Yarn的NodeManager申请容器。运行 Flink job 的集群一旦停止,只能去 yarn 或本地磁盘上查看日志,不再可以查看作业挂掉之前的运行的 Web UI,很难清楚知道作业在挂的那一刻到底发生了什么。-d:分离模式,如果你不想让Flink YARN客户端一直前台运行,可以使用这个参数,即使关掉当前对话窗口,YARN session也可以后台运行。原创 2023-11-06 17:47:08 · 484 阅读 · 0 评论 -
云服务器安装Hbase
在 HBase 中 HMaster 负责监控 HRegionServer 的生命周期,均衡 RegionServer 的负载,如果 HMaster 挂掉了,那么整个 HBase 集群将陷入不健康的状态,并且此时的工作状态并不会维持太久。如果大量的数据已经存放在 HBase 上面,需要对已经存在的数据进行数据分析处理,那么 Phoenix 并不适合做特别复杂的 SQL 处理,此时可以使用 hive 映射 HBase 的表格,之后写 HQL 进行分析处理。因为编码会导致Pheonix的表无法和HBase映射。原创 2023-10-30 20:29:51 · 229 阅读 · 0 评论 -
云服务器安装Hive
另外,Hive 也会读入 Hadoop 的配置,因为 Hive是作为 Hadoop 的客户端启动的,Hive 的配置会覆盖 Hadoop 的配置。配置文件的设定对本机启动的所有 Hive 进程都有效。命令行参数方式启动 Hive 时,可以在命令行添加-hiveconf param=value 来设定参数。原创 2023-10-30 20:28:29 · 202 阅读 · 0 评论 -
大数据应用概览(林子雨慕课课程)
什么是推荐系统?推荐系统可以创造全新的商业和经济模式,帮助实现长尾商品的销售长尾理论:冷门商品累计的总销售额也许会超过热门商品推荐方法专家推荐基于统计的推荐基于内容的推荐协同过滤推荐:通过与用户A相似的用户B对商品的评价,从而推导出用户A是否喜欢这个商品混合推荐:多种推荐算法组合推荐系统模型推荐系统的应用。原创 2023-10-13 17:54:53 · 81 阅读 · 0 评论 -
图计算(林子雨慕课课程)
图计算是专门针对图数据结构的处理许多大数据都是以大规模图或者网络的形式出现许多非图结构的大数据,也常常会被转换为图模型后进行分析图数据结构很好地表达了数据之间的关联性关联性计算是大数据计算的核心—通过获得数据的关联性,可以从噪音很多的海量数据中抽取有用的信息图的应用实例购物者之间进行建模,可以得到兴趣比较相似的用户,为用户实时推荐商品图结构计算可以发现传播关系中的意见领袖,如热门话题讨论传统的图计算算法存在的典型问题常常表现出比较差的内存访问局限性针对单个顶点的处理工作过少。原创 2023-10-13 17:49:20 · 625 阅读 · 0 评论 -
流计算概述(林子雨慕课课程)
静态数据和流数据静态数据用一个非常形象的比喻,就是三峡水库里面蓄的水一样静止不动例如:数据仓库中的数据存入数仓后就维持不变,是典型的静态数据流数据:近年来,在Web应用、网络监控、传感检测等领域,兴起的一种新的数据密集型应用–流数据,即数据以大量、快速、时变的流形式持续到达其数据产生方式是实时产生,并且实时不断地像流水一样到达,所以称为流数据流数据特征数据快速持续到达,潜在大小也许是无穷无尽的数据来源众多,格式复杂数据量大,但是不十分关注存储,一旦经过处理,要么被丢弃,要么被归档存储。原创 2023-10-13 17:47:31 · 287 阅读 · 0 评论 -
Flink(林子雨慕课课程)
企业的处理架构已经由传统数据处理架构和大数据Lamda架构向流处理架构演变Flink实现了Goole Dataflow模型,具有高吞吐,高性能,低延迟的特点同时支持批处理和流处理批流一体化精密的状态管理事件时间支持精确一次的状态一致性保障Flink不仅支持在YARN、Mesos、Kubernetes多种资源管理框架之上,也支持在裸机集群上独立部署再启用高可用选项后,它不存在单点失效问题Flink可以扩展到数千核心,状态可以达到TB级别,仍然能够达到高吞吐、低延迟的特性。原创 2023-10-13 17:39:59 · 525 阅读 · 0 评论 -
Spark(林子雨慕课课程)
Spark最初由美国加州伯克利大学 ( UC Berkeley )的AMP实验室于2009年开发,是基于内存计算的大数据并行计算框架,可用于构建大型的、低延迟的数据分析应用程序2013年Spark加入Apache孵化器项目后发展迅猛,如今己成为Apache软件基金会最重要的三大分布式计算系统开源项目之一 ( Hadoop、Spark、 Storm )运行速度快:使用DAG执行引擎以支持循环数据流与内存计算。原创 2023-10-12 11:03:30 · 1128 阅读 · 0 评论 -
数据仓库Hive(林子雨课程慕课)
Hive特点传统的数据仓库既是数据存储产品也是数据分析产品传统的数据仓库能同时支持数据的存储和处理分析Hive本身并不支持数据存储和处理其实只是提供了一种编程语言其架构于Hadoop之上,Hadoop有支持大规模数据存储的组件HDFS,以及支持大规模数据处理的组件MapReduceHive借助于这两个组件,完成数据的存储和处理其依赖分布式文件系统HDFS存储睡依赖分布式并行计算系统MapReduce处理数据借鉴SQL语言设计了新的查询语言HiveQLHive总结。原创 2023-10-12 10:54:49 · 1727 阅读 · 1 评论 -
Hadoop2.0探讨
hadoop原创 2023-10-10 21:40:19 · 561 阅读 · 0 评论 -
MapReduce(林子雨慕课课程)
MapReduce是一种分布式并行编程框架数据处理能力提升的两条路线:单核CPU到双核到四核到八核分布式并行编程MapReduce包含两大函数:Map和ReduceMapReduce策略:采用分而治之的做法MapReduce理念计算向数据靠拢,而不是数据向计算靠拢什么事数据向计算靠拢?即完成一次数据分析时,选择一个计算节点,把运行数据分析的程序放在计算节点上运行然后把它所涉及的数据,全部从各个不同的节点上面拉过来,传输到计算发生的地方MapReduce采用计算向数据靠拢的方式。原创 2023-10-10 21:38:05 · 750 阅读 · 0 评论 -
云数据库(林子雨慕课课程)
云数据库应用原创 2023-10-10 21:32:35 · 314 阅读 · 1 评论 -
NoSQL数据库(林子雨慕课课程)
NoSQL原创 2023-10-10 21:29:11 · 1406 阅读 · 1 评论 -
分布式数据库HBase(林子雨慕课课程)
HBase简要介绍原创 2023-10-08 22:34:19 · 927 阅读 · 0 评论 -
分布式文件系统HDFS(林子雨慕课课程)
HDFS就是解决海量数据的分布式存储问题为什么会出现分布式文件系统?计算机集群基本架构每个机架由若干个节点构成机架的内部之间是通过光纤交换机进行连接,机架与机架通过带宽更高的光纤交换机进行连接分布式文件系统的存储结构主节点存储相关的元数据服务:目录存储服务,从节点需要完成相关的数据存储任务HDFS是非常流行的一个分布式存储系统HDFS实现的目标兼容廉价的硬件设备实现流数据读写支持大数据集支持简单的文件模型。原创 2023-10-08 22:31:32 · 580 阅读 · 0 评论 -
Hadoop(林子雨慕课课程)
Hadoop可以支持多种编程语言:c,c++,java,pythonHadoop用java语言开发,具有跨平台特性Hadoop两大核心:HDFS+MapReduce 分别解决了海量数据的分布式存储和分布式处理问题2003年,谷歌发布了分布式文件系统GIS,2004年Hadoop将其纳入自己平台下开源实现2004年,谷歌发布了分布式的并行编程框架MapReduceHadoop具有很高的可靠性:多台机器构成集群,部分机器发生故障,剩余机器可以继续对外提供服务。原创 2023-10-08 22:29:14 · 805 阅读 · 0 评论 -
大数据概述(林子雨慕课课程)
大数据的四大特点:大量化、快速化、多样化、价值密度低。原创 2023-10-08 22:28:06 · 475 阅读 · 0 评论