hadoop
文章平均质量分 95
几窗花鸢
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
云服务器搭建flink集群
YARN上部署的过程是:客户端把Flink应用提交给Yarn的ResourceManager,Yarn的ResourceManager会向Yarn的NodeManager申请容器。运行 Flink job 的集群一旦停止,只能去 yarn 或本地磁盘上查看日志,不再可以查看作业挂掉之前的运行的 Web UI,很难清楚知道作业在挂的那一刻到底发生了什么。-d:分离模式,如果你不想让Flink YARN客户端一直前台运行,可以使用这个参数,即使关掉当前对话窗口,YARN session也可以后台运行。原创 2023-11-06 17:47:08 · 645 阅读 · 0 评论 -
云服务器安装Hbase
在 HBase 中 HMaster 负责监控 HRegionServer 的生命周期,均衡 RegionServer 的负载,如果 HMaster 挂掉了,那么整个 HBase 集群将陷入不健康的状态,并且此时的工作状态并不会维持太久。如果大量的数据已经存放在 HBase 上面,需要对已经存在的数据进行数据分析处理,那么 Phoenix 并不适合做特别复杂的 SQL 处理,此时可以使用 hive 映射 HBase 的表格,之后写 HQL 进行分析处理。因为编码会导致Pheonix的表无法和HBase映射。原创 2023-10-30 20:29:51 · 335 阅读 · 0 评论 -
云服务器安装Hive
另外,Hive 也会读入 Hadoop 的配置,因为 Hive是作为 Hadoop 的客户端启动的,Hive 的配置会覆盖 Hadoop 的配置。配置文件的设定对本机启动的所有 Hive 进程都有效。命令行参数方式启动 Hive 时,可以在命令行添加-hiveconf param=value 来设定参数。原创 2023-10-30 20:28:29 · 365 阅读 · 0 评论 -
云服务器搭建Spark集群
参数 3 含义:指定保存 Application 历史记录的个数,如果超过这个值,旧的应用程序信息将被删除,这个是内存中的应用数,而不是页面上显示的应用数。需要注意的是,增加保留的应用程序数量将会增加 Spark 历史服务器的磁盘和内存使用量,因为它需要存储更多的元数据和日志信息。因此,在增加这个值时,你需要确保你的系统有足够的资源来支持这么做。参数 3 含义:指定保存 Application 历史记录的个数,如果超过这个值,旧的应用程序信息将被删除,这个是内存中的应用数,而不是页面上显示的应用数。原创 2023-10-28 19:21:51 · 662 阅读 · 0 评论 -
云服务器搭建Zookeeper集群
Server1和Server2分别投自己一票并交换选票信息:此时Server1发现Server2的maid(服务器编号,唯一)比自己目前投票选举的(Server1)大,因此Server1更改选票为推选Server2.此时Server1的票数是0票,而Server2的票数是2票,没有半数以上结果,选举无法完成,此时Server1和Server2都保持LOOKING状态。Server1投自己一票,此时Server1的票数1票,不够半数以上(3票),选举无法完成,Server1的状态保持为LOOKING;原创 2023-10-28 15:05:56 · 446 阅读 · 0 评论 -
云服务器搭建Hadoop分布式
首先排查pid是否为自己设置的pid地址,由于默认的pid是在/tmp目录下,但是tmp目录下的东西是会定期清理的,因此在hadoop-env.sh和yarn-env.sh中配置了新的pid地址,为$HADOOP_HOME/pid。还是建议将服务器的防火墙暂时关闭,因为hadoop的节点之间的网络通信涉及了太多复杂的端口,原先按照开放端口的方式不足以应对通信过程中可能产生的端口号,导致运行MR程序卡顿。1.检查了服务器之间的ip和主机名的映射,各个服务器主机之间通过主机名可以ping通,说明映射没有问题,原创 2023-10-22 22:47:08 · 2101 阅读 · 0 评论 -
大数据应用概览(林子雨慕课课程)
什么是推荐系统?推荐系统可以创造全新的商业和经济模式,帮助实现长尾商品的销售长尾理论:冷门商品累计的总销售额也许会超过热门商品推荐方法专家推荐基于统计的推荐基于内容的推荐协同过滤推荐:通过与用户A相似的用户B对商品的评价,从而推导出用户A是否喜欢这个商品混合推荐:多种推荐算法组合推荐系统模型推荐系统的应用。原创 2023-10-13 17:54:53 · 181 阅读 · 0 评论 -
数据仓库Hive(林子雨课程慕课)
Hive特点传统的数据仓库既是数据存储产品也是数据分析产品传统的数据仓库能同时支持数据的存储和处理分析Hive本身并不支持数据存储和处理其实只是提供了一种编程语言其架构于Hadoop之上,Hadoop有支持大规模数据存储的组件HDFS,以及支持大规模数据处理的组件MapReduceHive借助于这两个组件,完成数据的存储和处理其依赖分布式文件系统HDFS存储睡依赖分布式并行计算系统MapReduce处理数据借鉴SQL语言设计了新的查询语言HiveQLHive总结。原创 2023-10-12 10:54:49 · 2011 阅读 · 1 评论 -
Hadoop2.0探讨
hadoop原创 2023-10-10 21:40:19 · 716 阅读 · 0 评论 -
MapReduce(林子雨慕课课程)
MapReduce是一种分布式并行编程框架数据处理能力提升的两条路线:单核CPU到双核到四核到八核分布式并行编程MapReduce包含两大函数:Map和ReduceMapReduce策略:采用分而治之的做法MapReduce理念计算向数据靠拢,而不是数据向计算靠拢什么事数据向计算靠拢?即完成一次数据分析时,选择一个计算节点,把运行数据分析的程序放在计算节点上运行然后把它所涉及的数据,全部从各个不同的节点上面拉过来,传输到计算发生的地方MapReduce采用计算向数据靠拢的方式。原创 2023-10-10 21:38:05 · 1000 阅读 · 0 评论 -
分布式文件系统HDFS(林子雨慕课课程)
HDFS就是解决海量数据的分布式存储问题为什么会出现分布式文件系统?计算机集群基本架构每个机架由若干个节点构成机架的内部之间是通过光纤交换机进行连接,机架与机架通过带宽更高的光纤交换机进行连接分布式文件系统的存储结构主节点存储相关的元数据服务:目录存储服务,从节点需要完成相关的数据存储任务HDFS是非常流行的一个分布式存储系统HDFS实现的目标兼容廉价的硬件设备实现流数据读写支持大数据集支持简单的文件模型。原创 2023-10-08 22:31:32 · 947 阅读 · 0 评论 -
Hadoop(林子雨慕课课程)
Hadoop可以支持多种编程语言:c,c++,java,pythonHadoop用java语言开发,具有跨平台特性Hadoop两大核心:HDFS+MapReduce 分别解决了海量数据的分布式存储和分布式处理问题2003年,谷歌发布了分布式文件系统GIS,2004年Hadoop将其纳入自己平台下开源实现2004年,谷歌发布了分布式的并行编程框架MapReduceHadoop具有很高的可靠性:多台机器构成集群,部分机器发生故障,剩余机器可以继续对外提供服务。原创 2023-10-08 22:29:14 · 1007 阅读 · 0 评论 -
mac docker部署hadoop集群
默认是放在bridge的网段的,默认是联通的,但是为了和其他不相关的容器区分开,建议还是创建一个新的网段让三台容器自己相连。在启动了hdfs和yarn之后,其HDFS的Yarn的webUI的界面地址:其不是容器的ip地址!但是,在启动容器的时候,我们设置了端口的映射关系,就可以通过物理机的ip地址来访问容器内端口。注意:创建的容器进入之后root之后@的是容器id,在容器内使用。容器启动之后会有唯一的容器id,通过如下命令查看正在运行的容器。注意这里本容器的公钥也需要拷贝,以上命令需要在三个容器中都执行。原创 2023-09-28 01:48:44 · 1797 阅读 · 4 评论 -
Yarn学习
YARN学习原创 2022-07-21 01:46:10 · 895 阅读 · 0 评论
分享