![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hadoop
yisun123456
大数据开发、个性化推荐
展开
-
crontab hadoop spark 不生效
单独执行含有hadoop命令脚本生效,但是放到crontab里执行不行。1、检查crontab是否启动 systemctl status crond 、 systemctl start crond2、如果生效了,很可能是环境问题 需要加上环境 source /etc/profile source ~/.bashrc......原创 2022-06-29 10:53:15 · 338 阅读 · 0 评论 -
基于物品推荐和基于用户推荐计算的大致逻辑
基于用户推荐1.将以物品为key,聚合所有用户;2.两两计算出用户间的距离(计算矩阵的相似度)3.对每个用户倒排距离最近的20个,然后从这些用户中拿到打分最高的10个推荐给用户。基于物品推荐1.计算物品与物品之间有多个少相同用户(同一用户同时消费过的物品累加)2.计算物品间的相似度(两物品同时出现的用户数/各自用户数乘积.sqrt)3.拿到这些用户的top,然后再排序未...原创 2019-06-16 11:07:33 · 932 阅读 · 0 评论 -
大数据开发文档 官网翻译中文
原文链接:http://www.apachecn.org/bigdata/spark/268.htmlApache Spark™ 是一个快速的, 用于海量数据处理的通用引擎.官方网址:http://spark.apache.org中文文档:http://spark.apachecn.org花了大概两周左右的时间,在原来Spark 2.0.2 中文文档版本的基础上,终于迭代出...转载 2019-05-27 15:40:50 · 251 阅读 · 0 评论 -
大数据常见错误解决方案
1、用./bin/spark-shell启动spark时遇到异常:java.net.BindException: Can't assign requested address: Service 'sparkDriver' failed after 16 retries!解决方法:add export SPARK_LOCAL_IP="127.0.0.1" to spark-env.sh2、j...转载 2019-04-22 09:52:04 · 1956 阅读 · 0 评论 -
resource manager命令
杀掉任务yarn application --kill application_1552709495095_854785查看日志yarn logs -applicationId application_1552709495095_854785 > logs.txt转载 2019-03-28 08:46:01 · 980 阅读 · 0 评论 -
通过jstack与jmap分析一次线上故障
一、发现问题 下面是线上机器的cpu使用率,可以看到从4月8日开始,随着时间cpu使用率在逐步增高,最终使用率达到100%导致线上服务不可用,后面重启了机器后恢复。二、排查思路简单分析下可能出问题的地方,分为5个方向:1.系统本身代码问题2.内部下游系统的问题导致的雪崩效应3.上游系统调用量突增4.http请求第三方的问题5.机器本身的问题三、开始排查...转载 2019-03-25 17:46:59 · 442 阅读 · 0 评论 -
yarn查看日志的两种方式
查看yarn日志的两种方式1.界面版1)点击application2)输入即可 2.命令行版yarn logs -applicationId application_1517538889175_2550 > logs.txt通过vim进行查看logs.txt文件...转载 2018-12-17 10:06:48 · 24525 阅读 · 0 评论 -
yarn资源管理优化
集群环境: chd5-2.5.2我们集群使用的是FailScheduler,如果队列参数设置不合理,会直接影响到任务执行的快慢。队列设置不合理举例如下:现状:该队里minshare设置的过小,同时起的任务太多导致的问题:该队列中平均每个任务分的资源比较少,任务跑的特别慢,同时,任务之间会相互抢占container比如下面的任务,跑了30多个小时,还没跑完看一下任务详情:...转载 2018-09-26 18:48:35 · 640 阅读 · 0 评论 -
yarn资源管理优先级设置
作业提交到的队列:mapreduce.job.queuename作业优先级:mapreduce.job.priority,优先级默认有5个:LOW VERY_LOW NORMAL(默认) HIGH VERY_HIGH 1、静态设置 1.1 Pig版本SET mapreduce.job.queuename root.etl.distcp;SET mapreduce.job.pri...转载 2018-09-26 18:07:01 · 4861 阅读 · 2 评论 -
不同集群间数据cp,并且获取最新文件
#!/bin/sh###################. /etc/profile. ~/.bash_profile##################echo =====================================`date`===============================================SCRIPT_NAME=$(readli...原创 2018-08-30 14:00:57 · 415 阅读 · 0 评论 -
cdh 安装hadoop集群
hadoop基础----hadoop实战(六)-----hadoop管理工具---Cloudera Manager---CDH介绍简介我们在上篇文章中已经了解了CDH,为了后续的学习,我们本章就来安装CDH5.8。CDH5.8是目前比较新的版本,自带hadoop2.0以上的hadoop,而且已经包含了很多组件,也是我们接下来需要学习的hadoop生态圈中的组件。 ...转载 2018-08-29 19:29:17 · 1782 阅读 · 0 评论 -
cdh 安装hadoop集群
准备JDK环境 版本:jdk-8u101-linux-x64.rpm 下载地址:oracle官网 mysql rpm包:http://dev.mysql.com/get/Downloads/MySQL-5.6/MySQL-5.6.26-1.linux_glibc2.5.x86_64.rpm-bundle.tar jdbc连接包mysql-connector-java.jar:...转载 2018-08-29 19:15:24 · 416 阅读 · 0 评论 -
hadoop cdh安装
1.下载组件首先去CDH网站上下载hadoop组件地址:http://archive.cloudera.com/cdh5/cdh/5/注意版本号要与其他的组件CDH版本一致 2.环境配置设置主机名和用户名配置静态IP配置SSH免密登录配置JDK3.配置HADOOP1.新建用户hadoop,从root用户获取/opt文件夹的权限,所有节点都要执行...转载 2018-08-29 19:12:58 · 954 阅读 · 0 评论 -
cdh 安装
- 概述- 文件下载- 系统环境搭建- Cloudera Manager安装与集群配置- 日志查看- Q&A- 参考 概述CDH (Cloudera's Distribution, including Apache Hadoop),是Hadoop众多分支中的一种,由Cloudera维护,基于稳定版本的Apache Hadoop构建,并集成了很多补丁,可直...转载 2018-08-29 19:11:38 · 1329 阅读 · 0 评论 -
Error: java.io.IOException: File copy failed:
18/08/22 03:15:58 INFO tools.DistCp: Input Options: DistCpOptions{atomicCommit=false, syncFolder=false, deleteMissing=false, ignoreFailures=false, maxMaps=20, sslConfigurationFile='null', copyStrategy...原创 2018-08-27 17:37:44 · 3665 阅读 · 2 评论 -
HDFS误操作删除文件 文件夹的恢复方式
我们每天都可能会操作 HDFS 上的文件,这就很难避免误操作,比如比较严重的误操作就是删除文件。本文针对这个问题提供了三种恢复误删除文件的方法,希望对大家的日常运维有所帮助。通过垃圾箱恢复HDFS 为我们提供了垃圾箱的功能,也就是当我们执行 hadoop fs -rmr xxx 命令之后,文件并不是马上被删除,而是会被移动到执行这个操作用户的 .Trash 目录下,等到一定的时间后才会执行真正的删...转载 2018-06-06 13:56:21 · 7385 阅读 · 0 评论