2018年08月_yisun123456

原创不同集群间数据cp，并且获取最新文件

#!/bin/sh###################. /etc/profile. ~/.bash_profile##################echo =====================================`date`===============================================SCRIPT_NAME=$(readli...

2018-08-30 14:00:57 422

转载 cdh 安装hadoop集群

hadoop基础----hadoop实战(六)-----hadoop管理工具---Cloudera Manager---CDH介绍简介我们在上篇文章中已经了解了CDH，为了后续的学习，我们本章就来安装CDH5.8。CDH5.8是目前比较新的版本，自带hadoop2.0以上的hadoop，而且已经包含了很多组件，也是我们接下来需要学习的hadoop生态圈中的组件。 ...

2018-08-29 19:29:17 1799

转载 cdh 安装hadoop集群

准备JDK环境版本：jdk-8u101-linux-x64.rpm 下载地址：oracle官网 mysql rpm包：http://dev.mysql.com/get/Downloads/MySQL-5.6/MySQL-5.6.26-1.linux_glibc2.5.x86_64.rpm-bundle.tar jdbc连接包mysql-connector-java.jar:...

2018-08-29 19:15:24 425

转载 hadoop cdh安装

1.下载组件首先去CDH网站上下载hadoop组件地址：http://archive.cloudera.com/cdh5/cdh/5/注意版本号要与其他的组件CDH版本一致 2.环境配置设置主机名和用户名配置静态IP配置SSH免密登录配置JDK3.配置HADOOP1.新建用户hadoop，从root用户获取/opt文件夹的权限，所有节点都要执行...

2018-08-29 19:12:58 963

转载 cdh 安装

- 概述- 文件下载- 系统环境搭建- Cloudera Manager安装与集群配置- 日志查看- Q&A- 参考概述CDH (Cloudera's Distribution, including Apache Hadoop)，是Hadoop众多分支中的一种，由Cloudera维护，基于稳定版本的Apache Hadoop构建，并集成了很多补丁，可直...

2018-08-29 19:11:38 1361

转载 sparksql\hive on spark\hive on mr

Hive on MapreduceHive的原理大家可以参考这篇大数据时代的技术hive：hive介绍，实际的一些操作可以看这篇笔记：新手的Hive指南，至于还有兴趣看Hive优化方法可以看看我总结的这篇Hive性能优化上的一些总结Hive on Mapreduce执行流程执行流程详细解析Step 1：UI(user interface) 调用 executeQuery...

2018-08-29 18:08:24 1241

转载接口的调用与被调用案例

此接口调用与被调用，都是在springMVC框架下使用参数以json格式传输。别人调用我们的接口，与controller方法开发类似@RequestMapping("/otherUseMe.do")public void otherUseMe (HttpServletRequest request,HttpServletResponse response) throw IOExcept...

2018-08-29 16:43:45 3868

转载 hive常用的优化参数

一、 Hive join优化1. 尽量将小表放在join的左边，我们使用的Hive-0.90,所以是自动转化的，既把小表自动装入内存，执行map side join(性能好), 这是由参数hive.auto.convert.join=true 和hive.smalltable.filesize=25000000L）参数控制（默认是25M），如果表文件大小在25M左右，可以适当调...

2018-08-29 10:59:28 337

原创 hive离线任务优化参参数（在同样条件下，使用了tez从300s+降到200s+）

set hive.execution.engine=tez;set mapred.job.name=recommend_user_profile_$idate;set mapred.reduce.tasks=-1;set hive.exec.reducers.max=160;set hive.auto.convert.join=true;set hive.exec.parallel=t...

2018-08-28 09:47:17 747

原创 Error: java.io.IOException: File copy failed:

18/08/22 03:15:58 INFO tools.DistCp: Input Options: DistCpOptions{atomicCommit=false, syncFolder=false, deleteMissing=false, ignoreFailures=false, maxMaps=20, sslConfigurationFile='null', copyStrategy...

2018-08-27 17:37:44 3682 2

转载 shell并发编程

在bash中，使用后台任务来实现任务的“多进程化”。在不加控制的模式下，不管有多少任务，全部都后台执行。也就是说，在这种情况下，有多少任务就有多少“进程”在同时执行。我们就先实现第一种情况：实例一：正常情况脚本———————————————————————————–#!/bin/bashfor ((i=0;i<5;i++));do{sleep 1;echo 1>...

2018-08-27 16:25:33 825

转载 hive中的笛卡尔积

Hive本身是不支持笛卡尔积的，不能用select T1.*, T2.* from table_1, table_2这种语法。但有时候确实需要用到笛卡尔积的时候，可以用下面的语法来实现同样的效果：select T1.*, T2.* from(select * from table1) T1join(select * from table2) T2on 1=1;其中on 1...

2018-08-27 16:14:22 20947

转载 You have new mail in /var/spool/mail/root

有时在进入系统的时候经常提示You have new mail in /var/spool/mail/root你觉得烦人---解决方法：修改系统配置文件/etc/profile，告诉系统不要去检查邮箱.具体操作：命令行输入：echo "unset MAILCHECK" >> /etc/profile 【把unset MAILCHECK加到文件/etc/profile 的尾部】...

2018-08-27 10:42:12 295

转载 hive sql 在多个sql union all 时优化方式

前面提到了hive.exec.parallel可以控制一个sql中多个可并行执行的job的运行方式.当hive.exec.parallel为true的时候,同一个sql中可以并行执行的job会并发的执行.而参数hive.exec.parallel.thread.number就是控制对于同一个sql来说同时可以运行的job的最大值,该参数默认为8.此时最大可以同时运行8个job.我找了个j...

2018-08-23 16:09:29 7345

转载 mysql 数据备份与恢复

一、备份常用操作基本命令1、备份命令mysqldump格式格式：mysqldump -h主机名 -P端口 -u用户名 -p密码 –database 数据库名 > 文件名.sql 2、备份MySQL数据库为带删除表的格式备份MySQL数据库为带删除表的格式，能够让该备份覆盖已有数据库而不需要手动删除原有数据库。mysqldump --add-drop-table ...

2018-08-21 14:59:00 139

转载 spark streaming 同时处理两个不同kafka集群的数据

如题，总是不那么完美，要处理的数据在两个不同的kafka集群里面，日子得过，问题也得解决，我们创建两个DStream,连接两个不同的kafka集群的不同topic,然后再把这两个DStream union在一起处理，代码如下： package com.kingnet import java.util import org.apache.spar...

2018-08-21 14:03:22 1799

转载 hive中的日期处理法

1.日期比较函数: datediff语法: datediff(string enddate,string startdate) 返回值: int 说明: 返回结束日期减去开始日期的天数。举例：hive> select datediff('2016-12-30','2016-12-29');12.日期增加函数: date_add语法: date_add(string st...

2018-08-17 14:25:11 6667

原创 Shell 千分逗号隔开

echo '123456789.12'|awk '{printf "%'"'"'18.2f\n",$0}' `echo 123456789.12 | sed '{:a;s/$.*[0-9]$$[0-9]\{3\}$/\1,\2/;ta}'`

2018-08-16 16:35:17 1524 1

转载 hive 卡在stage99%往往是因为数据发生了倾斜

在做Shuffle阶段的优化过程中，遇到了数据倾斜的问题，造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和，优化是基于这些Counters得出的平均值，而由于数据倾斜的原因造成map处理数据量的差异过大，使得这些平均值能代表的价值降低。Hive的执行是分阶段的，map处理数据量的差异取决于上一个stage的reduce输出，所以如何将数据均匀的...

2018-08-16 16:09:53 12200 1

转载 MongoDB 查询超时异常的原因及解决办法

MongoDB 查询超时异常的原因及解决办法在对超过百万条记录的集合进行聚合操作时，偶尔会发生Read timed out 异常，本文分析了ConnectionTimeOut和SocketTimeOut的区别，并提出该问题的解决办法。作者：忙碌的键盘来源：oschina博客|2015-03-09 15:41 移动端收藏分享【沙龙】51CTO诚邀您9月23号和多位技术大...

2018-08-16 11:56:11 20184

转载 oracle使用SQL导出cvs

如何用sql语句导出csv文件如题------解决方案--------------------set heading off set termout off spool c:\table_name.csv select col1|| ', '||col2|| ', '||col3 from table_name; spool off ------解决方案--------------------在p...

2018-08-16 11:55:47 507

转载 hdfs常用命令

随机返回指定行数的样本数据 hadoop fs -cat /test/gonganbu/scene_analysis_suggestion/* | shuf -n 5返回前几行的样本数据 hadoop fs -cat /test/gonganbu/scene_analysis_suggestion/* | head -100返回最后几行的样本数据 hadoop fs -cat /te...

2018-08-16 11:55:23 2350

原创 hive sql 时间递归写法

select a.p_day,0 fuv,0 vv,0 as fuv_sec,0 as vv_sec,count(distinct b.uid) fuv_sev,sum(b.vv) vv_sevfrom(select p_day,uid,sum(vv)vvfrom default.t_1where p_day>=20180706 and p_day<=20180719and ...

2018-08-16 11:54:20 6043

原创 shell 快捷键

：1,$s/word1/word2/gc可以从第一行到最后一行的所有word1替换为word2，并且在每处都需要确认y/n？：/word全文查找word一般模式下dd快捷删除行

2018-08-15 15:47:07 132

转载 hive 常用函数大全

数学函数 Return Type Name (Signature) Description DOUBLE round(DOUBLE a) Returns the rounded BIGINT value of a. 返回对a四舍五入的BIGINT值 DO...

2018-08-14 19:32:54 321

转载 hive 只有map没有reducer 的优化

hive中在做查询时，经常会碰到这种问题，任务只起map不起reduce；环境：hive 100出头的节点7T左右的内存basic表有300-400个分区，总数据量在6亿-7亿；如下sql：select * from basic_sum where user_log_acct='abcd';这个sql只会起一个job，这个job只有map，没有reduce；输入数...

2018-08-02 10:59:19 2962

转载计算常见错误

1. Application Master 无法访问点击application mater 链接，出现 http 500 错误，java.lang.Connect.exception：问题是由于设定web ui时，50030 端口对应的ip地址为0.0.0.0，导致application master 链接无法定位。解决办法: yarn-site...

2018-08-01 13:17:43 318

转载 HIVE 内存溢出常见问题

MapReduce作业运行过程中内存溢出错误分类1、Mapper/Reducer阶段JVM内存溢出（一般都是堆）1)JVM堆(Heap)内存溢出：堆内存不足时，一般会抛出如下异常：第一种：“java.lang.OutOfMemoryError:” GC overhead limit exceeded；第二种：“Error: Java heapspace”异常信息；第三种：“ru...

2018-08-01 11:15:19 34622 2

转载 hive 常见优化

Hive是将符合SQL语法的字符串解析生成可以在Hadoop上执行的MapReduce的工具。使用Hive尽量按照分布式计算的一些特点来设计sql，和传统关系型数据库有区别，所以需要去掉原有关系型数据库下开发的一些固有思维。基本原则：1：尽量尽早地过滤数据，减少每个阶段的数据量,对于分区表要加分区，同时只选择需要使用到的字段select ... from Ajoin Bon...

2018-08-01 09:16:38 261

yisun123456的博客

原创不同集群间数据cp，并且获取最新文件

转载 cdh 安装hadoop集群

转载 cdh 安装hadoop集群

转载 hadoop cdh安装

转载 cdh 安装

转载 sparksql\hive on spark\hive on mr

转载接口的调用与被调用案例

转载 hive常用的优化参数

原创 hive离线任务优化参参数（在同样条件下，使用了tez从300s+降到200s+）

原创 Error: java.io.IOException: File copy failed:

转载 shell并发编程

转载 hive中的笛卡尔积

转载 You have new mail in /var/spool/mail/root

转载 hive sql 在多个sql union all 时优化方式

转载 mysql 数据备份与恢复

转载 spark streaming 同时处理两个不同kafka集群的数据

转载 hive中的日期处理法

原创 Shell 千分逗号隔开

转载 hive 卡在stage99%往往是因为数据发生了倾斜

转载 MongoDB 查询超时异常的原因及解决办法

转载 oracle使用SQL导出cvs

转载 hdfs常用命令

原创 hive sql 时间递归写法

原创 shell 快捷键

转载 hive 常用函数大全

转载 hive 只有map没有reducer 的优化

转载计算常见错误

转载 HIVE 内存溢出常见问题

转载 hive 常见优化

chinese-llama-plus-lora-33b（2）

springMVC-Hibernate-Oracle-master.zip

jgx565621106-WangYeJinDuTiao-master.zip

空空如也