docker 安装 1.查看官网安装地址2. 先卸载旧版本 sudo yum remove docker \ docker-client \ docker-client-latest \ docker-common \ docker-latest \ docker-latest-logrotate \ ..
js 获取删除cookie 获取cookiefunction getCookie(name){ let reg=RegExp(name+'=([^;]+)'); let arr=document.cookie.match(reg) if(arr){ return arr[1]; }else{ return ''; }}删除cookie,由于cookie 不能被删除,重写覆盖值设置cookiesfunction setCookie(name.
clickhouse安装 推荐使用CentOS、RedHat和所有其他基于rpm的Linux发行版的官方预编译rpm包。首先,您需要添加官方存储库:sudo yum install yum-utilssudo rpm --import https://repo.clickhouse.tech/CLICKHOUSE-KEY.GPGsudo yum-config-manager --add-repo https://repo.clickhouse.tech/rpm/stable/x86_64下载完依赖后..
hive的优化 1.使用Explain命令,查看执行计划,不会真正的执行,可以详细的查看sql执行的每一个细节。2.fetch指的是hive在对某些情况下可以不是用mapreduce,在配置文件中修改hive.fetch.task.conversion,在属性修改为more以后全局查找,字段查找,limit等都不走mapreduce。3.大多数的hadoopjob需要hadoop完整的性能,对于一些数据量非常小的hive任务,触发查询执行计划的时间比实际执行job消耗的时间还多。Hive可以通过本地模式在单台机器上
全量窗口函数ProcessWindowFunction ProcessWindowFunction在某些情况下,统计更复杂的指标可能需要依赖于窗口中所有的数据元素,或需要操作窗口中的状态数据和窗口元数据,这时就需要使用到ProcessWindowsFunction,ProcessWindowsFunction能够更加灵活地支持基于窗口全部数据元素的结果计算, 例如对整个窗口数据排序取 TopN, 这样的需要就必须使用ProcessWindowFunction。object TestProcessFuntionWindow{ def main..
Flink的Aggregate算子的用法 窗口聚合函数如果定义了 WindowAssigner之后,下一步就可以定义窗口内数据的计算逻辑,这也就是 Window Function的定义。Flink中提供了四种类型的 Window Function, 分别为ReduceFunction、AggregateFunction以及 ProcessWindowFunction,(sum和 max)等。前三种类型的 Window Fucntion 按照计算原理的不同可以分为两大类:一类是增量聚合函数:对应有 ReduceFunct...
flink的侧输出流 flink的侧输出流在 flink处理数据流时,我们经常会遇到这样的情况:在处理一个数据源时,往往需要将该源中的不同类型的数据做分割处理,如果使用 filter算子对数据源进行筛选分割的话,势必会造成数据流的多次复制,造成不必要的性能浪费;flink中的侧输出就是将数据流进行分割,而不对流进行复制的一种分流机制。flink的侧输出的另一个作用就是对延时迟到的数据进行处理,这样就可以不必丢弃迟到的数据。/*** 把呼叫成功的Stream(主流)和不成功的Stream(侧流)分别输出。*/...
flink算子 flink的知识总结flink的编程模型分为 四部分:enviroment--->source---->transformation--->sink1.flink的数据源1.文件数据源 //初始化Flink的Streaming(流计算)上下文执行环境 val streamEnv = StreamExecutionEnvironment.getExecutionEnvironment //读取数据 val stream = streamEnv.
hive配置 APACHE HIVEApacheHive™数据仓库软件可以使用sql方便地读取、写入和管理驻留在分布式存储中的大型数据集。结构可以投影到已经存储的数据上。提供了一个命令行工具和JDBC驱动程序,将用户连接到Hive。这个ApacheHive™数据仓库软件可以方便地读取、写入和管理分布存储中的大型数据集,并使用SQL语法进行查询。本地模式需要安装jdk至少1.7或更高版本的首先解压安装包到你放置的目录 $ tar -xzvf hive-x.y.z.tar.gz设置环境变量HIVE_HOME
服务器之间的免密配置 免密配置参考官网文档 https://hadoop.apache.org/docs/r3.2.1/hadoop-project-dist/hadoop-common/SingleCluster.html1.在每台服务器上获得公钥和秘钥 $ ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa2.查看公钥追加到authorized_keys $ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys3.修改文件权
HADOOP框架组成 hadoop框架 hadoop 框架的组成:MapReduce (计算) Yarn(资源调度)Hdfs(数据存储) Common(辅助工具)。一 , HDFS架构概述1)NameNode(nn):存储文件的元数据,如文件名,文件目录结构,文件属性(生成时间、副本数、文件权限),以及每个文件的块列表和块所在的DataNode等2)DataNode(dn):在本地文件系统存储文件块数据,以及块数据的校验和。3)Secondary NameNode(2nn):用来监控HDFS状态的辅助后台程序,每隔
InputFormat切片 **处理数据时怎么完成切片的?**inpt -> inputFormat -> map ->shuffle -> reduce -> outputformat -> 本地文件默认私用的是TextInputFormatgetSplits():切片方法isSplitable(job, path):判断文件是否支持切片,根据文件路径获取压缩格式,如果支持切片返回true,如果文件不是压缩文件,则直接返回truefile.getBlockSize();获取块大小
job提交流程步骤 job提交流程步骤waitForCompletion 提交job 任务的入口方法*if(state == JobState.DEFINE)判断任务是否处于定义状态 submit(); ensureState(JobState.DEFINE); //再次确认任务状态(不是DEFINE状态则抛出异常) setUseNewAPI();判断当前是走新的api还是旧的api connect(); 实例化cluster (明确mr运行在本地还是yarn) submitJ