自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 收藏
  • 关注

原创 【GreenPlum 运维】

GreenPlum 日常运维, 包括系统任务, 日常监控, 辅助运维等。持续更新中

2022-12-28 12:56:17 315 2

原创 【GreenPlum Bug】查询分区表时对时间字段使用or关键字过滤时的Bug问题

GreenPlum查询bug, 查询分区表时对时间字段使用or关键字过滤时, 会触发数据库bug

2022-10-20 15:56:42 246

原创 大数据常用命令大全

Linux 常用命令目录树[root@hd101 /]# find . -print 2>/dev/null|awk '!/\.$/ {for (i=1;i<NF;i++){d=length($i);if ( d < 5 && i != 1 )d=5;printf("%"d"s","|")}print "---"$NF}' FS='/'文本批量替换[root@hd101 /]# grep '=srcTxt' -rl --include="target.log" .

2022-05-02 17:09:48 2862

原创 Linux命令之du

File: coreutils.info, Node: du invocation, Next: stat invocation, Prev: df invocation, Up: Disk usage14.2 'du': Estimate file space usage===================================='du' reports the amount of disk space used by the specified files andfor

2022-05-02 13:42:44 825

原创 Windows环境安装AndroidViewClient

AndroidViewClient是用Python编写的Android应用程序自动测试框架, 提供更好级别的操作和获取任何时刻展现在设备或者模拟器上的View树并且在它上面执行操作的能力。其底层是通过调用adb(Android Debug Bridge)命令实现对Android设备的控制。它可以 :自动驱动Android应用程序生成可重复使用的脚本提供基于视图的独立于设备的UI交互使用“逻辑”屏幕比较(基于UI自动机层次结构)而不是图像比较(避免时间或数据更改等无关细节问题)支持在多个设备上运行

2022-05-02 11:47:26 775

原创 Maven导入依赖时的SSL证书校验问题PKIX path building failed

问题 :Could not transfer artifact org.apache.axis:axis:pom:1.4 from/to aliyun (http://maven.aliyun.com/nexus/content/groups/public/): PKIX path building failed: sun.security.provider.certpath.SunCertPathBuilderException: unable to find valid certification p

2020-06-21 17:56:28 3482 1

原创 Spark - 运行架构&原理

Spark运行架构运行架构Spark框架的核心是一个计算引擎,整体来说,它采用了标准 master-slave 的结构。如下图所示,它展示了一个 Spark执行时的基本结构。图形中的Driver表示master,负责管理整个集群中的作业任务调度。图形中的Executor 则是 slave,负责实际执行任务。核心组件DriverSpark驱动器节点,用于执行Spark任务中的main方法,负责实际代码的执行工作。Driver在Spark作业执行时主要负责:将用户程序转化为作业(job)在Ex

2020-06-21 17:55:25 665

原创 Spark - 概述&模式部署

概述Spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。Spark Spark是一种由Scala语言开发的快速、通用、可扩展的大数据分析引擎 Spark Core中提供了Spark最基础与最核心的功能 Spark SQL是Spark用来操作结构化数据的组件。通过Spark SQL,用户可以使用SQL或者Apache Hive版本的SQL方言(HQL)来查询数据。 Spark Streaming是Spark平台上针对实时数据进行流式计算的组件,提供了丰富的处理数据流的API。 S

2020-06-21 17:55:13 429

原创 Hadoop相关脚本 - 仅供参考

eagle脚本#!/bin/bashif [ $# -lt 1 ] then echo "No Args Input Error !" exitficase $1 in"start") /opt/module/eagle/bin/ke.sh start;;"stop") /opt/module/eagle/bin/ke.sh stop;;esacflume.servers脚本#!/bin/bashif [ $# -lt 1 ] then echo

2020-06-21 17:54:56 236

原创 Scala

概述Scala (Scalable Language, 可伸缩语言) , 从计算机的角度来讲, Scala是一门完整的可伸缩的完全面向对象的软件编程语言。之所以说它可伸缩, 是因为这门语言体现了面向对象, 函数式编程等多种不同的语言范式, 且融合了不同语言新的特性, 同时它也是一门强类型和静态类型的语言。在大数据领域中, 其开发效率更高, 更直观, 更容易理解。Scala编程语言是由联邦理工学院洛桑(EPFL)的Martin Odersky于2003年设计研发的.官网 : https://www.sc

2020-06-21 17:54:26 640

原创 Hadoop-MapReduce

概述MapReduce是一个分布式运算程序的编程框架, 是用户开发 “基于Hadoop的数据分析应用” 的核心框架。其核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序, 并发运行在一个Hadoop集群上。优点易于编程良好的扩展性高容错性适合PB级以上海量数据的离线处理缺点不擅长实时计算不擅长流式计算不擅长DAG (有向图) 计算MapReduce核心思想需求:统计其中每一个单词出现的总次数 (查询结果:a-p一个文件,q-z一个文件)1)分布式的运算

2020-06-21 17:53:28 151

原创 Hadoop-HDFS

概述 优点 缺点 组成架构 文件块大小HDFS的Shell操作HDFS客户端操作 HDFS文件下载 HDFS文件夹删除 HDFS文件名更改/移动 HDFS文件详情查看 HDFS文件和文件夹判断HDFS的数据流 HDFS写数据流程 网络拓扑 - 节点距离计算 机架感知 HDFS的读数据流程NameNode和SecondaryNameNode工作机制 集群安全模式 NameNode多目录配置DataNode工作机制 校验和 服役新DataNode节点 退役旧Da

2020-06-21 17:53:18 237

原创 Hadoop

前言Hadoop是一个由Apache基金会所开发的分布式系统基础架构主要解决海量数据的存储和分析计算问题Hadoop创始人 – Doug Cutting三大发行版本Apache最基础、最原始的版本官网地址:http://hadoop.apache.org/releases.html下载地址:https://archive.apache.org/dist/hadoop/common/Cloudera内部集成了很多大数据框架, 对应产品CDH。官网地址:https://www.clou

2020-06-21 17:52:58 194

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除