自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

你的世界是你创造的结果

把我所了解的、知道的分享给你![关注链接:http://blog.itpub.net/26736162 、https://www.cnblogs.com/clsn]

  • 博客(23)
  • 资源 (17)
  • 收藏
  • 关注

原创 Mysql数据仓库-Infobright

0. 概述infobright是开源的MySQL数据仓库解决方案,引入了列存储方案,高强度的数据压缩,优化的统计计算。1infobright 是基于mysql的,但不装mysql亦可,因为它本身就自带了一个。mysql可以粗分为逻辑层和物理存储引擎,infobright主要实现的就是一个存储引擎,但因为它自身存储逻辑跟关系型数据库根本不同,所以,它不能像InnoDB那样直接作为插件挂接到...

2020-04-28 15:14:14 1085

原创 Oracle AWR Report Generate

打开SqlPlus CLI(Windows系统下演示实例)AWR(Automatic Workload Repository) Report生成示例AWR(Automatic Workload Repository) Report生成步骤SQL*Plus: Release 11.2.0.1.0 Production on 星期三 4月 22 19:09:43 2020Copyrig...

2020-04-22 19:45:37 201

原创 第一份工作中常使用软件工具归纳整理(20200421)

工作中常使用软件工具归纳整理辅助工具:Everthing :快速定位文件目录。FastStone Capture :截网页长图。OneNote 2016数据库客户端:PL/SQL :简单快捷;Toad for Oracle :功能居多DBeaver :开源多选择。ETL工具:PDI(Kettle):开源ETL工具。(Spoon7.1&Spoon9.0)报表...

2020-04-21 18:03:28 254

原创 大数据时代的数据特点与大数据时代处理数据理念的改变

1、大数据时代的数据特点 (4V)1.1 规模性(Volume):即大数据具有相当的规模,其数据量非常巨大。数据的数量级别可划分为B 、KB 、MB 、GB 、TB 、PB 、EB 、ZB 等,而数据的数量级别为PB 级别的才能称得上是大数据。1.2 多样性(Variety):即大数据的数据类型呈多样性。数据类型繁多,不仅包括结构化数据,也包括非结构化数据和半结构化数据。1.3 高速性(Ve...

2020-04-20 17:43:49 3817

原创 SAP BusinessObjects BI平台开发流程相关总结概述与介绍

博文目录1、IDT(信息设计工具)1.1 项目同步1.2 创建一个关系Universe1.2.1 创建本地项目1.2.2 创建关系连接1.2.3 创建数据基础1.2.4 创建业务层1.2.5 本地发布Universe1.3 创建一个OLAP连接1.3.1 创建本地项目1.3.2 创建OLAP连接1.3.3 创建业务层/SAP HANA Business Layer1.3.4 本地发布Univers...

2020-04-20 17:36:50 1387

原创 About EDW时间维度表的建立参考(DWD_CALENDAR)

0. 维度表1. 创建表-- Create tablecreate table DWD_CALENDAR( site VARCHAR2(40), factory VARCHAR2(40), period_date DATE, period VARCHAR2(5), shif...

2020-04-16 18:08:00 372

原创 开源ETL工具Kettle(PDI)开发使用全指导(持续更新...最后更新时间20200416)

博文目录1. 安装部署1.1 下载解压1.2 Kettle运行基础环境2. Kettle初次使用1. 安装部署1.1 下载解压Data-Integration-kettle下载地址,打开网页,浏览找到Downloads处,下载最新稳定版本。下载之后进行解压到本地,复制data-integration目录路径可以选择性配置一下KETTLE_HOME,当然可以不配置,只要在data-integ...

2020-04-16 17:32:02 6783

原创 Cloudera Manager进行CDH生产环境集群配置及相关功能示例

目录主页主机角色Parcel配置-非默认值动态资源池静态服务池HDFSHiveImpalaKafkaSpark2YARNZooKeeperCloudera Manager Service主页主机角色ParcelParcel Setting配置-非默认值动态资源池静态服务池HDFSHiveImpalaKafkaSpark2YARNZooKe...

2020-04-16 13:15:54 704

原创 Linux 之split大文件切分与合并

如果有一个很大的文件,你想把其分割成一些小的文件,那么split这个命令就是干这件事的了。[root@bdpadmin spilt_test]# lltotal 20284-rw-r--r--. 1 root root 20766931 Apr 13 17:21 Python-3.5.5.tgz[root@bdpadmin spilt_test]# ls -l Python-3.5.5.t...

2020-04-13 17:33:41 441

原创 SQL中字段中有null值是的技巧使用

表定义时,

2020-04-13 14:25:38 470

原创 一条SQL语句执行的慢原因有哪些?

一条SQL执行的慢,效率有问题的话,我们一般可以将其分两种情况讨论:这条SQL大多数情况下正常,偶尔较慢或很慢。则原因可能如下:1.1 数据库在刷新脏页,例如Redo log写满了需要同步到磁盘;1.2 SQL语句执行过程中,遇到锁,如表锁、行锁。这条SQL一直执行的很慢,则有如下可能的原因:2.1 没用上索引:没有索引、条件中有计算、函数操作等导致无索引问题;2.2 数据库执行时走...

2020-04-13 14:10:51 259

原创 About Oracle SCN序列号相关

0、工作中用到SCN分析数据异常原因现象OLTP系统中业务数据在业务定义时间字段之后写入库中,当OLAP系统在按照业务时间做增量抽取时出现数据未取到异常:SELECT to_char(scn_to_timestamp(ora_rowscn),'yyyy/mm/dd hh24:mi:ss') AS 数据写入时间, to_char(t.trans_time,'yyyy/mm/dd hh24...

2020-04-13 11:41:28 149

原创 Cloudera Manager管理员用户(admin)密码重置

0. 问题描述无论什么情况导致Cloudera Manager的管理员用户由于密码登录异常,当需要重置admin密码时,就可以按照这篇文章逐步操作执行。1. 解决办法1.1 查看Cloudera Manager服务的数据库配置文件登录Cloudera Manager所在的服务器,查看/etc/cloudera-scm-server/db.properties配置,获取CM数据库的用户名和...

2020-04-13 10:38:00 6021 1

原创 Kettle构建ETL项目方案过程完全指导

博文目录0. Oracle基础环境准备创建表空间(参考)拓展表空间创建用户并进行授权(参考)授予用户使用表空间的权限1. 调度参数相关辅助表创建1.1 创建相关序列1.2 创建相关表2. ETL项目开发0. Oracle基础环境准备创建表空间(参考)# EDW_ETL_DAT 。创建时指定temporary表示创建临时表空间DROP [temporary] TABLESPACE EDW_E...

2020-04-10 17:40:35 955 2

原创 Linux 之history命令获取到的文件处理

Linux相关命令:> 、| 、tr 、sort 、uniq 、sed 等对文件处理。#文件处理(bash)PD000731_陈麒@IT-13 MINGW64 /d/CCPD-G8.6/Panda (master)$ history > history.txt#删除文本中数字--这里目的是删除行号PD000731_陈麒@IT-13 MINGW64 /d/CCPD-G8.6/P...

2020-04-10 13:39:40 683

原创 Linux 之awk命令获取指定列

这里介绍 linux ll、cat等命令以管道命令结合awk在结果中输出指定列的操作:#指定输出第一列和第九列$ ll | awk -F' ' '{print $1,$9}' #列之间是空格符$ ll | awk -F',' '{print $1,$9}' #列之间是逗号符#定输出最后一列$ ll | awk -F' ' '{print $NF}' #列之间是空格符$ ll | aw...

2020-04-10 12:08:09 13596

原创 DBeaver SQL客户端连接到Apache Kylin,进行数据查询和分析

0. DBeaver概览DBeaver它是一个通用的数据库管理工具和 SQL 客户端,支持 MySQL, PostgreSQL, Oracle, DB2, MSSQL, Sybase, Mimer, HSQLDB, Derby, 以及其他兼容 JDBC 的数据库。DBeaver 提供一个图形界面用来查看数据库结构、执行SQL查询和脚本,浏览和导出数据,处理BLOB/CLOB 数据,修改数据库结...

2020-04-09 18:02:07 1418

原创 大数据之CDH5.8.3集成安装Apache Kylin与探索使用

博文目录0. Kylin概览(官方)1. Kylin特性3. Kylin生态圈3. Kylin集成前环境准备4. 安装部署4.1 下载Kylin4.2 部署Kylin4.3 启动Kylin5. 实例测试0. Kylin概览(官方)Apache Kylin™是一个开源的、分布式的分析型数据仓库,提供Hadoop/Spark 之上的 SQL 查询接口及多维分析(OLAP)能力以支持超大规模数据,最...

2020-04-09 16:09:08 375

转载 在Oracle中,物理备份和逻辑备份分别是什么?

物理备份是指将数据库的所有物理文件完整拷贝到备份位置的一个过程。物理备份是所有物理文件的一个副本,例如,数据文件、控制文件、归档日志等。该副本能被存储在本地磁盘或磁带。物理备份是备份或恢复的基础,包括冷备份(非归档模式)和热备份(归档模式)。物理备份既可以在数据库打开的状态下进行也可在数据库关闭的状态下进行,但是逻辑备份和恢复则只能在数据库打开的状态下进行。逻辑备份是指使用工具exp或exp...

2020-04-08 14:01:25 1969

原创 解决YARN Container分配过于集中的问题

问题引入明明自己集群资源充足,YARN还是会将Spark的executor集中分派到个别的NodeManager?解决方案将YARN配置中的yarn.scheduler.fair.assignmultiple参数设为false;或者手动设定yarn.scheduler.fair.max.assign参数的值为一个较小的正数(如3或4)。方案说明如果assignMultiple(对应...

2020-04-08 11:25:50 986

原创 Windows任务管理器的打开方式

很多情况下当需要快速启动Windows任务管理器查看应用程序、进程、服务、性能、联网等情况时,并在Windows使用出现卡顿(或CPU占用过高、或内存消耗过大)时结束任务或进程时,可以使用一下方法打开Windows任务管理器进行任务处理。1. 快捷方式打开方法:三键组合:Ctrl+Shift+Esc ,这种方式最简便快捷;2. cmd中打开这种方式一般当你在远程一台Windows主机或...

2020-04-07 15:12:20 2347

原创 Apache Kafka集群管理工具CMAK(Cluster Manager for Apache Kafka)从安装启动到配置使用

博文目录0. 关于CMAK1. 安装部署1.1 安装要求1.1.1 Java JDK安装配置1.1.2 安装Scala程序构建工具Sbt1.1.3 CDH添加Kafka服务至集群步骤1.2 部署CMAK1.2.1 从源码安装1.2.2 Releases安装1.2.3 部署配置参考2. 启动服务0. 关于CMAKCluster Manager for Apache Kafka是雅虎开源应用于Ka...

2020-04-03 18:03:15 3697 1

原创 自动化调度工具Jenkins从安装配置到基本使用

博文目录0. Jenkins1. 功能特点2. 下载启动2.1 下载2.2 启动2.2.1 启动部署方式一2.2.2 启动部署方式二2.2.3 Jenkins服务自动开启和关闭脚本3. 服务配置0. JenkinsJenkins是一个开源软件项目,是基于Java开发的一种持续集成工具,用于监控持续重复的工作,旨在提供一个开放易用的软件平台,使软件的持续集成变成可能。11. 功能特点构建...

2020-04-02 11:53:36 1271

leverage-open-source-benefits-with-assurance-of-hitachi-overview.pdf

Pentaho提供了两个Kettle版本,一个是开源的社区版(CE);一个是企业版本(EE),是一个商用软件。 了解有关Pentaho Kettle与商业支持的Pentaho Enterprise Edition之间的区别的PDF文件。

2020-04-28

spilt_lcm.job.airgap.list1613011158574792136.lcmbiar-LF_ac

$ split -b 210m lcm.job.airgap.list1613011158574792136.lcmbiar spilt_lcm.job.airgap.list1613011158574792136.lcmbiar-LF_ $ cat spilt_lcm.job.airgap.list1613011158574792136.lcmbiar-LF_* > lcm.job.airgap.list1613011158574792136.lcmbiar

2020-04-21

spilt_lcm.job.airgap.list1613011158574792136.lcmbiar-LF_ab

$ split -b 210m lcm.job.airgap.list1613011158574792136.lcmbiar spilt_lcm.job.airgap.list1613011158574792136.lcmbiar-LF_ $ cat spilt_lcm.job.airgap.list1613011158574792136.lcmbiar-LF_* > lcm.job.airgap.list1613011158574792136.lcmbiar

2020-04-21

spilt_lcm.job.airgap.list1613011158574792136.lcmbiar-LF_aa

$ split -b 210m lcm.job.airgap.list1613011158574792136.lcmbiar spilt_lcm.job.airgap.list1613011158574792136.lcmbiar-LF_ $ cat spilt_lcm.job.airgap.list1613011158574792136.lcmbiar-LF_* > lcm.job.airgap.list1613011158574792136.lcmbiar

2020-04-21

Impala A Modern, Open-Source SQL Engine for Hadoop.pdf

Impala A Modern, Open-Source SQL Engine for Hadoop

2020-04-21

Spilt_VDN设备预测方案实现培训.zip-LF_ab

文件切分 $ split -b 200m VDN设备预测方案实现培训.zip

2020-04-21

Spilt_VDN设备预测方案实现培训.zip-LF_aa

文件切分 $ split -b 200m VDN设备预测方案实现培训.zip Spilt_VDN设备预测方案实现培训.zip-LF_ 文件合并 $ cat Spilt_VDN设备预测方案实现培训.zip-LF_* > VDN设备预测方案实现培训.zip

2020-04-21

sbo42sp6_bip_admin_zh_CN.pdf

SAP BO 42sp6 管理员用户参考使用指南中文文档(sbo42sp6_bip_admin_zh_CN.pdf)。

2020-04-20

EDW CMC(中央管理控制台).wrf

中央管理控制台(CMC)是一款基于 Web 的工具,用于执行大部分日常管理任务,其中包括用户管理、内容管理和服务器管理。

2020-04-20

IDT_Training.wrf

 IDT 大多使用于接外系统数据,也就是非SAP 系统数据库。虽然SAP BW 里有数仓概念,接外部系统的视图。集中在使用建模,query ,再通过BO来展示。可是有些我们需要直连数据库,取一两张表相对的字段。这样变化比较快。HANA 与 IDT 需要更好搭配。有时候大多连外部数据库做简单测试时步骤。

2020-04-20

apache_hbase_reference_guide.pdf

Apache HBase™是Hadoop数据库,这是一个分布式,可伸缩的大数据存储。当您需要对大数据进行随机,实时的读/写访问时,请使用Apache HBase™。该项目的目标是在商品硬件群集上托管超大型表-数十亿行X数百万列。Apache HBase是一个开放源代码,分布式,版本化,非关系数据库,其模仿了Google的Bigtable: Chang等人的《结构化数据的分布式存储系统》。正如Bigtable利用Google文件系统提供的分布式数据存储一样,Apache HBase在Hadoop和HDFS之上提供类似于Bigtable的功能。

2020-04-09

EDW-(DM数据仓库数据建模)模型设计.pptx

数据仓库(DW)概念的创始人W. H.Inmon对数据仓库下了这样的定义:“数据仓库是一个面向主题的、集成的、非易失的且随时间变化的数据集合,用来支持管理人员的决策。”数据仓库将大量用于事物处理的传统数据库数据进行清理、抽取和转换,使原始数据发生了质的变化,转化为适合分析的导出型数据,并按照决策主题的需要进行重新组织。 [1]

2020-03-27

SPC-统计过程控制.PPT

统计过程控制(Statistical Process Control)是一种借助数理统计方法的过程控制工具。它对生产过程进行分析评价,根据反馈信息及时发现系统性因素出现的征兆,并采取措施消除其影响,使过程维持在仅受随机性因素影响的受控状态,以达到控制质量的目的。

2020-03-25

Apache impala-3.2 Guide.pdf

Impala是Cloudera公司主导开发的新型查询系统,它提供SQL语义,能查询存储在Hadoop的HDFS和HBase中的PB级大数据。已有的Hive系统虽然也提供了SQL语义,但由于Hive底层执行使用的是MapReduce引擎,仍然是一个批处理过程,难以满足查询的交互性。相比之下,Impala的最大特点也是最大卖点就是它的快速。 [1]

2020-03-25

spc指标公式.docx

统计过程控制(Statistical Process Control)是一种借助数理统计方法的过程控制工具。它对生产过程进行分析评价,根据反馈信息及时发现系统性因素出现的征兆,并采取措施消除其影响,使过程维持在仅受随机性因素影响的受控状态,以达到控制质量的目的。

2020-03-25

Power BI User Guide.pdf

“Power BI 是一种商业分析解决方案,可帮助对数据进行可视化、在组织中共享见解、或将见解嵌入应用或网站中。连接到数百个数据源,并使用实时仪表板和报表对让数据变得生动。”

2020-03-24

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除