自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(20)
  • 资源 (5)
  • 收藏
  • 关注

原创 分类和回归的概念

回归是对真实值的一种逼近预测。分类问题是用于将事物打上一个标签,通常结果为离散值。例如:判断一幅图片上的动物是一只猫还是一只狗,分类通常是建立在回归之上,分类的最后一层通常要使用softmax函数进行判断其所属类别。 分类并没有逼近的概念,最终正确结果只有一个,错误的就是错误的,不会有相近的概念。...

2021-10-24 17:01:46 314

原创 HIVE和SPARK的区别

spark hive区别一:Hive本质是是什么1:hive是分布式又是数据仓库,同时又是查询引擎,Spark SQL只是取代的HIVE的查询引擎这一部分,企业一般使用Hive+spark SQL进行开发2:hive的主要工作 1> 把HQL翻译长map-reduce的代码,并且有可能产生很多mapreduce的job 2> 把生产的Mapreduce代码及相关资源打...

2020-05-02 20:17:05 25288

原创 Oraclesql的优化

oracle提高查询效率的34条方法1、选择最有效率的表名顺序(只在基于规则的优化器中有效):  ORACLE的解析器按照从右到左的顺序处理FROM子句中的表名,FROM子句中写在最后的表(基础表 driving table)将被最先处理,在FROM子句中包含多个表的情况下,你必须选择记录条数最少的表作为基础表。如果有3个以上的表连接查询, 那就需要选择交叉表(intersection ...

2020-04-26 21:07:06 184

原创 存储过程的优化

Oracle存储过程的优化措施1、开发人员如果用到其他库的Table或View,务必在当前库中建立View来实现跨库操作,最好不要直接使用“user_name.table_name”。2、开发人员在提交前,必须已经分析过查询计划,做过自身的查询优化检查。3.SQL的使用规范:3.1尽量避免大事务操作,提高系统并发能力。3.2尽量避免反复访问同一张或几张表,尤其是数据量较大的表,可以考虑先根...

2020-04-19 21:41:44 803

原创 INSERT INTO SELECT 和 CREATE TABLE AS

INSERT INTO SELECT 和 CREATE TABLE AS SELECT 的区别常用数据初始化方法。寄居他乡简书作者2019-07-23 16:01打开App常用数据初始化方法1.INSERT INTO SELECT语句形式为:Insert into Table2(field1,field2,…) select value1,value2,… from Table1注意:(1)要求...

2020-04-19 21:27:23 305

原创 数据仓库-物理模型设计

数据仓库的物理模型就是数据仓库逻辑模型在物理系统中的实现模式。其中包括了逻辑模型中各种实体表的具体化,例如表的数据结构类型、索引策略、数据存放位置和数据存储分配等。在进行物理模型的设计实现时,所考虑的因素有:I/O存取时间、空间利用率及维护的代价。为确定数据仓库的物理模型,设计人员必须做这样几方面工作:首先要全面了解所选用的数据库管理系统,特别是存储结构和存取方法;其次了解数据环境、数据的使用频...

2020-04-08 11:31:03 1228

原创 集群 负载均衡 分布式的区别

集群:把同一个服务部署到多个服务器上,多个服务器构成一个服务群组,一般只有一个服务器上的服务处于活跃状态,当这个服务器上的服务挂掉或出了问题,就会调用别的服务器上的服务,是一种冗余技术。负载均衡:把同一个服务部署到多个服务器上,同时对外提供服务,当有请求时,通过负载均衡的策略把请求分发到对应的服务器上。负载均衡和集群的最大区别是:负载均衡是多个服务器上的服务同时对外提供服务,而集群是只有一个提供...

2020-04-07 12:45:22 381

原创 元数据解决方案

随着业务系统每年收集和使用的数据飞速增长,数据体量日趋增长,数据形态多样化且不统一,多种数据源之间的采集、传播和共享遇到困难。元数据管理作为大数据治理的核心,是有效管理这些数据的基础和前提,在信息化建设中发挥着重要的作用。如何理解、管理并发挥出元数据的价值,成为迫切的任务。一、什么是元数据  元数据(Metadata)是关于数据的数据。元数据是描述数据仓库内数据的结构和建立方法的数据。可将...

2020-03-27 11:54:41 871

原创 构建企业级数据仓库的五步法

一. 确定主题 即确定数据分析或前端展现的主题(例如:某年某月某地区的啤酒销售情况). 主题要体现出某一方面的各分析角度(维度)和统计数值型数据(量度)之间的关系, 确定主题时要综合考虑.二. 确定量度 确定主题后, 需要考虑分析的技术指标(例如: 年销售额等). 它们一般为数值型数据, 其中有些度量值不可以汇总; 有些可以汇总起来, 以便为分析者提供有用的信息. 量度是要统计的...

2020-03-25 19:36:21 306

原创 Hive面试题:hive有哪些udf函数,作用

Hive面试题:hive有哪些udf函数,作用UDF(user-defined function)作用于单个数据行,产生一个数据行作为输出。(数学函数,字符串函数)UDAF(用户定义聚集函数 User- Defined Aggregation Funcation):接收多个输入数据行,并产生一个输出数据行。(count,max)UDTF(表格生成函数 User-Defined Table F...

2020-03-24 10:52:44 613

原创 mapjoin的执行流程

mapjoin的执行流程

2020-03-08 20:42:41 490

原创 mapreduce解析执行sql流程

样例准备条件过滤sql:select * from student where sex=‘male’;mr:该操作属于比较简单的操作,直接在map阶段对数据进行过滤操作即可。分组统计sql:select class_name,count(*) from student group by class_name;...

2020-03-07 14:07:11 336

原创 kylin的cube的原理

Kylin基本原理及概念2019-01-24阅读 1K0“带你走进Apache Kylin的世界”Kylin版本:2.5.1前言膜拜大神,Kylin作为第一个由国人主导并贡献到Apache基金会的开源项目,堪称大数据分析界的“神兽”。所以我也是抓紧时间来学习Kylin,感受Kylin所带来的魅力。一、Kylin简介Kylin的出现就是为了解决大数据系统中TB级别数据的数据分析需求,它...

2020-03-07 11:29:52 1479

原创 数据仓库的星型模型和雪花模型

理解数据仓库中星型模型和雪花模型原创三劫散仙 最后发布于2017-07-06 18:32:27 阅读数 18910 收藏展开在数据仓库的建设中,一般都会围绕着星型模型和雪花模型来设计表关系或者结构。下面我们先来理解这两种模型的概念。(一)星型模型图示如下:星型模是一种多维的数据关系,它由一个事实表和一组维表组成。每个维表都有一个维作为主键,所有这些维的主键组合成事实表的主键。强调的是...

2020-03-07 11:10:22 1059

原创 面试那点事之白话叙说mapreduce计算模型和执行原理

白话叙说mapreduce计算模型和执行原理MapReduce是一种分布式计算模型、MR由两个阶段组成:Map和Reduce,一说到分阶段就有先有后,先执行map 在执行reduce。,map就是我们整个计算阶段的起始,reduce呢就是我们整个计算阶段的结束。从这个角度讲我们map的输入就是整个系统的输入,reduce的输出就是整个系统的输出 ,map的输出也就是reduce的输入 这个呢,...

2020-03-06 19:43:31 375

原创 数据倾斜

大数据----“数据倾斜”的问题大数据首席数据师一、Hadoop中的数据倾斜:什么是数据倾斜?(见下图)简单来说数据倾斜就是数据的key 的分化严重不均,造成一部分数据很多,一部分数据很少的局面。举个 word count 的入门例子: 它的map 阶段就是形成 (“aaa”,1)的形式,然后在reduce 阶段进行 value 相加,得出 “aaa” 出现的次数。若进行 word c...

2020-03-06 18:41:59 121

转载 数仓分层设计

数据仓库–通用的数据仓库分层方法0x00 概述数据分层是数据仓库设计中十分重要的一个环节,优秀的分层设计能够让整个数据体系更易理解和使用。而目前网络中大部分可以被检索到相关文章只是简单地提及数据分层的设计,或缺少明确而详细的说明,或缺少可落地实施的方案,或缺少具体的示例说明。因此,本文将指出一种通用的数据仓库分层方法,具体包含如下内容:介绍数据分层的作用提出一种通用的数据分层设计,以及分...

2020-02-27 13:47:13 530

转载 索引的本质

数据库(一)-------索引的本质、类型以及如何创建索引详解(基础)原创qq_36098284 最后发布于2018-04-07 17:59:41 阅读数 2053 收藏分类专栏: 数据库版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。本文链接:https://blog.csdn.net/qq_36098284/article/de...

2020-02-27 11:10:23 903 1

原创 OLAP和OLTP的区别

OLTP和OLAP主要区别有:1、基本含义不同:OLTP是传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,记录即时的增、删、改、查,比如在银行存取一笔款,就是一个事务交易。OLAP即联机分析处理,是数据仓库的核心部心,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。典型的应用就是复杂的动态报表系统。2、实时性要求不同:OLTP实时性要求高,OLTP 数据库旨在使事务应...

2020-02-18 11:30:21 387

原创 三范式

数据库三范式理解原创长青雨 最后发布于2019-03-19 21:05:20 阅读数 615 收藏展开一般来说的数据库三范式都是指的关系型数据库,范式指的就是规范的意思,三范式指的就是利用关系型数据库进行建表时候普遍需要遵循的三个规范(即1NF,2NF,3NF);1NF:建表时要保证列的原子性(即不可分割性);打个比方:电话这个字段有可能是座机,也有可能是手机,具有可分割性,所以不符...

2020-02-16 10:57:53 189

ssh开发项目

这是一个适合初学者学习学完ssh框架然后进一步实战的项目希望大家会喜欢

2014-03-21

电子商城系统ssh

基于框架ssh 开发的项目适合我们初学者学习,所以我想分享此资源,希望大家有用处。

2014-03-21

敏捷软件开发

敏捷软件开发是软件开发行业里面一本非常经典的书,对于开发人员有很好的开发思想上的影响

2014-03-16

java开发实战经典

这是一本很好的java语言入门书籍,主要一代码来说明问题,进步入门会很快

2014-03-15

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除