自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

wzy0623的专栏

数据库、数据仓库、大数据

  • 博客(9)
  • 资源 (1)
  • 收藏
  • 关注

原创 MADlib——基于SQL的数据挖掘解决方案(13)——回归之逻辑回归

一、逻辑回归简介        在回归分析中,因变量 y 可能有两种情形:(1)y 是一个定量的变量,这时就用通常的回归函数对 y 进行回归;(2)y 是一个定性的变量,比如y=0或1,这时就不能用通常的回归函数进行回归,而是使用所谓的逻辑回归(Logistic Regression)。逻辑回归方法主要应用在研究某些现象发生的概率p ,比如股票涨跌、公司成败的概率。逻辑回归模型的基本形式为:  

2018-01-31 15:09:30 2793

原创 MADlib——基于SQL的数据挖掘解决方案(12)——回归之广义线性模型

一、广义线性模型简介        在一些实际问题中,变量间的关系并不都是线性的,这种情况就应该用曲线去进行拟合。用曲线拟合数据首先要解决的问题是回归方程中的参数如何估计。下面以一元非线性回归为例,讨论解决这一问题的基本思路。        对于曲线回归建模的非线性目标函数,通过某种数学变换,使之“线性化”为一元线性函数的形式,继而利用线性最小二乘估计的方法估计出参数a和b,用一元线性回归方程来描

2018-01-30 14:38:44 1427 1

原创 MADlib——基于SQL的数据挖掘解决方案(11)——回归之线性回归

一、回归方法简介        事物之间的关系可以抽象为变量之间的关系。变量之间的关系可以分为两类:一类叫确定关系,也叫函数关系,其特征是:一个变量随着其它变量的确定而确定。另一类关系叫相关关系,变量之间的关系很难用一种精确的方法表示出来。例如,通常人的年龄越大血压越高,但人的年龄和血压之间没有确定的数量关系,人的年龄与血压之间的关系就是相关关系。回归方法就是处理变量之间相关关系的一种数学方法...

2018-01-29 16:21:35 3849 3

原创 MADlib——基于SQL的数据挖掘解决方案(10)——数据探索之主成分分析

数据挖掘中经常会遇到多个变量的问题,而且在多数情况下,多个变量之间常常存在一定的相关性。例如,网站的“浏览量”和“访客数”往往具有较强的相关关系,而电商应用中的“下单数”和“成交数”也具有较强的相关关系。这里的相关关系可以直观理解为当浏览量较高(或较低)时,应该很大程度上认为访客数也较高(或较低)。在这个简单的例子中只有两个变量,当变量个数较多且变量之间存在复杂关系时,会显著增加分析问题的复杂性。

2018-01-25 14:55:40 2750

原创 一个有趣的时间段重叠问题

一、问题描述        某一直播业务记录了如下格式的用户进出直播间日志数据: roomid | userid | s | e --------+--------+---------------------+--------------------- 1 | 1 | 2018-01-01 01:01:

2018-01-24 17:09:55 4821

原创 MADlib——基于SQL的数据挖掘解决方案(9)——数据探索之概率统计

样本是随机变量,统计量作为样本的函数自然也是随机变量。当用它们去推断总体时,有多大的可靠性与统计量的概率分布有关。本篇学习概率统计的基本知识,以及在此基础上的统计推论。MADlib提供了概率函数和统计推论两个模块,分别用于实现概率和假设检验相关的函数。一、概率1.  概率的定义        我们从随机试验开始讨论。随机试验(random experiment)是测量其结果不确定的过程的试验,所有

2018-01-17 17:49:09 1798

原创 MADlib——基于SQL的数据挖掘解决方案(8)——数据探索之描述性统计

对数据进行统计是从定量的角度去探索数据,是最基本的数据探索方式,其主要目的是了解数据从统计学上反映的量的特征,以便我们更好地认识这些将要被挖掘的数据。        我们先要清楚两个关于统计学的基本概念:总体和样本。统计的总体是人们研究对象的全体,又称母体,如工厂一天生产的全部产品。总体中的每一个基本单位,如一件产品称为个体,个体的特征用一个变量,如x来表示。从总体中随机产生的若干个体的集合称为样

2018-01-16 13:11:44 2076

原创 MADlib——基于SQL的数据挖掘解决方案(7)——数据转换之其它转换

本篇介绍MADlib提供的的另外三个常用数据转换方法,即透视表、分类变量编码和词干提取。透视表最主要的用途是行列转置,常被用于报表需求。MADlib的分类变量编码可以理解为一种特殊的单列变多列的数据转换,对每个类别值新增为一列,列的取值是0或1,表示行对象是否属于该类别。词干提取则用于提取英文单词的词干。一、透视表        MADlib提供了一个名为pivot的函数,作为一个基础的数据汇总工

2018-01-09 09:57:10 1464

原创 MADlib——基于SQL的数据挖掘解决方案(6)——数据转换之矩阵分解

矩阵分解(Matrix Factorization)简单说就是将原始矩阵拆解为数个矩阵的乘积。在一些大型矩阵计算中,其计算量大,化简繁杂,使得计算非常复杂。如果运用矩阵分解,将大型矩阵分解成简单矩阵的乘积形式,则可大大降低计算的难度以及计算量。这就是矩阵分解的主要目的。而且,对于矩阵的秩的问题,奇异性问题,特征值问题,行列式问题等等,通过矩阵分解后都可以清晰地反映出来。另一方面,对于那些大型的数值

2018-01-04 17:30:41 2144 3

PD_导出模板.rtp

Powerdesigner 物理模型report模板,可用于生成数据字典Word文档。

2021-04-11

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除