wzy0623的专栏

数据库、数据仓库、大数据

排序:
默认
按更新时间
按访问量

MADlib——基于SQL的数据挖掘解决方案(19)——回归之聚类方差

        Clustered Variance模块调整聚类的标准误。例如,将一个数据集合复制100次,不应该增加参数估计的精度,但是在符合独立同分布假设(Independent Identically Distributed,IID)下执行这个过程实际上会提高精度。另一个例子是在教育经济学的...

2018-02-08 13:45:39

阅读数:232

评论数:0

MADlib——基于SQL的数据挖掘解决方案(18)——回归之稳健方差

Robust Variance模块中的函数用于计算线性回归、逻辑回归、多类逻辑回归和Cox比例风险回归的稳健方差(Huber-White估计)。它们可用于计算具有潜在噪声异常值的数据集中数据的差异。此处实现的Huber-White与R模块“sandwich”中的“HC0”三明治操作完全相同。   ...

2018-02-07 14:56:36

阅读数:236

评论数:0

MADlib——基于SQL的数据挖掘解决方案(17)——回归之Cox比例风险回归

一、Cox比例风险回归简介        Cox比例风险回归模型(Cox’s proportional hazards regression model),简称Cox回归模型,由英国统计学家D.R.Cox于1972年提出,主要用于肿瘤和其它慢性病的预后分析,也可用于队列研究的病因探索。 1.  基...

2018-02-06 11:39:18

阅读数:387

评论数:0

MADlib——基于SQL的数据挖掘解决方案(16)——回归之弹性网络回归

一、弹性网络回归简介        要想理解弹性网络(Elastic Net)回归,正则化是必须要首先知道的,其次是岭回归和Lasso回归,知道了这些,弹性网络回归自然也就明白了。 1.  正则化        假设利用最小二乘法来做线性回归,最小二乘法回归成功的条件是:        即上面这个...

2018-02-05 16:32:17

阅读数:237

评论数:0

MADlib——基于SQL的数据挖掘解决方案(15)——回归之序数回归

上篇介绍的多类回归,因变量的多个分类是无序的,即所谓的定类数据。还有一种分类数据,其类别存在大小顺序,即定序数据。这两类逻辑回归的原理是不同的。本篇介绍MADlib的序数回归模型。 一、序数回归简介        在统计学中,序数回归(Ordinal Regression,也称为“序数分类”)是一...

2018-02-02 13:42:51

阅读数:287

评论数:0

MADlib——基于SQL的数据挖掘解决方案(14)——回归之多类回归

一、多类回归简介1. 基本介绍        如上篇所述,逻辑回归比较常用的是因变量为二分类的情况,这也是比较简单的一种形式。但在现实中,因变量的分类有时候多于两类,如疗效可能是“无效”“显效”“痊愈”三类,当然可以把其中两类进行合并,然后仍然按照二分类逻辑回归进行分析,但是合并的弊端是显而易见的...

2018-02-01 14:15:21

阅读数:197

评论数:0

MADlib——基于SQL的数据挖掘解决方案(13)——回归之逻辑回归

一、逻辑回归简介        在回归分析中,因变量 y 可能有两种情形:(1)y 是一个定量的变量,这时就用通常的回归函数对 y 进行回归;(2)y 是一个定性的变量,比如y=0或1,这时就不能用通常的回归函数进行回归,而是使用所谓的逻辑回归(Logistic Regression)。逻辑回归方...

2018-01-31 15:09:30

阅读数:297

评论数:0

MADlib——基于SQL的数据挖掘解决方案(12)——回归之广义线性模型

一、广义线性模型简介        在一些实际问题中,变量间的关系并不都是线性的,这种情况就应该用曲线去进行拟合。用曲线拟合数据首先要解决的问题是回归方程中的参数如何估计。下面以一元非线性回归为例,讨论解决这一问题的基本思路。        对于曲线回归建模的非线性目标函数,通过某种数学变换,使之...

2018-01-30 14:38:44

阅读数:236

评论数:0

MADlib——基于SQL的数据挖掘解决方案(11)——回归之线性回归

一、回归方法简介        事物之间的关系可以抽象为变量之间的关系。变量之间的关系可以分为两类:一类叫确定关系,也叫函数关系,其特征是:一个变量随着其它变量的确定而确定。另一类关系叫相关关系,变量之间的关系很难用一种精确的方法表示出来。例如,通常人的年龄越大血压越高,但人的年龄和血压之间没有确...

2018-01-29 16:21:35

阅读数:372

评论数:0

MADlib——基于SQL的数据挖掘解决方案(10)——数据探索之主成分分析

数据挖掘中经常会遇到多个变量的问题,而且在多数情况下,多个变量之间常常存在一定的相关性。例如,网站的“浏览量”和“访客数”往往具有较强的相关关系,而电商应用中的“下单数”和“成交数”也具有较强的相关关系。这里的相关关系可以直观理解为当浏览量较高(或较低)时,应该很大程度上认为访客数也较高(或较低)...

2018-01-25 14:55:40

阅读数:648

评论数:0

一个有趣的时间段重叠问题

一、问题描述        某一直播业务记录了如下格式的用户进出直播间日志数据: roomid | userid | s | e --------+--------+---------------------+-------...

2018-01-24 17:09:55

阅读数:565

评论数:0

MADlib——基于SQL的数据挖掘解决方案(9)——数据探索之概率统计

样本是随机变量,统计量作为样本的函数自然也是随机变量。当用它们去推断总体时,有多大的可靠性与统计量的概率分布有关。本篇学习概率统计的基本知识,以及在此基础上的统计推论。MADlib提供了概率函数和统计推论两个模块,分别用于实现概率和假设检验相关的函数。一、概率1.  概率的定义        我们...

2018-01-17 17:49:09

阅读数:455

评论数:0

MADlib——基于SQL的数据挖掘解决方案(8)——数据探索之描述性统计

对数据进行统计是从定量的角度去探索数据,是最基本的数据探索方式,其主要目的是了解数据从统计学上反映的量的特征,以便我们更好地认识这些将要被挖掘的数据。        我们先要清楚两个关于统计学的基本概念:总体和样本。统计的总体是人们研究对象的全体,又称母体,如工厂一天生产的全部产品。总体中的每一个...

2018-01-16 13:11:44

阅读数:425

评论数:0

MADlib——基于SQL的数据挖掘解决方案(7)——数据转换之其它转换

本篇介绍MADlib提供的的另外三个常用数据转换方法,即透视表、分类变量编码和词干提取。透视表最主要的用途是行列转置,常被用于报表需求。MADlib的分类变量编码可以理解为一种特殊的单列变多列的数据转换,对每个类别值新增为一列,列的取值是0或1,表示行对象是否属于该类别。词干提取则用于提取英文单词...

2018-01-09 09:57:10

阅读数:353

评论数:0

MADlib——基于SQL的数据挖掘解决方案(6)——数据转换之矩阵分解

矩阵分解(Matrix Factorization)简单说就是将原始矩阵拆解为数个矩阵的乘积。在一些大型矩阵计算中,其计算量大,化简繁杂,使得计算非常复杂。如果运用矩阵分解,将大型矩阵分解成简单矩阵的乘积形式,则可大大降低计算的难度以及计算量。这就是矩阵分解的主要目的。而且,对于矩阵的秩的问题,奇...

2018-01-04 17:30:41

阅读数:743

评论数:3

MADlib——基于SQL的数据挖掘解决方案(5)——数据转换之邻近度

MADlib的线性代数模块(linalg module)包括基本线性代数操作的实用函数,其中包括多种范式、距离、相似度、向量均值、矩阵聚合等函数。本篇先从讨论相似性和相异性的基本概念,然后对照概念说明MADlib的线性代数函数,并用简单示例描述这些函数的用法。一、邻近度的度量        相似性...

2017-12-29 18:45:57

阅读数:420

评论数:0

MADlib——基于SQL的数据挖掘解决方案(4)——数据类型之矩阵

矩阵可以用来表示数据集,描述数据集上的变换,是MADlib中数据的基本格式,通常使用二维数组数据类型存储。MADlib中的向量是一维数组,可看作是矩阵的一种特殊形式。MADlib的矩阵运算模块(matrix_ops)实现SQL中的矩阵操作。本篇介绍矩阵的概念,说明MADlib矩阵运算相关函数,并举...

2017-12-26 17:31:25

阅读数:376

评论数:0

MADlib——基于SQL的数据挖掘解决方案(3)——数据类型之向量

通常数据挖掘操作的数据集可以看作数据对象的集合。数据对象有时也叫做记录、点、向量、模式、事件、案例、样本、观测或实体。数据对象用一组刻画对象基本特征(如物体质量或事件发生的时间)的属性描述。属性有时也叫做变量、特性、字段、特征或维。而在数学上,向量和矩阵可以用来表示数据对象及其属性。       ...

2017-12-22 15:56:56

阅读数:521

评论数:0

MADlib——基于SQL的数据挖掘解决方案(2)——MADlib基础

一、MADlib简介        MADlib是Pivotal公司与伯克利大学合作开发的一个开源机器学习库,提供了多种数据转换、数据探索、统计、数据挖掘和机器学习方法,使用它能够简易地对结构化数据进行分析和挖掘。用户可以非常方便地将MADlib加载到数据库中,扩展数据库的分析功能。2015年7月...

2017-12-19 17:22:04

阅读数:1401

评论数:0

MADlib——基于SQL的数据挖掘解决方案(1)——数据挖掘入门

一、什么是数据挖掘        数据挖掘(Data Mining),也叫数据开采、数据采掘等,是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,自动提取隐含在其中的、人们事先不知道的,但又是潜在有用的信息的过程。这些信息的表现形式为规则、概念、规律及模式等。        从上述定义...

2017-12-19 11:09:30

阅读数:4078

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭