wzy0623的专栏

数据库、数据仓库、大数据

MADlib——基于SQL的数据挖掘解决方案(13)——回归之逻辑回归

一、逻辑回归简介        在回归分析中,因变量 y 可能有两种情形:(1)y 是一个定量的变量,这时就用通常的回归函数对 y 进行回归;(2)y 是一个定性的变量,比如y=0或1,这时就不能用通常的回归函数进行回归,而是使用所谓的逻辑回归(Logistic Regression)。逻辑回归方...

2018-01-31 15:09:30

阅读数 925

评论数 0

MADlib——基于SQL的数据挖掘解决方案(12)——回归之广义线性模型

一、广义线性模型简介        在一些实际问题中,变量间的关系并不都是线性的,这种情况就应该用曲线去进行拟合。用曲线拟合数据首先要解决的问题是回归方程中的参数如何估计。下面以一元非线性回归为例,讨论解决这一问题的基本思路。        对于曲线回归建模的非线性目标函数,通过某种数学变换,使之...

2018-01-30 14:38:44

阅读数 518

评论数 0

MADlib——基于SQL的数据挖掘解决方案(11)——回归之线性回归

一、回归方法简介         事物之间的关系可以抽象为变量之间的关系。变量之间的关系可以分为两类:一类叫确定关系,也叫函数关系,其特征是:一个变量随着其它变量的确定而确定。另一类关系叫相关关系,变量之间的关系很难用一种精确的方法表示出来。例如,通常人的年龄越大血压越高,但人的年龄和血压之间没...

2018-01-29 16:21:35

阅读数 1092

评论数 2

MADlib——基于SQL的数据挖掘解决方案(10)——数据探索之主成分分析

数据挖掘中经常会遇到多个变量的问题,而且在多数情况下,多个变量之间常常存在一定的相关性。例如,网站的“浏览量”和“访客数”往往具有较强的相关关系,而电商应用中的“下单数”和“成交数”也具有较强的相关关系。这里的相关关系可以直观理解为当浏览量较高(或较低)时,应该很大程度上认为访客数也较高(或较低)...

2018-01-25 14:55:40

阅读数 1556

评论数 0

一个有趣的时间段重叠问题

一、问题描述        某一直播业务记录了如下格式的用户进出直播间日志数据: roomid | userid | s | e --------+--------+---------------------+-------...

2018-01-24 17:09:55

阅读数 2177

评论数 0

MADlib——基于SQL的数据挖掘解决方案(9)——数据探索之概率统计

样本是随机变量,统计量作为样本的函数自然也是随机变量。当用它们去推断总体时,有多大的可靠性与统计量的概率分布有关。本篇学习概率统计的基本知识,以及在此基础上的统计推论。MADlib提供了概率函数和统计推论两个模块,分别用于实现概率和假设检验相关的函数。一、概率1.  概率的定义        我们...

2018-01-17 17:49:09

阅读数 826

评论数 0

MADlib——基于SQL的数据挖掘解决方案(8)——数据探索之描述性统计

对数据进行统计是从定量的角度去探索数据,是最基本的数据探索方式,其主要目的是了解数据从统计学上反映的量的特征,以便我们更好地认识这些将要被挖掘的数据。        我们先要清楚两个关于统计学的基本概念:总体和样本。统计的总体是人们研究对象的全体,又称母体,如工厂一天生产的全部产品。总体中的每一个...

2018-01-16 13:11:44

阅读数 914

评论数 0

MADlib——基于SQL的数据挖掘解决方案(7)——数据转换之其它转换

本篇介绍MADlib提供的的另外三个常用数据转换方法,即透视表、分类变量编码和词干提取。透视表最主要的用途是行列转置,常被用于报表需求。MADlib的分类变量编码可以理解为一种特殊的单列变多列的数据转换,对每个类别值新增为一列,列的取值是0或1,表示行对象是否属于该类别。词干提取则用于提取英文单词...

2018-01-09 09:57:10

阅读数 648

评论数 0

MADlib——基于SQL的数据挖掘解决方案(6)——数据转换之矩阵分解

矩阵分解(Matrix Factorization)简单说就是将原始矩阵拆解为数个矩阵的乘积。在一些大型矩阵计算中,其计算量大,化简繁杂,使得计算非常复杂。如果运用矩阵分解,将大型矩阵分解成简单矩阵的乘积形式,则可大大降低计算的难度以及计算量。这就是矩阵分解的主要目的。而且,对于矩阵的秩的问题,奇...

2018-01-04 17:30:41

阅读数 1117

评论数 3

提示
确定要删除当前文章?
取消 删除