wzy0623的专栏

数据库、数据仓库、大数据

排序:
默认
按更新时间
按访问量

MADlib——基于SQL的数据挖掘解决方案(3)——数据类型之向量

通常数据挖掘操作的数据集可以看作数据对象的集合。数据对象有时也叫做记录、点、向量、模式、事件、案例、样本、观测或实体。数据对象用一组刻画对象基本特征(如物体质量或事件发生的时间)的属性描述。属性有时也叫做变量、特性、字段、特征或维。而在数学上,向量和矩阵可以用来表示数据对象及其属性。       ...

2017-12-22 15:56:56

阅读数:550

评论数:0

MADlib——基于SQL的数据挖掘解决方案(2)——MADlib基础

一、MADlib简介        MADlib是Pivotal公司与伯克利大学合作开发的一个开源机器学习库,提供了多种数据转换、数据探索、统计、数据挖掘和机器学习方法,使用它能够简易地对结构化数据进行分析和挖掘。用户可以非常方便地将MADlib加载到数据库中,扩展数据库的分析功能。2015年7月...

2017-12-19 17:22:04

阅读数:1620

评论数:1

MADlib——基于SQL的数据挖掘解决方案(1)——数据挖掘入门

一、什么是数据挖掘        数据挖掘(Data Mining),也叫数据开采、数据采掘等,是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,自动提取隐含在其中的、人们事先不知道的,但又是潜在有用的信息的过程。这些信息的表现形式为规则、概念、规律及模式等。        从上述定义...

2017-12-19 11:09:30

阅读数:4358

评论数:0

HAWQ + MADlib 玩转数据挖掘之(十二)——模型评估之交叉验证

一、交叉验证概述        机器学习技术在应用之前使用“训练+检验”的模式,通常被称作“交叉验证”,如图1所示。图11. 预测模型的稳定性        让我们通过以下几幅图来理解这个问题:图2        此处我们试图找到尺寸(size)和价格(price)的关系。三个模型各自做了如下工作...

2017-08-29 11:03:57

阅读数:1035

评论数:0

HAWQ + MADlib 玩转数据挖掘之(十一)——分类方法之决策树

一、分类方法简介1. 分类的概念        数据挖掘中分类的目的是学会一个分类函数或分类模型(也常常被称作分类器),该模型能把数据库中的数据项映射到给定类别中的某一个。分类可描述如下:输入数据,或称训练集(Training Set),是由一条条数据库记录(Record)组成的。每一条记录包含若...

2017-08-24 16:50:18

阅读数:773

评论数:0

HAWQ + MADlib 玩转数据挖掘之(十)——图算法之单源最短路径

一、图算法简介1. 定义        在计算中,常将运算方程或实验结果绘制成由若干有标尺的线条所组成的图,称为“算图”。计算时根据已知条件,从有关线段上一点开始,连结相关线段上的点,连线与表示所求量线段的交点即为答案。        无向图、有向图和网络能运用很多常用的图算法。这些算法包括:各种...

2017-08-17 15:35:53

阅读数:605

评论数:0

HAWQ + MADlib 玩转数据挖掘之(九)——回归方法之Logistic回归

一、回归方法简介        回归指研究一组随机变量(Y1 ,Y2 ,…,Yi)和另一组(X1,X2,…,Xk)变量之间关系的统计分析方法,又称多重回归分析。通常前者叫做因变量,后者叫做自变量。        事物之间的关系可以抽象为变量之间的关系。变量之间的关系可以分为两类:一类叫确定关系,也...

2017-08-16 16:32:01

阅读数:636

评论数:0

HAWQ + MADlib 玩转数据挖掘之(八)——聚类方法之k-means

一、聚类方法简介        所谓“物以类聚,人以群分”,其核心思想就是聚类。通过聚类,人们能意识到密集和稀疏的区域,发现全局的分布模式,以及数据属性之间有趣的相互关系。        在实践中,聚类往往为分类服务,即先通过聚类来判断事务的合适类别,然后再利用分类技术对新的样本进行分类。分类与聚...

2017-08-14 22:55:00

阅读数:995

评论数:0

HAWQ + MADlib 玩转数据挖掘之(七)——关联规则方法之Apriori算法

一、关联规则简介        关联规则挖掘的目标是发现数据项集之间的关联关系,是数据挖据中一个重要的课题。关联规则最初是针对购物篮分析(Market Basket Analysis)问题提出的。假设超市经理想更多地了解顾客的购物习惯,特别是想知道,哪些商品顾客可能会在一次购物时同时购买?为回答该...

2017-08-09 11:27:37

阅读数:682

评论数:0

HAWQ + MADlib 玩转数据挖掘之(六)——主成分分析与主成分投影

一、主成分分析(Principal Component Analysis,PCA)简介        在数据挖掘中经常会遇到多个变量的问题,而且在多数情况下,多个变量之间常常存在一定的相关性。例如,网站的“浏览量”和“访客数”往往具有较强的相关关系,而电商应用中的“下单数”和“成交数”也具有较强的...

2017-08-03 17:28:03

阅读数:1175

评论数:0

HAWQ + MADlib 玩转数据挖掘之(五)——奇异值分解实现推荐算法

一、奇异值分解简介        奇异值分解简称SVD(singular value decomposition),可以理解为:将一个比较复杂的矩阵用更小更简单的三个子矩阵的相乘来表示,这三个小矩阵描述了大矩阵重要的特性。SVD的用处有很多,比如:LSA(隐性语义分析)、推荐系统、数据降维、信号处...

2017-07-20 10:01:02

阅读数:3404

评论数:3

HAWQ + MADlib 玩转数据挖掘之(四)——低秩矩阵分解实现推荐算法

一、潜在因子(Latent Factor)推荐算法        本算法整理自知乎上的回答@nick lee。应用领域:“网易云音乐歌单个性化推荐”、“豆瓣电台音乐推荐”等。        这种算法是在NetFlix(没错,就是用大数据捧火《纸牌屋》的那家公司)的推荐算法竞赛中获奖的算法,最早被应...

2017-07-20 09:09:50

阅读数:1588

评论数:0

HAWQ + MADlib 玩转数据挖掘之(三)——向量

一、定义        这里不讨论向量严格的数学定义。在Madlib中,可以把向量简单理解为矩阵。矩阵是Madlib中数据的基本格式,当矩阵只有一维时,就是向量,1行n列的矩阵称为行向量,m行1列的矩阵称为列向量,1行1列的矩阵称为标量。二、线性代数函数        Madlib的线性代数模块(...

2017-07-19 18:48:47

阅读数:886

评论数:0

HAWQ + MADlib 玩转数据挖掘之(二)——矩阵

矩阵是Madlib中数据的基本格式,通常是二维的。在Madlib中,数组的概念与向量类似,数组通常是一维的,是矩阵的一种特殊形式。一、矩阵表示        MADlib为矩阵提供了两种表示形式:稠密和稀疏。1. 稠密        矩阵被表示为一维数组的分布式集合,例如3x10的矩阵如下表: r...

2017-07-19 18:03:32

阅读数:762

评论数:0

HAWQ + MADlib 玩转数据挖掘之(一)——安装

一、MADlib简介        MADlib是Pivotal公司与伯克利大学合作的一个开源机器学习库,提供了精确的数据并行实现、统计和机器学习方法对结构化和非结构化数据进行分析,主要目的是扩展数据库的分析能力,可以非常方便的加载到数据库中, 扩展数据库的分析功能,2015年7月MADlib成为...

2017-06-30 16:58:09

阅读数:4775

评论数:3

利用Flume将MySQL表数据准实时抽取到HDFS

一、为什么要用到Flume        在以前搭建HAWQ数据仓库实验环境时,我使用Sqoop抽取从MySQL数据库增量抽取数据到HDFS,然后用HAWQ的外部表进行访问。这种方式只需要很少量的配置即可完成数据抽取任务,但缺点同样明显,那就是实时性。Sqoop使用MapReduce读写数据,而M...

2017-06-23 17:25:34

阅读数:9514

评论数:5

HAWQ中的行列转置

行列转置是ETL或报表系统中的常见需求,HAWQ提供的内建函数和过程语言编程功能,使行列转置操作的实现变得更为简单。

2017-06-21 17:11:26

阅读数:835

评论数:0

洪荒之力已无,追求之心尚在

一、致谢        我的第一本习作《Hadoop构建数据仓库实践》出版了。感谢CSDN博客提供的技术学习平台,能让我把自己平时积累的技术心得加以总结,形成一篇篇博文与人分享。正因如此才有了将博文整理成书的机会。二、写书动因        技术的发展实在太快了。就拿数据仓库来说,从Bill In...

2017-06-16 16:03:44

阅读数:4636

评论数:16

HAWQ取代传统数仓实践(十九)——OLAP

一、OLAP简介1. 概念        OLAP是英文是On-Line Analytical Processing的缩写,意为联机分析处理。此概念最早由关系数据库之父E.F.Codd于1993年提出。OLAP允许以一种称为多维数据集的结构,访问业务数据源经过聚合和组织整理后的数据。以此为标准,O...

2017-06-14 13:37:15

阅读数:4003

评论数:0

HAWQ取代传统数仓实践(十八)——层次维度

一、层次维度简介        大多数维度都具有一个或多个层次。例如,示例数据仓库中的日期维度就有一个四级层次:年、季度、月和日。这些级别用date_dim表里的列表示。日期维度是一个单路径层次,因为除了年-季度-月-日这条路径外,它没有任何其它层次。为了识别数据仓库里一个维度的层次,首先要理解维...

2017-06-12 17:34:36

阅读数:2474

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭