自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

wzy0623的专栏

数据库、数据仓库、大数据

  • 博客(7)
  • 资源 (1)
  • 收藏
  • 关注

原创 HAWQ + MADlib 玩转数据挖掘之(十二)——模型评估之交叉验证

一、交叉验证概述        机器学习技术在应用之前使用“训练+检验”的模式,通常被称作“交叉验证”,如图1所示。图11. 预测模型的稳定性        让我们通过以下几幅图来理解这个问题:图2        此处我们试图找到尺寸(size)和价格(price)的关系。三个模型各自做了如下工作:第一个模型使用了线性等式。对于训练用的数据点,此模型有很大误差。这样的模型在初期排行榜和最终排行榜都

2017-08-29 11:03:57 1646

原创 HAWQ + MADlib 玩转数据挖掘之(十一)——分类方法之决策树

一、分类方法简介1. 分类的概念        数据挖掘中分类的目的是学会一个分类函数或分类模型(也常常被称作分类器),该模型能把数据库中的数据项映射到给定类别中的某一个。分类可描述如下:输入数据,或称训练集(Training Set),是由一条条数据库记录(Record)组成的。每一条记录包含若干个属性(Attribute),组成一个特征向量。训练集的每条记录还有一个特定的类标签(Class L

2017-08-24 16:50:18 1870

原创 HAWQ + MADlib 玩转数据挖掘之(十)——图算法之单源最短路径

一、图算法简介1. 定义        在计算中,常将运算方程或实验结果绘制成由若干有标尺的线条所组成的图,称为“算图”。计算时根据已知条件,从有关线段上一点开始,连结相关线段上的点,连线与表示所求量线段的交点即为答案。        无向图、有向图和网络能运用很多常用的图算法。这些算法包括:各种遍历算法(这些遍历类似于树的遍历),寻找最短路径的算法,寻找网络中最低代价路径的算法,用于回答一些简单

2017-08-17 15:35:53 1174

原创 HAWQ + MADlib 玩转数据挖掘之(九)——回归方法之Logistic回归

一、回归方法简介        回归指研究一组随机变量(Y1 ,Y2 ,…,Yi)和另一组(X1,X2,…,Xk)变量之间关系的统计分析方法,又称多重回归分析。通常前者叫做因变量,后者叫做自变量。        事物之间的关系可以抽象为变量之间的关系。变量之间的关系可以分为两类:一类叫确定关系,也叫函数关系,其特征是一个变量随着其它变量的确定而确定。另一类关系叫相关关系,变量之间的关系很难用一种精

2017-08-16 16:32:01 2510

原创 HAWQ + MADlib 玩转数据挖掘之(八)——聚类方法之k-means

一、聚类方法简介        所谓“物以类聚,人以群分”,其核心思想就是聚类。通过聚类,人们能意识到密集和稀疏的区域,发现全局的分布模式,以及数据属性之间有趣的相互关系。        在实践中,聚类往往为分类服务,即先通过聚类来判断事务的合适类别,然后再利用分类技术对新的样本进行分类。分类与聚类的区别是:分类是事先定义好类别,类别数不变,分类需要由人工标注训练得到,属于监督学习范畴。聚类则没有

2017-08-14 22:55:00 2824

原创 HAWQ + MADlib 玩转数据挖掘之(七)——关联规则方法之Apriori算法

一、关联规则简介        关联规则挖掘的目标是发现数据项集之间的关联关系,是数据挖据中一个重要的课题。关联规则最初是针对购物篮分析(Market Basket Analysis)问题提出的。假设超市经理想更多地了解顾客的购物习惯,特别是想知道,哪些商品顾客可能会在一次购物时同时购买?为回答该问题,可以对商店的顾客购买记录进行购物篮分析。该过程通过发现顾客放入“购物篮”中的不同商品之间的关联,

2017-08-09 11:27:37 2508

原创 HAWQ + MADlib 玩转数据挖掘之(六)——主成分分析与主成分投影

一、主成分分析(Principal Component Analysis,PCA)简介        在数据挖掘中经常会遇到多个变量的问题,而且在多数情况下,多个变量之间常常存在一定的相关性。例如,网站的“浏览量”和“访客数”往往具有较强的相关关系,而电商应用中的“下单数”和“成交数”也具有较强的相关关系。这里的相关关系可以直观理解为当浏览量较高(或较低)时,应该很大程度上认为访客数也较高(或较低

2017-08-03 17:28:03 3121

PD_导出模板.rtp

Powerdesigner 物理模型report模板,可用于生成数据字典Word文档。

2021-04-11

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除