数据挖掘
zkq_1986
这个作者很懒,什么都没留下…
展开
-
Softmax函数
Softmax函数是Logistic函数的变形,用于估算每个类别的概率。其形式如下: for j = 1, …, K.原创 2016-12-08 14:36:45 · 321 阅读 · 0 评论 -
【数据挖掘】用户画像
用户标签: 性别,年龄,教育程度,是否有小孩,是否有老人,是否有孕妇,是否有车,是否有房,消费能力,类型偏好,活跃度,颜色偏好,光鲜偏好,收入。原创 2018-03-05 14:41:52 · 887 阅读 · 0 评论 -
2016大数据创新大赛——机场客流量的时空分布预测模型解析
2016大数据创新大赛——机场客流量的时空分布预测模型解析大数据史记 2017-04-05 19:07:20 浏览3171 评论1大数据创新大赛 机场客流量 时空分布预测 时序模型摘要: 在大数据创新大赛上,来自浙江大学的SeaSide团队带来了关于机场客流量的时空分布预测的解决方案。SeaSide团队主要从时序模型、乘机流程、事件驱动、维度灾难四个方面转载 2018-03-15 19:51:51 · 7595 阅读 · 1 评论 -
【数据挖掘】用户画像之性别预测
在线视频用户画像之性别预测1 分类方法利用少量的用户上报的性别数据做预测。分类训练的步骤为:(1)统计每个视频标签的男女比例,过滤掉男女区分度不高的标签。(2)获得一段周期中用户的视频观看行为,从中统计出各有效视频标签的权重,作为特征向量。(3)有了特征向量和已知的用户性别,很容易就能训练出一个分类器。原创 2018-03-07 15:30:37 · 4518 阅读 · 0 评论 -
matlab1
1 拟合1.1 多项式拟合p = poly(x,y,n) %其中x、y都为数据向量,n为拟合多项式的阶数,p为拟合后多项式的系数向量1.2 最小二乘非线性拟合lsqcurvefit()例子1:function y=yuww(x,xd) % 保存为yuww.m 文件,反正不要是fit翻译 2016-07-20 10:35:06 · 348 阅读 · 0 评论 -
【特征工程】特征创建(属性创建)
特征创建也称属性创建包括,特征提取,映射数据到新的空间,二次特征(特征构造)1. 特征提取,肯定就生成新的特征。2. 将数据映射到新的空间,扩维或降维,也会形成性的特征。3. 二次特征,通过基础特征构造出新的特征。原创 2017-12-29 17:42:05 · 2230 阅读 · 0 评论 -
【数据挖掘】属性的概念
1、属性: 一个数据字段,表示数据对象的一个特征。(属性(数据挖掘和数据库人员使用)、维(数据仓库)、特征(机器学习)、变量可以互换实用(统计学家使用)) 2、标称属性:标称意味着“与名称相关”;标称属性的值是一些符号或失误的名称。每个只代表某种类别、编码或者状态,因而标称属性又被堪称是分类的。例如,人的属性->头发颜色(黑、白、棕、红、黄...)和婚姻状况(未婚、已婚、离异...转载 2017-12-29 14:35:13 · 3370 阅读 · 0 评论 -
【关联规则】Apriori详解
1.数据挖掘与关联分析数据挖掘是一个比较庞大的领域,它包括数据预处理(清洗去噪)、数据仓库、分类聚类、关联分析等。关联分析可以算是数据挖掘最贴近我们生活的一部分了,打开卓越亚马逊,当挑选一本《Android4高级编程》时,它会不失时机的列出你可能还会感兴趣的书籍,比如Android游戏开发、Cocos2d-x引擎等,让你的购物车又丰富了些,而钱包又空了些。关联分析,即从一个数据集中转载 2018-01-03 15:51:21 · 2366 阅读 · 0 评论 -
【数据预处理】数据预处理概述
数据预处理包括,数据清洗,数据集成,数据规约,数据变换- - 数据清理:可以用来清楚数据中的噪声,纠正不一致。 - - 数据集成:将数据由多个数据源合并成一个一致的数据存储,如数据仓库。 - - 数据归约:可以通过如聚集、删除冗余特征或聚类来降低数据的规模。 - - 数据变换:(例如,规范化)可以用来把数据压缩到较小的区间,如0.0到1.0。这些技术不是排斥的,可以一起使用原创 2017-12-27 14:23:52 · 2463 阅读 · 0 评论 -
【算法比赛】天池赛——资金流入流出预测(Top1答辩ppt)
http://mp.weixin.qq.com/s?__biz=MzA3MDg0MjgxNQ==&mid=208451006&idx=1&sn=532e41cf020a06737ef7fc7f570d3b7a&scene=0#rd资金流入流出预测赛题简介蚂蚁金服拥有上亿会员并且业务场景中每天都涉及大量的资金流入和流出,面对如此庞大的用户群,资金管理压力会非常大。在既保证资金流动转载 2018-01-02 10:32:03 · 3030 阅读 · 0 评论 -
【频繁项集挖掘】FP-growth算法原理
FP-growth,FP表示frequent pattern。它通过在内存中构建FP-tree,减少了描述数据库的次数,减少了候选频繁项集的个数。FP-tree主要通过前缀共享的树结构方式,寻找频繁项。FP-tree其实是一棵前缀树,按支持度降序排列,支持度越高的频繁项离根节点越近,从而使得更多的频繁项可以共享前缀。 1. 问题定义图1 购物篮数据的二元表示转载 2017-08-31 16:41:18 · 1627 阅读 · 0 评论 -
PrefixSpan算法原理
PrefixSpan算法的全称是Prefix-Projected Pattern Growth,即前缀投影的模式挖掘。为了便于理解PrefixSpan,模式挖掘中使用到的几个相关概念参考如下:1. 项集数据和序列数据 首先我们看看项集数据和序列数据有什么不同,如下图所示。 左边的数据集就是项集数据,在Apriori和FP Tree算法中我们也已经转载 2017-07-03 17:16:07 · 751 阅读 · 0 评论 -
随机森林(Random Forest, RF)
RF方法:1. 训练集获取利用bootstrap方法,选取m个样本,获得一个训练子集;重复T遍,获得T个训练子集。2. 训练以决策树作为基分类器。随机从属性集中随机选择k个属性,针对k个属性,采用传统的最优属性划分方法进行属性划分。对T个训练集进行训练,就得到T个不同的基分类器。3.预测针对分类任务,利用投票方式预测。针对回归任务,利用简单平均方式预测。原创 2017-04-06 16:00:43 · 513 阅读 · 0 评论 -
【分类】KNN分类算法之Python实现
KNN称为K最近邻。对于待分类数据,它先计算出与其最相近的K个的样本,然后判断这K个样本中最多的类标签,并将待分类数据标记为这个最多的类标签。python样例代码:import numpy as npfrom sklearn.neighbors import KNeighborsClassifier as kNNK = 3train_mat = np.array([[1, 2,...原创 2018-10-16 13:50:25 · 317 阅读 · 0 评论