自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

泉眼里的气泡

欢迎机器学习/数据挖掘方向的朋友相互交流。

  • 博客(17)
  • 收藏
  • 关注

原创 数据对象的属性(特征)类型

在数据挖掘/机器学习过程中,当我们在对属性进行处理时,分清属性的类型是有必要的,不同类型的属性需要使用不同的处理方法,如在对对象的标识列进行处理时,对该列进行数学运算是没有意义的,因为对象的标识列一般是标称属性,只是起到唯一标识的作用。

2017-07-19 09:43:44 11262

原创 频繁模式挖掘的模式评估方法

频繁模式挖掘可以出很多模式,但是判断一个模式是否有趣,需要用到模式的评估方法。

2017-06-22 19:36:28 1696

原创 处理类不平衡的方法

在数据挖掘的时间工程中,经常会出现正样本远远少于负样本的情况,也就是类不平衡问题。

2017-06-22 09:30:05 1319

原创 数据规范化(归一化)方法

数据挖掘中,在训练模型之前,需要对特征进行一定的处理,最常见的处理方式之一就是数据的规范化。数据的规范化的作用主要有两个:去掉量纲,使得指标之间具有可比性;将数据限制到一定区间,使得运算更为便捷。

2017-06-22 09:03:38 20023

原创 缺失值的处理方法

在数据挖掘的实际工程中,由于数据采集成本、隐私保护等原因,得到的训练数据会有缺失值,现在介绍几种处理缺失值的方法。

2017-06-22 08:11:22 4425

原创 树模型缺失值的方法

处理数据缺失值的方法很多,此处介绍利用树模型处理缺失的方法。

2017-06-21 17:08:18 2153 1

原创 过拟合的解决方法

数据挖掘的实际工程中,常常出现模型在训练数据集上的效果好,而在测试集上的效果差的情况,也就是模型的泛化能力很差,这就是常说的过拟合。此处给出几种常见的过拟合解决方法。

2017-06-20 19:49:54 1157

原创 常用的抽样方法

在数据挖掘的实际工程中,多数时候需要从总体中抽取样本来进行模型预测。抽样的方法有多种,此处例举常见的几种。

2017-06-20 18:56:06 25284

原创 多重共线性的解决方法

多重共线性(Multicollinearity)是指线性回归模型中的解释变量之间由于存在精确相关关系或高度相关关系而使模型估计失真或难以估计准确。

2017-06-19 16:18:20 23722

原创 主成分分析的计算方法

主成分分析(Principal Component Analysis,PCA),是通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫主成分。

2017-06-19 15:40:03 14378

原创 方差、偏差、噪声、泛化误差之间的关系

说明方差、偏差、噪声、泛化误差之间的关系

2017-06-07 09:18:15 4322

原创 20瓶药里面有19瓶真药和1瓶假药

20瓶药里面有19瓶真药和1瓶假药,已知每颗真药的重量是1g,假药的重量是1.1g,现有一架精度很高的天枰。问怎么只称一次就能找出其中的那瓶假药。

2017-04-25 16:46:30 5671

原创 下面哪个函数不能作为C++ std::sort的比较函数。

看到过阿里巴巴的一道笔试题,题目是:下面哪个函数不能作为C++ std::sort的比较函数。刚开始拿到这个题不知道出题的考点在哪,所以不知道怎么做,直到看到另外一篇博客(博客地址:http://blog.csdn.net/lingling_1/article/details/46453013)我才恍然大悟。

2017-04-25 15:55:48 1744 1

原创 在防止溢出的情况下求两个整数的平均数。(向下取整)

已知两个整数a、b,a和b的值均没有出现溢出,而a + b有可能出现溢出,现在需要在防止溢出的情况下求a和b的平均值,该平均值取其实际值的向下取整。

2017-04-21 23:34:28 1418

原创 求一个递增序列的二叉搜索树的数量。

假设序列为{1,3, 5, 6, 7},问由该序列可以生成多少种二叉搜索树。

2017-04-18 16:52:55 880

原创 猜帽子颜色问题(阿里巴巴面试题)

10个人从前往后站成一排,每人头上戴一顶帽子,帽子的颜色要么是黑色,要么是白色,每个人只能看到自己前面的人的帽子的颜色,但是能听到他后面的人所讲的话。当他们带上帽子后,从最后一个人开始说自己头上帽子的颜色。在带上帽子前,犯人们可以自己提前商量一个策略(只能说一个数字和一个汉字,这个汉字是要么是黑,要么是白),使得获救的人数最多。问应该如何设计这个策略。

2017-04-18 15:36:44 13472 1

原创 轮流拿(取)东西问题

假设有A、B两个人,轮流从一堆物品中拿物品,每次只能拿限定的个数,判断谁一定会拿到最后一个物品或者要想拿到最后一个物品应该采取什么样的策略。

2017-04-18 14:44:42 16477 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除