自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 收藏
  • 关注

转载 结合Scikit-learn介绍几种常用的特征选择方法

特征选择(排序)对于数据科学家、机器学习从业者来说非常重要。好的特征选择能够提升模型的性能,更能帮助我们理解数据的特点、底层结构,这对进一步改善模型、算法都有着重要作用。特征选择主要有两个功能:减少特征数量、降维,使模型泛化能力更强,减少过拟合增强对特征和特征值之间的理解拿到数据集,一个特征选择方法,往往很难同时完成这两个目的。通常情况下,我们经常不管三七二十一,选择一种自

2017-04-26 16:33:39 621

转载 卡方检验用于特征选择(二)

卡方检验用于检验观测到的数据是否服从特定多项分布。假设一组数据样本即有2个整数"1",2个整数"2"和1个整数"3"。如果要判断这个多项分布的概率是否等于,便需要使用卡方检验了。卡方检验的主要步骤如下:      步骤1. 建立零假设和备选假设。并限定显著性水平为。     

2017-04-26 15:41:55 5225

转载 卡方检验用于特征选择(一)

除了分类算法以外,为分类文本作处理的特征提取算法也对最终效果有巨大影响,而特征提取算法又分为特征选择和特征抽取两大类,其中特征选择算法有互信息,文档频率,信息增益,开方检验等等十数种,这次先介绍特征选择算法中效果比较好的开方检验方法。  大家应该还记得,开方检验其实是数理统计中一种常用的检验两个变量独立性的方法。(什么?你是文史类专业的学生,没有学过数理统计?那你做什么文本分类?在这捣什么

2017-04-26 15:31:53 4293

转载 机器学习中特征选择概述

1. 背景1.1 问题在机器学习的实际应用中,特征数量可能较多,其中可能存在不相关的特征,特征之间也可能存在相关性,容易导致如下的后果:(1) 特征个数越多,分析特征、训练模型所需的时间就越长,模型也会越复杂。(2) 特征个数越多,容易引起“维度灾难”,其推广能力会下降。(3) 特征个数越多,容易导致机器学习中经常出现的特征稀疏的问题,导致模型效果下降。(4)对于模

2017-04-26 15:30:47 9872

原创 [leetcode]5. Longest Palindromic Substring 最长回文子串

题目链接:https://leetcode.com/problems/longest-palindromic-substring/#/descriptionGiven a strings, find the longest palindromic substring ins. You may assume that the maximum length ofsis 1000.

2017-04-23 14:01:25 246 1

原创 二叉树先序,中序,后序遍历非递归实现

#include #include #include #include #include #include using namespace std; typedef struct BiTNode{ char data; BiTNode *lchild, *rchild; }BiTNode,*BiTree; void Cr

2017-04-19 10:44:26 260

转载 机器学习面试问题汇总

见:http://www.cnblogs.com/hellochennan/p/6654084.html

2017-04-18 20:17:41 253

转载 xgboost与GBDT区别、优势

传统GBDT以CART作为基分类器,xgboost还支持线性分类器,这个时候xgboost相当于带L1和L2正则化项的逻辑斯蒂回归(分类问题)或者线性回归(回归问题)。传统GBDT在优化时只用到一阶导数信息,xgboost则对代价函数进行了二阶泰勒展开,同时用到了一阶和二阶导数。顺便提一下,xgboost工具支持自定义代价函数,只要函数可一阶和二阶求导。xgboost在代价

2017-04-18 17:39:56 6085

原创 SVM中的核函数

1 核函数本质​核函数的本质可以概括为如下三点:1)实际应用中,常常遇到线性不可分的情况​。针对这种情况,常用做法是把样例特征映射到高维空间中,转化为线性可分问题。2)将样例特征映射到高维空间,可能会遇到维度过高的问题​。3)针对可能的维灾难,可以利用核函数。核函数也是将特征从低维到高维的转换,但避免了直接进行高维空间中的复杂计算,​可以在低维上进行计算,却能在实质上将分类效果表现

2017-04-18 17:04:00 12587

原创 朴素贝叶斯与逻辑回归的区别

总结起来,有以下几点不同:(1)     Naive Bayes是一个生成模型,在计算P(y|x)之前,先要从训练数据中计算P(x|y)和P(y)的概率,从而利用贝叶斯公式计算P(y|x)。         Logistic Regression是一个判别模型,它通过在训练数据集上最大化判别函数P(y|x)学习得到,不需要知道P(x|y)和P(y)。(2)  

2017-04-18 16:55:53 4137 1

转载 语义分析的一些方法

见:语言分析的一些方法(一)       语言分析的一些方法(二)       语言分析的一些方法(三)

2017-04-17 19:55:33 969

转载 word2vec 中的数学原理详解

详见:http://blog.csdn.net/itplus/article/details/37969519

2017-04-17 19:07:04 434

原创 [leetcode]113. Path Sum II

题目链接:https://leetcode.com/problems/path-sum-ii/#/descriptionGiven a binary tree and a sum, find all root-to-leaf paths where each path's sum equals the given sum.For example:Given the below

2017-04-11 12:01:47 252

原创 [leetcode]331. Verify Preorder Serialization of a Binary Tree

题目链接:https://leetcode.com/problems/verify-preorder-serialization-of-a-binary-tree/#/descriptionOne way to serialize a binary tree is to use pre-order traversal. When we encounter a non-null

2017-04-10 09:53:43 225

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除