2017年04月_xiaocong1990

转载结合Scikit-learn介绍几种常用的特征选择方法

特征选择(排序)对于数据科学家、机器学习从业者来说非常重要。好的特征选择能够提升模型的性能，更能帮助我们理解数据的特点、底层结构，这对进一步改善模型、算法都有着重要作用。特征选择主要有两个功能：减少特征数量、降维，使模型泛化能力更强，减少过拟合增强对特征和特征值之间的理解拿到数据集，一个特征选择方法，往往很难同时完成这两个目的。通常情况下，我们经常不管三七二十一，选择一种自

2017-04-26 16:33:39 621

转载卡方检验用于特征选择(二)

卡方检验用于检验观测到的数据是否服从特定多项分布。假设一组数据样本即有2个整数"1"，2个整数"2"和1个整数"3"。如果要判断这个多项分布的概率是否等于，便需要使用卡方检验了。卡方检验的主要步骤如下: 步骤1. 建立零假设和备选假设。并限定显著性水平为。

2017-04-26 15:41:55 5225

转载卡方检验用于特征选择(一)

除了分类算法以外，为分类文本作处理的特征提取算法也对最终效果有巨大影响，而特征提取算法又分为特征选择和特征抽取两大类，其中特征选择算法有互信息，文档频率，信息增益，开方检验等等十数种，这次先介绍特征选择算法中效果比较好的开方检验方法。　　大家应该还记得，开方检验其实是数理统计中一种常用的检验两个变量独立性的方法。（什么？你是文史类专业的学生，没有学过数理统计？那你做什么文本分类？在这捣什么

2017-04-26 15:31:53 4293

转载机器学习中特征选择概述

1. 背景1.1 问题在机器学习的实际应用中，特征数量可能较多，其中可能存在不相关的特征，特征之间也可能存在相关性，容易导致如下的后果：（1）特征个数越多，分析特征、训练模型所需的时间就越长，模型也会越复杂。（2）特征个数越多，容易引起“维度灾难”，其推广能力会下降。（3）特征个数越多，容易导致机器学习中经常出现的特征稀疏的问题，导致模型效果下降。（4）对于模

2017-04-26 15:30:47 9872

原创 [leetcode]5. Longest Palindromic Substring 最长回文子串

题目链接：https://leetcode.com/problems/longest-palindromic-substring/#/descriptionGiven a strings, find the longest palindromic substring ins. You may assume that the maximum length ofsis 1000.

2017-04-23 14:01:25 246 1

原创二叉树先序，中序，后序遍历非递归实现

#include #include #include #include #include #include using namespace std; typedef struct BiTNode{ char data; BiTNode *lchild, *rchild; }BiTNode,*BiTree; void Cr

2017-04-19 10:44:26 260

转载机器学习面试问题汇总

见：http://www.cnblogs.com/hellochennan/p/6654084.html

2017-04-18 20:17:41 253

转载 xgboost与GBDT区别、优势

传统GBDT以CART作为基分类器，xgboost还支持线性分类器，这个时候xgboost相当于带L1和L2正则化项的逻辑斯蒂回归（分类问题）或者线性回归（回归问题）。传统GBDT在优化时只用到一阶导数信息，xgboost则对代价函数进行了二阶泰勒展开，同时用到了一阶和二阶导数。顺便提一下，xgboost工具支持自定义代价函数，只要函数可一阶和二阶求导。xgboost在代价

2017-04-18 17:39:56 6085

原创 SVM中的核函数

1 核函数本质核函数的本质可以概括为如下三点：1）实际应用中，常常遇到线性不可分的情况。针对这种情况，常用做法是把样例特征映射到高维空间中，转化为线性可分问题。2）将样例特征映射到高维空间，可能会遇到维度过高的问题。3）针对可能的维灾难，可以利用核函数。核函数也是将特征从低维到高维的转换，但避免了直接进行高维空间中的复杂计算，可以在低维上进行计算，却能在实质上将分类效果表现

2017-04-18 17:04:00 12587

原创朴素贝叶斯与逻辑回归的区别

2017-04-18 16:55:53 4137 1

转载语义分析的一些方法

见：语言分析的一些方法（一）语言分析的一些方法（二）语言分析的一些方法（三）

2017-04-17 19:55:33 969

转载 word2vec 中的数学原理详解

详见：http://blog.csdn.net/itplus/article/details/37969519

2017-04-17 19:07:04 434

原创 [leetcode]113. Path Sum II

题目链接：https://leetcode.com/problems/path-sum-ii/#/descriptionGiven a binary tree and a sum, find all root-to-leaf paths where each path's sum equals the given sum.For example:Given the below

2017-04-11 12:01:47 252

原创 [leetcode]331. Verify Preorder Serialization of a Binary Tree

题目链接：https://leetcode.com/problems/verify-preorder-serialization-of-a-binary-tree/#/descriptionOne way to serialize a binary tree is to use pre-order traversal. When we encounter a non-null

2017-04-10 09:53:43 225

xiaocong1990的博客