机器学习
布纸所云
这个作者很懒,什么都没留下…
展开
-
Bayesian Network和Markov Blanket
Bayesian Network 贝叶斯网络贝叶斯网络是一种概率图模型,以有向无环图(DAG,Directed Acyclic Graph)的形式描述变量的联合分布概率分布(Joint Probabilistic Distribution):图中的node表示随机变量,边表示节点与节点之间的dependency relationship。 数学定义: 给定一组变量VV...原创 2018-08-09 10:39:43 · 1792 阅读 · 0 评论 -
Propensity Score Matching
Propensity Score Matching 倾向性得分匹配直观解释引言Randomized Controlled Trials Vs Observational StudiesThe Potential Outcomes Framework and Average Treatment EffectsRCTsObservational StudiesPropensity...翻译 2018-08-09 09:27:27 · 6784 阅读 · 0 评论 -
逻辑斯蒂回归之sigmoid函数
一. LR的数学形式hθ(x)=11+e−θTxh_\theta(x)=\frac{1}{1+e^{-\theta^Tx}}hθ(x)=1+e−θTx1二. LR为什么用sigmoid函数2.1 广义线性模型(GLM)首先需要知道,线性回归和逻辑斯蒂回归都是GLM的特殊形式:在线性回归中假设yyy服从高斯分布:y∣x;θ∼N(μ,σ2)y|x; \theta \sim \N...原创 2020-04-04 10:44:40 · 1255 阅读 · 0 评论 -
GBDT和XGBoost
前向分步算法考虑加法模型: f(x)=∑i=1Mβib(x;γi)f(x)=∑i=1Mβib(x;γi)f(x)=\sum_{i=1}^{M}\beta_ib(x;\gamma_i) 其中b(x;γi)b(x;γi)b(x;\gamma_i),βiβi\beta_i分别为基函数和基函数的系数。在给定训练数据和损失函数L(y,f(x))L(y,f(x))L(y,f(x))的情况下,学...原创 2018-08-29 08:06:26 · 273 阅读 · 0 评论 -
偏差和方差
Understanding the Bias-Variance Tradeoff算法在不同训练集上学得的结果可能不同,即便这些训练集来自于同一分布。对于测试样本xxx,学习算法的期望预测为 f(x)¯¯¯¯¯¯¯¯¯¯=ED(f(x;D))f(x)¯=ED(f(x;D))\overline{f(x)}=E_{D}(f(x;D)) 其中,DDD为训练集,fff为训练得到的模型。 使用样...原创 2018-09-04 18:23:22 · 222 阅读 · 0 评论 -
熵权法
熵权法 【评价算法】01. 熵权法确定权重对于熵比较详细的解释: 最大熵模型中的数学推导 熵的概念最早起源于物理学,用于度量一个热力学系统的无序程度。在信息论里面,熵是对不确定性的测量。关于多指标综合评价中指标正向化和无量纲化方法的选择...原创 2018-09-17 09:58:20 · 1379 阅读 · 0 评论 -
k means
K-means聚类最优k值的选取KMeans聚类 K值以及初始类簇中心点的选取 转 如何确定kmeans算法的k值聚类–(摘自西瓜书)原创 2018-09-17 11:21:12 · 352 阅读 · 0 评论 -
不平衡样本的处理
python工具包:imbalanced-learn总结型-多种方法解决机器学习中样本不均衡问题原创 2018-09-27 08:50:51 · 368 阅读 · 0 评论 -
机器学习资料
数据竞赛系列 机器学习推荐学习路线原创 2018-08-20 08:27:11 · 207 阅读 · 0 评论 -
利用随机森林进行特征选择
随机森林中的特征重要性 随机森林算法示意图 利用随机森林选择特征可参看论文Variable selection using Random Forests。用随机森林进行特征重要性评估的思想其实很简单,说白了就是看看每个特征在随机森林中的每颗树上做了多大的贡献,然后取个平均值,最后比一比特征之间的贡献大小。 好了,那么这个贡献是怎么一个说法呢?通常可以用基尼指数(Gini i...原创 2018-08-26 08:37:45 · 32636 阅读 · 5 评论 -
SVM支持向量机
SVM支持向量机SVMs(Support vector machines)支持向量机是二类分类器,其基本思想是找到一个分类超平面使得距离该分类超平面最近的样本点间隔最大化(Maximize Margin)。线性判别函数和分类超平面对于两类问题的线性分类器可以用下述决策规则: g(x)=g1(x)−g2(x)g(x)=g1(x)−g2(x)g(x)=g_1(x)-g_2(x) 如...原创 2018-08-06 08:44:41 · 360 阅读 · 0 评论 -
Chi-squared 卡方检验
卡方检验筛选特征利用χ2χ2\chi^2筛选特征时,我们计算每个特征和类标之间的χ2χ2\chi^2统计量,最后选择χ2χ2\chi^2分数最高的k个特征。χ2χ2\chi^2检验χ2χ2\chi^2独立性检验用于检验两个类别型变量之间是否存在显著的关联关系。 特征x 正类 负类 总计 x=1x=1x=1 AAA BBB A+B=MA+...翻译 2018-08-06 21:23:24 · 2890 阅读 · 0 评论 -
Logistic Regression
Logistic Regression⟹logp(y=1|x)1−p(y=1|x)=wTxp(y=1|x)=ewTx1+ewTxp(y=0|x)=11+ewTxlogp(y=1|x)1−p(y=1|x)=wTx⟹p(y=1|x)=ewTx1+ewTxp(y=0|x)=11+ewTx\begin{align*}&log\frac{p(y=1|x)}{1-p(y=1|x)}=w^Tx\\\Lo...原创 2018-08-06 23:02:51 · 258 阅读 · 0 评论 -
集成学习
集成学习集成学习通过构建结合多个学习器来完成任务,通常可以获得比单个学习器显著优越的泛化性能。集成个体应该好而不同Boosting 和BaggingBoosting:个体学习器之间存在强依赖关系,必须串行生成的序列化方法,典型代表是adaboostBagging:个体学习器之间不存在强依赖性,可同时生成的并行化方法,典型代表是Bagging和随机森林。Ad...原创 2018-08-07 15:01:12 · 332 阅读 · 0 评论 -
损失函数
常见的损失函数 损失函数 公式 0/1损失 l0/1(z)={10z<0otherwisel0/1(z)={1z<00otherwise l_{0/1}(z)=\left\{\begin{aligned}1 && zlhinge(z)=max(0,1−z)lhinge(z)=max(0,1−z)l_{hinge}(z)=max(0,1-z) ...原创 2018-08-07 15:11:08 · 235 阅读 · 0 评论 -
机器学习性能度量
查全率、查准率与F1 预测结果 真实结果 正例 反例 正例 True Positive False Negative 反例 False Positi...原创 2018-08-08 12:57:16 · 362 阅读 · 0 评论 -
聚类
k均值给定样本集D={x1,⋯,xm}D={x1,⋯,xm}D=\{x_1,\cdots,x_m\},k均值针对划分C={C1,⋯,Ck}C={C1,⋯,Ck}C=\{C_1,\cdots,C_k\}最小化平方误差 E=∑i=1k∑x∈Ci||x−μi||22E=∑i=1k∑x∈Ci||x−μi||22E=\sum_{i=1}^{k}\sum_{x\in C_i}||x-\mu_i||_2...原创 2018-08-08 13:08:46 · 260 阅读 · 0 评论 -
多类分类方法
多类分类基本思想考虑NNN个类别C1,C2.⋯,CNC1,C2.⋯,CNC_1,C_2.\cdots, C_N,多分类问题的基本思路是拆解法,即将多分类问题拆分为若干个二分类问题求解。拆分策略One-vs-One将NNN个类别两两配对,训练N(N−1)/2N(N−1)/2N(N-1)/2个分类器。测试阶段,新样本同时提交给所有的分类器,得到N(N−1)/2N(N−1)/2N...原创 2018-08-09 20:34:29 · 2374 阅读 · 0 评论