2018年08月_这孩子谁懂哈

12月 08月 07月 06月 05月 04月 03月 02月 01月

转自：https://www.cnblogs.com/jassa/p/6434734.htmlFiddler是一个http调试代理，它能够记录所有的你电脑和互联网之间的http通讯，Fiddler 可以也可以让你检查所有的http通讯，设置断点，以及Fiddle 所有的“进出”的数据（指cookie,html,js,css等文件，这些都可以让你胡乱修改的意思）。 Fiddler 要比其他的网...

2018-08-16 12:54:10 6531

原创 LVW特征选择算法简单介绍

LVW（Las Vegas Wrapper）是一种典型的包裹式特征选择方法，它在拉斯维加斯方法框架下使用随机策略来进行子集搜索，并以最终分类器的误差为特征子集评价准则。与过滤式特征选择不考虑后续学习器不同，包裹式特征选择直接把最终要使用的学习器的性能作为特征子集的评价准则，换言之，包裹式特征选择的目的就是为了给定学习器选择最有利于其性能，量身定做的特征子集。算法描述：红色箭头...

2018-08-15 11:28:26 5170

转载推荐系统初识-协同过滤

转自：http://www.cnblogs.com/pinard/p/6349233.html1. 推荐算法概述　　　　推荐算法是非常古老的，在机器学习还没有兴起的时候就有需求和应用了。概括来说，可以分为以下5种：　　　　1）基于内容的推荐：这一类一般依赖于自然语言处理NLP的一些知识，通过挖掘文本的TF-IDF特征向量，来得到用户的偏好，进而做推荐。这类推荐算法可以找到用户独特的小众...

2018-08-14 14:41:32 526

转载奇异值分解(SVD)原理与在降维中的应用

转自：大神博客奇异值分解(Singular Value Decomposition，以下简称SVD)是在机器学习领域广泛应用的算法，它不光可以用于降维算法中的特征分解，还可以用于推荐系统，以及自然语言处理等领域。是很多机器学习算法的基石。本文就对SVD的原理做一个总结，并讨论在在PCA降维算法中是如何运用运用SVD的。1. 回顾特征值和特征向量 ...

2018-08-10 17:21:39 604

转载 L1正则化和L2正则化的详细直观解释

正则化（Regularization）转自：此处机器学习中几乎都可以看到损失函数后面会添加一个额外项，常用的额外项一般有两种，一般英文称作ℓ1ℓ1-norm和ℓ2ℓ2-norm，中文称作L1正则化和L2正则化，或者L1范数和L2范数。L1正则化和L2正则化可以看做是损失函数的惩罚项。所谓『惩罚』是指对损失函数中的某些参数做一些限制。对于线性回归模型，使用L1正则化的模型建叫做Lasso...

2018-08-09 15:13:18 37160 8

转载 Relief 特征选择算法简单介绍

relief算法Relief算法最早由Kira提出，最初局限于两类数据的分类问题。Relief算法是一种特征权重算法(Feature weighting algorithms)，根据各个特征和类别的相关性赋予特征不同的权重，权重小于某个阈值的特征将被移除。Relief算法中特征和类别的相关性是基于特征对近距离样本的区分能力。算法从训练集D中随机选择一个样本R，然后从和R同类的样本中寻找最近邻样...

2018-08-08 15:52:01 5991 2

原创 TF-IDF算法详解

最近在做一些NLP的研究，由于也是第一次做这个东西，其实还是发现很多有意思的东西。相信很多做过NLP的人都应该接触过提取关键词的这个功能。现在有很多可以使用的第三方工具包可以很容易的来实现这个功能，比如snowNLP，jieba等，但是我们还是要做到知其然，知其所以然，所以便有了这一篇文字的记录。首先我们来了解一下什么是TF-IDF？其实这个是两个词的组合，可以拆分为TF和...

2018-08-06 14:04:48 102783 25