机器学习
文章平均质量分 55
wiy_dawn
这个作者很懒,什么都没留下…
展开
-
主成分分析(PCA)和奇异值分解(S…
特征抽取的目标是根据原始的d个特征的组合形成k个新的特征,即将数据从d维空间映射到k维空间。在文本分析领域常用的降维方法是主成分分析(PrincipalComponent Analysis, PCA)和奇异值分解(Singular ValueDecomposition, SVD)。在下文的叙述中,将沿袭机器学习的常用符号,使用x表示一个列向量,它是样本x在d维空间中的点。而由n个样本构成的数原创 2017-05-05 12:15:44 · 645 阅读 · 0 评论 -
特征选择与特征抽取的区别
机器学习领域的一个普遍问题是如何降低数据的维度,因为过高的维度会严重影响计算效率并造成数据稀疏。降维方法一般分为两类:特征选择(FeatureSelection)和特征抽取(FeatureExtraction)。特征选择特征选择的目标是从原始的d个特征中选择k个特征。特征抽取特征抽取的目标是根据原始的d个特征的组合形成k个新的特征,即将数据从d维空间映射到k维空间。无论是原创 2017-05-05 12:15:46 · 4024 阅读 · 0 评论 -
张量(tensor)的基本概念
如参考文献标题所述,这是一篇适用于物理学和工程领域学生关于张量相关知识的介绍性文章。本文主要介绍张量的定义及其相关操作。张量的物理意义可以参见参考文献。1、向量1.1向量的定义:其中,i,j,k为互相垂直的单位向量。1.2向量加法:向量相加得向量。1.3向量内积(inner product):向量内积得标量。1.4向量叉乘(cross product):向量叉乘得向量(原创 2017-05-05 12:15:54 · 17831 阅读 · 1 评论 -
归一化的说明
归一化是在实现算法时经常使用的操作。本文的目的是说明归一化的作用。归一化是一种简化计算的方式,即将有量纲的表达式,经过变换,化为无量纲的表达式,成为标量。在多种计算中都经常用到这种方法(百度百科)。假设有一组数列,或者说向量(1,2,3,4)一、使用无穷范数归一化无穷范数是指这组数列中最大的数,即4,归一化后结果为(1/4,2/4,3/4,4/4)。假设(1,2,3,4)原创 2017-05-05 12:15:56 · 1497 阅读 · 0 评论 -
数据平滑、维数灾难和数据稀疏
数据平滑(smoothness), 维数灾难(curse ofdimensionality), 和 数据稀疏( datasparsity)。维数灾难和数据稀疏通常是相伴而生的,因为维数的增大是的统计需要更多的样本来支撑,而当所谓的“维数灾难”产生时,是很难获得足够的样本数量来支撑统计的。产生的直观结果是统计结果中会出现大量结果为零的属性。此时认为浪费了存储空间。另外,无论是否产生数据稀疏原创 2017-05-05 12:15:59 · 2350 阅读 · 0 评论 -
数据表示的要素
数据表示的要素——An Abstract to the Review of RepresentationLearning原文致力于通过Deep Learning来学习数据表示方法。本文将文中提到的数据表示一般依据从DeepLearning中剥离出来,希望对其他方法也有借鉴。学习数据的表示方法可以使得在构建分类器或其他预测机制(classifiers or otherpredictors原创 2017-05-05 12:16:02 · 993 阅读 · 0 评论 -
向量空间中的相似度度量方法
Similarity in vector SpaceCosine DistanceEuclidean DistanceManhattan DistanceChebyshev DistanceJaccard CoefficientSimilarity in probabilistic space生成模型将文档表示为概率分布。为了比较两个文档的相似性(概率分布的相似性),给出如原创 2017-05-05 12:16:09 · 965 阅读 · 0 评论