万普尼克(Vapnik)建立的一套机器学习理论,使用统计的方法,因此有别于归纳学习等其它机器学习方法。由这套理论所引出的支持向量机对机器学习的理论界以及各个应用领域都有极大的贡献,一般情况下弗拉基米尔-万普尼克理论是香农实验室奠基资料和自身的数学背景,他是俄罗斯的数学家和统计学家,与同事一起发明了支持向量机理论,著作有 1.基于经验数据的依赖性估计(Estimation of Dependences Based on Empirical Data), 1982
我们通常应该选择的学习的方向,由于他也是统计学派可以和迈克尔-乔丹教授的机器学习理论归为一个学派学习。研究一个问题需要一个骨架和实体才能将理论加以说明,结合经济学原理来研究损失函数,我们可以简单的理解损失函数为将一个样本空间中的的一个元素映射到其他一仲表达事件的实数上的一种函数。计算损失和错误程度的函数,这种损失是一种弱连接。它需要用描述不同参数的值来计算系统,首先这种映射必须是通过介质函数可以映射的。《《特点:改善持续减少的目标值变异,并非只是仅仅追求符合逻辑的过程也叫代价函数,训练数据属性,模型空间,损失函数三方面研究,对标准的线性二分类来说,训练数据是一些已知的含有标签的并满足独立同分布的条件的样本,假设空间是所有一次函数的集合,一次函数的几何解释为超平面(线性分类器),损失函数主要描述错分的代价,当样本分类正确后,损失函数的值定义为0,当样本分类错误是,损失函数的值定义为1,线性分类的目的:所有的一次函数中求得总体平均错误率最低的线性分类器。
目前理论分析方面有间隔(Margin)和损失()函数两种观点。1992年到2004年期间,V-Vapnik研究处于间隔时代,在L-Valiant提出的概率近似正确理论(Probably Approximately Correct,PCA),基于VC维(Vapnik-Chervonekis)的模型泛化能力的概率近似正确的上界,1998年肖—泰勒(Shawe -taylor)发现了量化模型泛化能力的间隔界限,此时基于间隔的算法得到了认可,学习所获得间隔越大泛化能力也就越强。间隔是泛化能力的指标,通常的间隔是有实际物理意义,一般认为是几何间隔和几何距离,线性可分的情况下是样本Margin是该点到分类平面的欧式距离,样本集合叫分类器,指样本点间隔中的最小者。
SVM(support Vector Machine)是建立在集合基础上的第一个学习型算法,体系分为三个部分。线性可分情况下的最大间隔距离算法(前提是线性可分),线性情形下软间隔算法,非线性情况下的核算法,(主要区别在于假设空间上,且是所有假设空间经验为0的线性分类器),
详细资料参考《统计机器学习-损失函数与优化求解》 孙正雅,陶卿;中科自动化所,中国人民解放军炮兵学院;
可以从损失函数-VC维-统计规律与概率-算法的收敛特性与速度特性(离散数学)-模式分类、回归分析、概率密度估计,研究如何从一些样本出发得出目前不能通过原理分析得到的规律,利用这些规律去分析客观对象,对未来数据或无法观测的数据进行预测。统计学中关于估计的一致性、无偏性和估计方差的界等,以及分类错误率等渐近性特征是实际应用中往往无法得不到满足,而这种问题在高维空间时尤其如此。这实际上是包含模式识别和神经网络等在内的现有的机器学习理论和方法中的一个根本问题。在解决模式识别问题中往往区域保守,且数学上比较艰难,而直到90年代以前并没有提出能够将其理论付诸实现的较好方法。神经网络等较新兴的机器学习方法的研究则遇到了一些重要的困难,比如如何确定网络结构的问题、过学习与欠学习的难题、局部极小点的问题等。
罗纳德·费希尔 Ronald Fisher(1890~1962),全名Ronald Aylmer Fisher,生于伦敦,卒于 Adleaide(澳洲)。英国统计与遗传学家,现代统计科学的奠基人之一,并对达尔文进化论作了基础澄清的工作。他建立了以生物统计为基础的遗传学,发明了方差分析、实验设计法、最大似然法,并发展出充分性、辅助统计、费希尔线性判别与费希尔信息量等统计概念。丹麦统计学家安德斯·哈尔德称他是"一位几乎独自建立现代统计科学的天才",英国著名演化生物学家、动物行为学家和科普作家理查·道金斯则认为他是"达尔文最伟大的继承者"。
当时流行的优生学思想,也是费希尔所关注的议题。他更将社会上的人口问题,视为包含遗传学与统计学在内的科学。1911年,他与当时的一些名人,如经济学家凯恩斯、遗传学家庞尼特(R. C. Punnett),以及工程师霍勒斯·达尔文(Horace Darwin,查尔斯·达尔文之子),一起建立了剑桥大学优生学学会(Eugenics Society)。这是一个活跃的团体,他们每个月开一次会,并在其他主流优生学组织发表演说。例如法兰西斯·高尔登(Francis Galton)在1909年建立的优生学教育学会(Eugenics Education Society)。
1918年战争结束之后,原本皮尔森邀请他进入当时著名的高尔登实验室(Galton Laboratory),但是由于费希尔认为自己与皮尔森之间的竞争关系是一种职业障碍,因此放弃了这个机会。1919年他任职于 Rothamsted 农业实验场(Rothamsted Experimental Station)。这间农业试验所,位在英格兰赫特福德郡(Hertfordshire)的哈平登(Harpenden)。费希尔除了在其中担任一名统计员之外,所长约翰·罗素(John Russell)也让他设立了一个统计实验室。之后费希尔便开始对多年来所收集的大量资料进行深入研究,并且将成果写成一系列题为《收成变异之研究》(Studies in Crop Variation)的论文。他的全盛时期也在这时候开始。
在这里,他一直钻研基本统计理论并取得了丰硕的成果。他关于寻找从少量数据中推断出最可靠结论的方法,他在统计学中有突出的贡献,内容涉及估计理论、假设检验和实验设计等领域。
他负责的主要工作是植物播殖实验的设计,希望透过尽量少的时间、成本与工作量,得到尽量多的有用资讯;另外是要整理该实验场60年来累积的实验资料。Fisher 在这里发展他的变异数分析理论,研究假说测试,并且提出实验设计的随机化原则,使得科学试验可以同时进行多参数之检测,并减少样本偏差。(现代统计奠基人)
他在1925所著《研究工作者的统计方法》(Statistical Methods for Research Workers)影响力超过半世纪,遍及全世界。而他在 Rothamsted 的工作结晶,同时也表现在为达尔文演化论澄清迷雾的巨著《天择的遗传理论》(The Genetical Theory of Natural Selection)(1930)中,说明孟德尔的遗传定律与达尔文的理论并不像当时部份学者认为的互相矛盾,而是相辅相成的。并且认为演化的驱力主要来自选择的因素远重於突变的因素。这本著作将统计分析的方法带入演化论的研究。为解释现代生物学的核心理论打下坚实的基础。也因这本著作,Fisher 1933年获得伦敦大学的职位,从事 RH 血型的研究。
1943至1957年他回剑桥大学任教,1952年受封爵士,被后人誉为:现代统计学之父。1956年出版《统计方法与科学推断》(Statistical methods and scientific inference),最后三年,则在澳洲为国协科技研究组织 (CSTRO) 工作,并卒于任上。
著作
《研究工作者的统计方法》Statistical Methods for Research Workers
1914年,第一次世界大战爆发。费希尔和许多英国青年一样,也希望能够加入军队、投入沙场。不过因为他严重的视力问题,即使一试再试,依然无法通过健康检查。由于从军不成,接下来6年他便在伦敦市担任统计员,同时也在几所公立学校里教授物理和数学。例如伯克夏(Berkshire)的布莱德菲尔德学院(Bradfield College)。此外,他也曾经搭上英国海军的教学舰艇"渥彻斯特号"(HMS Worcester)。
在英军里担任少校的里奥纳德·达尔文(Leonard Darwin,查尔斯·达尔文另一子)与另一位被费希尔称做古德鲁那(Gudruna)的朋友,是他在这个时期的重要支柱,他们的支持使他得以度过困境。古德鲁那的姊妹艾琳·盖尼斯(Eileen Guinness),经由古德鲁那的介绍与费希尔相识。1917年,艾琳与费希尔结婚,当时她只有17岁。此外费希尔也受到自家姊妹们的帮助,建立并经营了一所称为布莱德菲尔德庄园的农场,在那里他们种植花圃与饲养动物。由于这座庄园的生计,他们在战争时期能够不需要领取政府的食物配给。
《天择的遗传理论》The Genetical Theory of Natural Selection
《实验的设计》The Design of Experiments
《统计学用表》Statistical tables for biological, (1938, 与Frank Yates合著)
《育种理论》The theory of inbreeding
《统计方法与科学推断》Statistical methods and scientific inference