机器学习
znsw
这个作者很懒,什么都没留下…
展开
-
机器学习之评估假设
评估假设这一章其实只是机器学习的一个外层实验方法的一种描述,并不触及到机器学习的核心。因为机器学习是想通过有限的样例来训练出一个较为通用的model,而这有限的样例是否能够代表全体样例空间呢?通过这有限的样例训练的model能否具有通用性呢?评估假设就是通过统计理论来讨论这件事情。评估假设介绍了有限样本、假设、学习算法之间的好坏等等与真实之间的关系,这些关系通过概率理论中的置信区间来描原创 2007-12-08 18:06:00 · 485 阅读 · 0 评论 -
理解矩阵2
接着理解矩阵。上一篇里说“矩阵是运动的描述”,到现在为止,好像大家都还没什么意见。但是我相信早晚会有数学系出身的网友来拍板转。因为运动这个概念,在数学和物理里是跟微积分联系在一起的。我们学习微积分的时候,总会有人照本宣科地告诉你,初等数学是研究常量的数学,是研究静态的数学,高等数学是变量的数学,是研究运动的数学。大家口口相传,差不多人人都知道这句话。但是真知道这句话说的是什么意思的人,好像也不转载 2007-12-11 14:42:00 · 492 阅读 · 0 评论 -
Prank
大家总说这个prank,我今天也研究了一番,找了这篇经典的《Pranking with Ranking》Koby Crammer and Yoram Singer,看了一下午终于看明白了通俗讲,就是通过分割一条直线,弄出N个格子,利用感知机建立基础模型,通过感知机输出来确定样例在哪个格子里面,通过训练数据来训练感知机,具体的方法和普通的机器学习方法好像一样(这个方向错了,就往反方向来点)原创 2007-12-08 18:15:00 · 646 阅读 · 0 评论 -
随机数与人工智能
我一直钟爱“随机数”,因为我认为只有计算机产生真正的随机数,我们才能真正实现人工智能。计算机的软件和硬件无非是一些规则的体现,而这些规则是完完全全确定的。所以我们不能指望着我们的机器能够给我带来多大的惊喜,它只能给我们带来人类自己思路的一种有限的扩展、一种已知集合闭包内的关系。我认为现在的计算机与人类或是生物最本质的区别就是计算机不能产生真正的随机数,也就是说计算机不能产生不可预知的结原创 2007-12-08 18:13:00 · 572 阅读 · 1 评论 -
co-training
大致意思就是利用2个视角训练出来2个分类器,然后对未标注数据进行分类,每个里面得到最确定的一些交给对方的分类器去训练(要利用条件概率和联合概率)。重复上面的过程,知道2个分类器达到一致利用两个分类器来互相影响,来泛化分类器原创 2007-12-08 18:10:00 · 531 阅读 · 0 评论 -
排序学习
排序学习问题和机器学习中的分类学习和回归学习有着密切的联系,但是排序学习又有自己的特点。分类学习的输出空间是离散且无序的集合,如二值分类问题的输出空间为{+1,-1} ,其中+1 和-1只是代表不同的类别,并没有区分其大小;回归学习的输出空间为实数集合或者实数轴的一段,其中包含了无穷个元素,并且元素之间定义了序和度量。排序学习介于分类学习和回归学习之间,与分类学习相比,排序学习的输出空间虽然也原创 2007-12-08 17:59:00 · 262 阅读 · 0 评论 -
关于研究方法的疑惑
文本挖掘和数据挖掘是不同的,数据挖掘仅仅是对简单的大量数据进行操作,发现关联相似度。文本挖掘所面对的数据是人类创造的文本,是人类智慧的结晶,是利用了有限的词汇所构造的千变万化的东西(想一想为什么会有诺贝尔文学奖),文本所带有的信息量并不是简简单单的用一些tfidf就能描述的。文本是利用词作为载体,利用不同的词和位置顺序来表达人类思想。但是现在的文本挖掘仍然利用原始的数据挖掘的方法来抽取简单的特征,原创 2007-12-08 18:14:00 · 494 阅读 · 0 评论 -
本科论文工作总结与新的想法
本科毕业论文的主题为“自动问答系统”,现在谈一下什么叫自动问答系统和从自动问答系统所引出的理论、技术思考。 自动问答系统的对外暴露的特征是以自然语言为提问方式,输出准确的答案。它的实质是语言建模、信息检索、答案抽取。 从自动问答系统的整个运行流程上看1,首先语言建模首先会对用户的问题进行建模,使机器理解用户的提问文本2,通过语言模型和信息检索,将与语言模型有关的文档返回。3,从相关原创 2007-12-08 18:12:00 · 582 阅读 · 0 评论 -
Transductive
Step1. 首先对有标签样本进行一次初始学习,得到一个初始分类器,并按照某个规则指定一个无标签样本中的正标签样本数N. Step2. 用初始分类器对无标签样本进行分类,根据对每一个无标签样本的判别函数输出,对输出值最大的 N 个无标签样本暂时赋正标签值,其余的赋负标签值 Step3. 对所有样本重新训练,对新得到的分类器,按一定的规则交换一对标签值不同的测试样本的标签符号,使得优化问原创 2007-12-08 18:08:00 · 465 阅读 · 0 评论 -
Query level ranking learning
首先介绍一下一堆符号d为文档,q为查询,s为某个查询返回的文档集中的文档的分数,pi为通过分数排序后的序x为训练样例,这里面x=f(q,d),将qd对作为一个样例。Query Level的loss function1)基于qd对的 lf,(每个对+一个这个对的评价)作为训练样例,这种方法最直接2)基于文档序列对的lf,将排序问题转换为二值分类问题,这种方法最易实现3)基于查询级别的lf,将每个原创 2008-04-29 14:21:00 · 381 阅读 · 0 评论