机器学习与数据挖掘
文章平均质量分 85
本系列将涵盖机器学习与数据挖掘领域最常用的算法,包括有监督学习分类/回归算法与无监督学习聚类等算法,以及神经网络。并试图给出机器学习/数据挖掘算法解决实际问题的思路,方法与技巧。欢迎大家关注。
寒小阳
对机器学习/数据挖掘/算法感兴趣,并从事相关工作。『我们是一群热爱机器学习,喜欢交流分享的小伙伴,希望通过“ML学分计划”交流机器学习相关的知识,认识更多的朋友。Q_Q群号 : 2000人群169492443(已满), 2000人群564538990(已满), 2000人群285273721,从业和研究人员请加群472059892,欢迎加入获取资料,分享和讨论相关知识』
展开
-
机器学习系列(23)_SVM碎碎念part6:对偶和拉格朗日乘子
原文地址:SVM - Understanding the math - duality-lagrange-multipliers/ by Brandon Amos 感谢参与翻译同学:@Fox && @程超 && @吕征达 时间:2018年1月。 出处:http://blog.csdn.net/han_xiaoyang/article/details/70214565 声明:版权所有,转原创 2018-01-16 22:44:46 · 8893 阅读 · 2 评论 -
机器学习系列(22)_SVM碎碎念part5:凸函数与优化
原文地址:SVM - Understanding the math - convex-functions/ by Brandon Amos 感谢参与翻译同学:@程亚雄 && @张蒙 && @jozee 时间:2018年1月。 出处:http://blog.csdn.net/han_xiaoyang/article/details/70214565 声明:版权所有,转载请联系寒小阳 (h原创 2018-01-16 22:42:50 · 10603 阅读 · 1 评论 -
机器学习系列(21)_SVM碎碎念part4:无约束最小化问题
原文地址:SVM - Understanding the math - Unconstrained minimization by Alexandre KOWALCZYK 感谢参与翻译同学:@田苗苗 && @樊睿 && @jozee 时间:2018年1月。 出处:http://blog.csdn.net/han_xiaoyang/article/details/70214565 声明:原创 2018-01-16 21:39:21 · 9602 阅读 · 1 评论 -
机器学习系列(20)_机器学习性能改善备忘单
机器学习最有价值(实际应用最广)的部分是预测性建模。也就是在历史数据上进行训练,在新数据上做出预测。 而预测性建模的首要问题是:如何才能得到更好的结果?这个备忘单基于本人多年的实践,以及我对顶级机器学习专家和大赛优胜者的研究。原创 2016-12-04 10:46:05 · 19673 阅读 · 6 评论 -
机器学习系列(19)_通用机器学习流程与问题解决架构模板
本文由Searchmetrics公司高级数据科学家Abhishek Thakur提供。“一个中等水平的数据科学家每天都要处理大量的数据。一些人说超过60%到70%的时间都用于数据清理、数据处理及格式转化,以便于在之后应用机器学习模型。这篇文章的重点便在后者—— 应用机器学习模型(包括预处理的阶段)。此文讨论到的内容来源于我参加的过的数百次的机器学习竞赛。请大家注意这里讨论的方法是大体上适用的,当然还有很多被专业”原创 2016-10-24 11:20:13 · 35320 阅读 · 8 评论 -
机器学习系列(18)_Kaggle债务违约预测冠军经验分享
债务违约预测是Kaggle中的一个比赛,本文将介绍取得第一名成绩的方法,本次比赛的目标包括两个方面。其一是建立一个模型,债务人可以通过它来更好地进行财务方面的决策。其二是债权人可以预测这个债务人何时会陷入到财务方面的困境。最终目的是,通过预测未来两年内债务违约的概率,来改进现有的信用评分制度。这是一个极度复杂和困难的Kaggle挑战,因为银行和各种借贷机构一直都在不断地寻找和优化信用评分的算法。这个模型是银行用来判定原创 2016-10-11 15:54:13 · 51816 阅读 · 8 评论 -
机器学习系列(17)_Yelper推荐系统
“推荐”可是个当红话题。Netflix愿意用百万美金召求最佳的电影推荐算法,Facebook也为了登陆时的推荐服务开发了上百个项目,遑论现在市场上各式各样的应用都需要个性化服务。“从互联网中提取信息犹如用消防栓饮水”(Mitchell Kapor)。如今的信息量早已过载,要依据如此嘈杂的信息做出正确决定显然是艰难的。这也是为什么推荐系统日渐流行,尤其在像Netflix, Amazon, Echo,和Facebook原创 2016-10-10 15:38:24 · 27752 阅读 · 17 评论 -
机器学习系列(16)_怎样找到一份深度学习的工作(附学习材料,资源与建议)
如果你是一个软件工程师(或者你现在正在学习这一方面),你肯定有机会听说过深度学习(有时候深度学习缩写为”DL”)。它现在是一个热门、且快速发展的研究领域,解决工业界的一系列问题,从图像识别、手写识别到机器翻译,更甚于AlphaGo4比1击败了世界围棋冠军。 大部分人认为找与深度学习相关的工作应该具有博士学位或者大量的相关经验,但是如果你已经是一名很好的工程师,那你就可以很快、很好的学习这些必要的技能和技巧。原创 2016-10-10 14:43:06 · 37287 阅读 · 13 评论 -
机器学习系列(15)_SVM碎碎念part3:如何找到最优分离超平面
是的,咱们第1篇blog介绍了目标;第2篇blog介绍了向量相关的背景数学知识,看到了如何求解Margin的值;今天这个部分主要目的是和大家一起来看看,选择最优超平面的推理过程。以下是本篇的一个简短目录:如何找到最优超平面如何计算两超平面间的距离SVM的最优化问题是什么原创 2016-09-27 18:36:28 · 36932 阅读 · 5 评论 -
机器学习系列(14)_SVM碎碎念part2:SVM中的向量与空间距离
第一篇博客part1的部分很短,就说了一个事情,SVM在试图找一个Max Margin(最大间隔)的分离超平面。OK,这个部分要补补基础,复习一下数学,为后面的学习做准备(墙裂建议数学基础好的同学略过此节基础内容...)。咱们来看看SVM涉及到的向量和空间距离。原创 2016-09-27 11:59:54 · 17205 阅读 · 6 评论 -
机器学习系列(13)_SVM碎碎念part1:间隔
欠的总归是要还的,SVM这么神圣的算法是每个学习machine learning的同学可能会头痛却又不得不面对的,即使到现在为止博主这样的Math/CS渣都觉得一定没有领悟到SVM精髓,所以整理了一些边边角角的碎碎念,颤颤巍巍放到这个系列里,算是自己做个总结,也希望能对大家有一点点的帮助。这个SVM系列大部分内容来自Alexandre KOWALCZYK大神的[SVM Tutorial]原创 2016-09-27 10:23:23 · 15085 阅读 · 2 评论 -
机器学习系列(12)_XGBoost参数调优完全指南(附Python代码)
这篇文章主要讲了如何提升XGBoost模型的表现。首先,我们介绍了相比于GBM,为何XGBoost可以取得这么好的表现。紧接着,我们介绍了每个参数的细节。我们定义了一个可以重复使用的构造模型的函数。最后,我们讨论了使用XGBoost解决问题的一般方法,在AV Data Hackathon 3.x problem数据上实践了这些方法。希望看过这篇文章之后,你能有所收获原创 2016-09-25 23:35:50 · 211185 阅读 · 41 评论 -
机器学习系列(11)_Python中Gradient Boosting Machine(GBM)调参方法详解
这篇文章详细地介绍了GBM模型。我们首先了解了何为boosting,然后详细介绍了各种参数。 这些参数可以被分为3类:树参数,boosting参数,和其他影响模型的参数。最后我们提到了用GBM解决问题的 一般方法,并且用AV Data Hackathon 3.x problem数据运用了这些方法。原创 2016-09-25 17:33:34 · 106416 阅读 · 30 评论 -
机器学习系列(10)_如何提高深度学习(和机器学习)的性能
我经常被问到诸如`如何从深度学习模型中得到更好的效果`的问题,类似的问题还有:我如何提升准确度,如果我的神经网络模型性能不佳,我能够做什么?对于这些问题,我经常这样回答,“我并不知道确切的答案,但是我有很多思路”,接着我会列出了我所能想到的所有**或许能够给性能带来提升**的思路,。为避免一次次罗列出这样一个简单的列表,我决定把所有想法详细写在这篇博客里。这些思路应该是通用的原创 2016-09-24 23:34:19 · 35458 阅读 · 2 评论 -
机器学习系列(9)_机器学习算法一览(附Python和R代码)
写这篇文章的目的,就是希望它可以让有志于从事数据科学和机器学习的诸位在学习算法的路上少走些路。我会在文章中举例一些机器学习的问题,你们也可以在思考解决这些问题的过程中得到启发。我也会写下对于各种机器学习算法的一些个人理解,并且提供R和Python的执行代码。读完这篇文章,读者们至少可以行动起来亲手试试写一个机器学习的程序。原创 2016-04-19 16:04:48 · 46071 阅读 · 4 评论 -
机器学习系列(8)_读《Nature》论文,看AlphaGo养成
本文的主要目的是增进分享,交流学习,方便初学者了解AlphaGo中的算法,以及一些机器学习中的常见思路。真正的工程实现过程远比本文介绍得复杂。本文更多是启发式地进行阐述与分析,包括一些作者结合自己的理解进行的简化处理。文章中不严谨和理解不当之处,欢迎大家批评指出,我们努力修改完善。机器学习的第一步都是先了解业务。围棋的业务特点包括其基本规则、对弈特性和下棋的典型思路。根据这些业务特点,我们原创 2016-03-16 11:27:33 · 34961 阅读 · 6 评论 -
机器学习系列(7)_机器学习路线图(附资料)
计算机从数据中学习出规律和模式,以应用在新数据上做预测的任务。近年来互联网数据大爆炸,数据的丰富度和覆盖面远远超出人工可以观察和总结的范畴,而机器学习的算法能指引计算机在海量数据中,挖掘出有用的价值,也使得无数学习者为之着迷。我们不是专家,但说起算有一些从业经验,做过一些项目在实际数据上应用机器学习。这一篇就我们的经验和各位同仁的分享,总结一些对于初学者入门有帮助的方法和对进阶有用的资料。原创 2016-02-28 11:54:10 · 76051 阅读 · 23 评论 -
NLP系列(4)_朴素贝叶斯实战与进阶
本文为朴素贝叶斯的实践和进阶篇,先丢了点干货,总结了贝叶斯方法的优缺点,应用场景,注意点和一般建模方法。紧接着对它最常见的应用场景,抓了几个例子,又来了一遍手把手系列,不管是对于文本主题分类、多分类问题(犯罪类型分类) 还是 情感分析/分类,朴素贝叶斯都是一个简单直接高效的方法。尤其是在和逻辑回归的对比中可以看出,在这些问题中,朴素贝叶斯能取得和逻辑回归相近的成绩,但是训练速度远快于逻辑回归,真正的直接和高效。原创 2016-02-03 15:07:54 · 57088 阅读 · 16 评论 -
NLP系列(3)_用朴素贝叶斯进行文本分类(下)
上一篇文章我们主要从理论上梳理了朴素贝叶斯方法进行文本分类的基本思路。这篇文章我们主要从实践上探讨一些应用过程中的tricks,并进一步分析贝叶斯方法,最后以情绪褒贬分析和拼写纠错为例展示这种简单强大的方法在自然语言处理问题上的具体应用。原创 2016-02-03 15:02:55 · 34324 阅读 · 8 评论 -
NLP系列(2)_用朴素贝叶斯进行文本分类(上)
1. 引言贝叶斯方法是一个历史悠久,有着坚实的理论基础的方法,同时处理很多问题时直接而又高效,很多高级自然语言处理模型也可以从它演化而来。因此,学习贝叶斯方法,是研究自然语言处理问题的一个非常好的切入口。2. 贝叶斯公式原创 2016-02-01 09:51:55 · 45020 阅读 · 13 评论 -
机器学习系列(6)_从白富美相亲看特征预处理与选择(下)
初步划定特征的范围,获取特征李雷早就想过这个问题了。长期的职业素养让他对任何事情都想用机器学习的方法去鼓捣。李雷的基本思路是这样的,我们尽可能观察螃蟹更多的特征,从中找出与“螃蟹满黄”最相关的特征来,帮助我们去判断。当然特征有非常多,我们可以先头脑风暴一下:原创 2016-01-12 11:54:51 · 37382 阅读 · 13 评论 -
机器学习系列(5)_从白富美相亲看特征预处理与选择(上)
讲机器学习为什么要讲相亲?被讨论群里的小伙伴催着相亲,哦不,催着讲特征工程紧啊。只是我们不太敢讲这么复杂高深的东西,毕竟工程实践的经验太复杂了,没有统一的好解释的理论,一般的教材讲这方面的内容不多。我们就打算以一个相亲的故事为例,串一些特征工程的内容。原创 2016-01-08 12:20:33 · 33062 阅读 · 15 评论 -
手把手入门神经网络系列(2)_74行代码实现手写数字识别
作者: 龙心尘&&寒小阳 时间:2015年12月。 出处: http://blog.csdn.net/longxinchen_ml/article/details/50281247 声明:版权所有,转载请联系作者并注明出处,谢谢。1、 引言:不要站在岸上学游泳“机器学习”是一个很实践的过程。就像刚开始学游泳,你在只在岸上比划一堆规定动作还不如先跳到水里熟悉水性学习来得快。以我们学习“机原创 2015-12-13 12:36:20 · 51382 阅读 · 11 评论 -
手把手入门神经网络系列(1)_从初等数学的角度初探神经网络
作者: 龙心尘&&寒小阳 时间:2015年11月。 出处:http://blog.csdn.net/longxinchen_ml/article/details/50082873, 声明:版权所有,转载请联系作者并注明出处,谢谢。开场先扔个段子 在互联网广告营销中,经常会有这样的对话: 问:你们的人群标签是什么样的? 答:我们是专门为您订制的look-alike标签!原创 2015-11-29 22:11:12 · 30907 阅读 · 12 评论 -
机器学习系列(4)_机器学习算法一览,应用建议与解决思路
我们先带着大家过一遍传统机器学习算法,基本思想和用途。把问题解决思路和方法应用建议提前到这里的想法也很简单,希望能提前给大家一些小建议,对于某些容易出错的地方也先给大家打个预防针,这样在理解后续相应机器学习算法之后,使用起来也有一定的章法。## 2.机器学习算法简述按照不同的分类标准,可以把机器学习的算法做不同的分类。### 2.1 从机器学习问题角度分类我们先从机器学习问题本身分类的角度来看,我们可以分原创 2016-01-06 15:35:17 · 121507 阅读 · 16 评论 -
机器学习系列(3)_逻辑回归应用之Kaggle泰坦尼克之灾
f作者: 寒小阳 &&龙心尘 时间:2015年10月。 出处: 声明:版权所有,转载请注明出处,谢谢。手把手机器学习之逻辑回归应用——Kaggle泰坦尼克之灾1.引言先说一句,年末双十一什么的一来,真是非(mang)常(cheng)欢(gou)乐(le)!然后push自己抽出时间来写这篇blog的原因也非常简单:写完前两篇逻辑回归的介绍和各个角度理解之后,小伙伴们纷纷表示『好像很高级的样纸,原创 2015-11-12 12:07:12 · 431121 阅读 · 232 评论 -
机器学习系列(2)_从初等数学视角解读逻辑回归
作者:龙心尘 && 寒小阳 时间:2015年10月。 出处:http://blog.csdn.net/han_xiaoyang/article/details/49123419。 声明:版权所有,转载请注明出处,谢谢。一、 引言前一篇文章《机器学习系列(1)_逻辑回归初步》中主要介绍了逻辑回归的由来,作用和简单的应用,这里追加这篇《机器学习系列(2)用初等数学视角解读逻辑回归》来看看从直观原创 2015-10-22 13:24:52 · 36236 阅读 · 22 评论 -
机器学习系列(1)_逻辑回归初步
1、总述逻辑回归是应用非常广泛的一个分类机器学习算法,它将数据拟合到一个logit函数(或者叫做logistic函数)中,从而能够完成对事件发生的概率进行预测。2、由来 要说逻辑回归,我们得追溯到线性回归,想必大家对线性回归都有一定的了解,即对于多维空间中存在的样本点,我们用特征的线性组合去拟合空间中点的分布和轨迹。如下图所示: 线性回归能对连续值结果进行预测,原创 2015-10-14 13:18:43 · 132555 阅读 · 39 评论