机器学习
CDA·数据分析师
分享数据分析和人工智能领域的干货或外文翻译,囊括数据挖掘、数据分析、大数据分析、机器学习、深度学习、神经网络、算法工程、AI科技。还有职场经验交流、时代热门资讯,以及人生的点点滴滴。望大家一起努力,成为更好的自己!
展开
-
避免五大误区丨新手数据科学家进阶之路
**作者 Jan Zawadzki 编译 Mika 本文为 CDA 数据分析师原创作品,转载需授权**你为成为数据科学家做了充分的准备,但实际的工作将于你的预期大不相同。你为成为数据科学家做好了充分的准备。你参加Kaggle比赛,看了大量的Coursera课程。你感觉已经准备好了,但数据科学家的实际工作将与你的预期大不相同。本文探讨了数据科学家新手的5个常见错误。这是由我在S...翻译 2018-09-11 16:37:23 · 269 阅读 · 0 评论 -
硅谷大佬: 十年后人工智能和机器学习会怎样发展?
来源:Foursquare编译: Mika本文为 CDA 数据分析师原创作品,转载需授权如今科技的进步就像科幻小说中写的那样,无人驾驶汽车,能控制开灯或烤面包的智能音响,在空中飞行的无人机。现在是2018年,虽然人们对人工智能和机器学习的预期尚未全部实现,但也取得了令人瞩目的进展。作为一个定位技术平台,Foursquare了解AI和机器学习能够给人们生活和移动方式产生的影响。以我们的Pi...原创 2018-09-30 12:01:26 · 484 阅读 · 0 评论 -
干货 | 机器学习没有你想的那么复杂
作者 | Anish Phadnis翻译 | Mika本文为 CDA 数据分析师原创作品,转载需授权人脑是最神奇的。你知道我更感兴趣的是什么吗?是我们的学习能力。我们如何能够适应并学习全新的技能,然后应用到日常生活之中呢?我有一个6岁的弟弟,我看着他从懵懵懂懂的小婴儿逐渐长大。他学会了如何爬行、走路、跑;如何学会说话,理解简单的语法和简单的数学。本文中我就要谈谈如何让机器复制这种学习的...原创 2018-11-09 16:05:57 · 344 阅读 · 0 评论 -
数据科学家的自我修养 | 哪些技能是必不可少的?
作者: Jeff Hale编译: MikaCDA 数据分析师原创作品,转载需授权市场上对数据科学家的要求特别多:需要掌握机器学习、计算机科学、统计学、数学、数据可视化,深度学习等知识。要想全部掌握这些方面的知识,科学家需要学习数十种语言、框架和技术。那么,为此数据科学家应该如何合理地分配时间,该掌握哪些技能呢?在本文中,我对求职网站进行搜索,找出对数据科学家的技能要求。我分别分析了通常的...原创 2018-11-21 15:35:50 · 270 阅读 · 0 评论 -
带你轻松看懂机器学习工作流——以“点一份披萨外卖”为例
作者 | Daniel Godoy翻译 | Mika本文为 CDA 数据分析师原创作品,转载需授权想象一下你点了一份披萨外卖,过了一会儿美味热腾腾的披萨就送到家门口了。你有没有想过从下单点外卖到披萨送过来当中的工作流程呢?我指的是完成的工作流程,包括从种下披萨上的西红柿到外卖骑手送单到你的楼下。其实这一系列过程与与机器学习工作流程并没有什么不同。不妨让我们来看看。这篇文章的灵感来自G...原创 2019-01-03 12:44:12 · 317 阅读 · 0 评论 -
展望2019 | 数据科学、机器学习和人工智能领域的五大预测
作者:William VorhiesCDA数据分析研究院原创作品, 转载需授权2018年刚刚结束,在2019年到来之际,让我们一起展望在今年数据科学、机器学习和人工智能领域会有怎样的发展趋势。首先让我们快速回顾一下,去年我们曾做出了哪些预测。2018年预测回顾预测1模型生产和数据准备都将越来越自动化。大型的数据科学操作将集中在一个平台上。这两种趋势都是为了提高效率,从而让更少的数...原创 2019-01-18 11:39:15 · 504 阅读 · 0 评论 -
机器学习要注意的事情(五)
在上一篇文章中我们给大家介绍了机器学习需要注意的相关事项,这些内容都是我们在学习机器学习时必须注意的内容,今天我们会继续为大家介绍更多有关机器学习需要注意的内容,希望这篇文章能够更好地帮助大家理解机器学习。我们需要注意的是,理论保证通常与实际情况不一样,这是因为机器学习的论文充满了理论保证。最常见的类型是为了确保良好的泛化所需要的示例数量。这就需要我们正确看待这些理论保证。首先,我们需要注意的...原创 2019-02-14 16:00:35 · 200 阅读 · 0 评论 -
机器学习要注意的事情(六)
我们在上一篇文章中给大家介绍了很多关于机器学习需要注意的事情,这些事情都是前辈们踩过的陷阱,所以这些内容对于我们来说可谓是弥足珍贵的经验。我们在前面的文章中也给大家介绍了很多关于机器学习的内容,在这篇文章中我们继续为大家介绍相关的内容,希望大家能够有所收益。首先我们需要注意的是可表征不意味着可学习。在本质上来说所有用于可变规模学习器的表征都与每个函数都可以用这样的表征方式来表示或近似的相关。基...原创 2019-02-14 16:07:37 · 161 阅读 · 0 评论 -
机器学习中的基础知识(入门上篇)
前面我们已经给大家讲述了很多有关机器学习的概念,这些概念都是十分重要的,我们如果要学习人工智能的话就需要重视这些知识。在这篇文章我们接着给大家介绍机器学习中的基础知识,希望这篇文章能够给大家带来帮助。(1)正则化就是对模型复杂度的惩罚。正则化帮助防止过拟合。正则化包括不同种类:L1 正则化、L2 正则化、dropout正则化。(2)正则化率就是一种标量级,用lambda来表示,指正则函数的相...原创 2019-02-16 14:57:25 · 244 阅读 · 0 评论 -
机器学习中的基础知识(入门中篇)
机器学习涉及到的知识有很多,我们在前面的文章中也给大家列举了大量的机器学习的概念,想要了解这些概念不是一个十分简单的事情,但是我们只要理解了这些我们就能够更好地去做机器学习工作,从而为人工智能服务。下面我们就给大家介绍一下机器学习中另外一部分的基础知识。(1)标签就是在监督式学习中,样本的答案或结果。标注数据集中的每个样本包含一或多个特征和一个标签。(2)标注样本包含特征和标签的样本。在监督...原创 2019-02-16 15:06:26 · 237 阅读 · 0 评论 -
机器学习中的基础知识(入门下篇)
机器学习作为人工智能的核心学科,倍受大家的关注,所以对于机器学习的知识掌握的要求是比较严格的,只有扎实的基础知识我们才能够学好机器学习。虽然说机器学习知识是十分广泛的,但我们还是要一步一步慢慢了解其中的内容,这样我们才能够做好机器学习知识的储备。好了,我们现在就进入正题。(1)测试数据就是有意不用于训练的样本。验证数据集和测试数据集是测试数据的两个例子。测试数据帮助评估模型泛化到除了训练数据之...原创 2019-02-16 16:19:24 · 212 阅读 · 0 评论 -
机器学习中的基础知识(深入上篇)
机器学习的知识有很多,我们在前面的文章中讲述的都是相对比较简单的知识,想必那些已经让大家头疼不已吧?在这篇文章中我们给大家介绍一下机器学习中深层次的知识。大家跟着小编学起来吧。(1)层就是神经网络中的神经元序列,可以处理输入特征序列或神经元的输出。也是 TensorFlow 的一种抽象化概念。层是将张量和配置选项作为输入、输出其他张量的 Python 函数。一旦必要的张量出现,用户就可以通过模...原创 2019-02-16 16:43:31 · 200 阅读 · 0 评论 -
机器学习中的基础知识(深入中篇)
在上一篇文章中我们给大家介绍了很多机器学习中深层次的基础知识,看起来这是一句十分矛盾的话,但是我们不难发现越往后介绍的知识的理解难度逐渐加大,所以就需要我们对前面的文章提到的知识做到掌握才行,我们在这篇文章中继续为大家介绍机器学习中的其他部分的知识。(1)归一化就是将值的实际区间转化为标准区间的过程,标准区间通常是-1 到+1 或 0 到 1。(2)目标就是算法尝试优化的目标函数。(3)离...原创 2019-02-16 16:53:53 · 227 阅读 · 0 评论 -
机器学习中的基础知识(深入下篇)
我们都知道,机器学习是人工智能中十分重要的内容,所以在前面的文章中我们给大家介绍了很多关于机器学习的知识,这些知识只是概念,还不是机器学习中更加深入的内容,不过要想学习深入知识就需要了解基础知识,下面我们就给大家介绍一下机器学习中的基础知识。(1)正类,在二元分类中,有两种类别:正类和负类。正类是我们测试的目标。(2)精度就是分类模型的一种指标。准确率指模型预测正类时预测正确的频率。(3)...原创 2019-02-16 17:01:14 · 205 阅读 · 0 评论 -
详解机器学习中的K近邻算法(上)
在人工智能中,机器学习是一个十分重要的内容,而在机器学习中,k近邻算法是一个十分容易理解的机器学习算法。正因为容易理解,并且k近邻算法也是一个十分重要的内容,所以我们在这几篇文章中给大家介绍一下k近邻算法的具体内容,希望这篇文章能够帮助到大家。不少朋友问,k近邻算法能够给我们带来什么呢?我们就从几个方面解答一下这个问题。在评估算法好坏的准则中,k 近邻算法可以用于分类问题,一个最容易理解的评价...原创 2019-02-16 17:26:06 · 302 阅读 · 0 评论 -
详解机器学习中的K近邻算法(中)
在上一篇文章中,我们给大家介绍了k近邻算法的作用以及k近邻算法的核心思想,只能说理解了这些内容算是做到了入门K近邻算法。在这篇文章中我们给大家详细地介绍K近邻算法中更多详细的内容,旨在帮助大家更好地理解机器学习以及人工智能,下面我们马上进入正题。首先我们说一下K近邻算法的三个要素,第一就是超参数k,第二就是距离的定义,这距离的定义就是欧氏距离,第三就是决策的规则,比如投票表决,或者加权投票。这...原创 2019-02-16 17:29:59 · 263 阅读 · 0 评论 -
常见决策树分类算法都有哪些?
我们都知道,在机器学习中我们有很多的问题都是需要使用决策树来解决,由此我们不难发现决策树是一个十分实用的内容,这是因为决策树的算法是十分给力的。其实决策树的算法也是有很多的,我们在这篇文章中给大家详细地介绍一下决策树的分类算法。首先我们给大家介绍一下C4.5算法,这种算法就是基于ID3算法的改进,主要包括:使用信息增益率替换了信息增益下降度作为属性选择的标准;在决策树构造的同时进行剪枝操作;避...原创 2019-02-22 14:22:11 · 1789 阅读 · 0 评论 -
机器学习中容易出现的误区
在机器学习中很多人都可能有一定的误解,那就是认为复杂的事物容易出错,而简单的事物往往会得到极高的准确率,那么事实真的是这样的吗?在这篇文章中我们详细的给大家介绍一下这个问题,并给大家介绍一下特征的相关知识。其实简单并不意味着准确。在机器学习中,这通常意味着,给定两个具有相同训练错误的分类器,两者中较简单的可能具有最低的测试错误。有关这一说法的证据在文献中经常出现,但事实上有很多反例,比如“天底...原创 2019-02-22 14:51:58 · 219 阅读 · 0 评论 -
深度学习中的强化学习和对抗学习
在人工智能中,有两个十分重要的内容,第一就是机器学习,第二就是深度学习。正是由于机器学习与深度学习,人工智能才能够帮助我们做出更多的事情。其实,深度学习也是有分类的。深度学习可以分为两种,一种是强化学习,另一种则是对抗学习。在这篇文章中我们就简单为大家介绍一下强化学习和对抗学习的知识。其实强化学习和对抗学习,相对来说,都是深度学习比较前沿的部分。一般来说,强化学习是人工智能在训练中得到策略的训...原创 2019-02-22 16:57:29 · 2304 阅读 · 0 评论 -
详解机器学习中的K近邻算法(下)
我们在上一篇文章中给大家介绍了很多关于K近邻算法的知识,比如K近邻算法的三要素、算法执行的步骤、应用领域以及注意事项,但是K近邻算法的使用注意事项可能大家可能不是很清楚的,我们在这篇文章中针对这个问题进行解答,并且告诉大家K近邻算法的优点以及缺点。K近邻算法的使用注意事项我们在前面已经提到,具体就是使用距离作为度量时,要保证所有特征在数值上是一个数量级上,以免距离的计算被数量级大的特征所主导。...原创 2019-02-17 16:33:09 · 260 阅读 · 0 评论 -
机器学习的步骤都有哪些(一)
我们都知道,现阶段人工智能是一个十分火爆的概念,人工智能能够给我们的生活带来很多的方便。其实人工智能中机器学习也是一个十分火热的概念,而不管是什么技术都会有很多的步骤,那么机器学习用的步骤都有哪些呢?下面我们就给大家介绍一下这些内容。机器学习中有三个步骤,第一就是表示,第二就是评价,第三就是优化,我们首先给大家介绍一下机器学习中的表示,在表示这一步当中,需要我们建立起数据,还有实际问题的抽象模...原创 2019-02-19 16:21:07 · 1042 阅读 · 0 评论 -
机器学习的步骤都有哪些(二)
在上一篇文章中我们给大家介绍了机器学习的步骤,机器学习中的步骤有三个,第一就是表示,第二就是评价,第三就是优化。上一篇文章中我们给大家介绍了机器学习的第一个步骤——表示,而表示还涉及到了一些算法,下面我们就给大家介绍一下这些内容。机器学习中涉及到了很多的算法,比如K-近邻算法、回归模型、决策树、SVM支持向量机。我们首先给大家说一下K-近邻算法。在机器学习当中,我们常见的有 K-近邻算法。K-...原创 2019-02-19 16:32:55 · 519 阅读 · 0 评论 -
机器学习的步骤都有哪些(三)
我们在前面的文章中给大家介绍了机器学习步骤中的第一个步骤,那就是表示,而表示中涉及到了很多的算法,具体的算法有K-近邻算法、回归模型、决策树、SVM支持向量机这些算法都是非常实用的,我们在这篇文章中给大家介绍机器学习中的第二个步骤和第三个步骤,那就是评价和优化。首先我们给大家说一下评价,当我们在进行机器学习工作的时候,需要寻找模型,在给定了模型之后,我们如何评价这个模型的好坏呢?这个时候就需要...原创 2019-02-19 16:45:34 · 1907 阅读 · 0 评论 -
机器学习的步骤都有哪些(四)
在上一篇文章中我们给大家介绍了机器学习中的两个步骤,也就是评价步骤和优化步骤,这些步骤都涉及到了很多的数学工具,我们在这篇文章中给大家介绍一下这些数学工具,希望这篇文章能够帮助大家更好地理解机器学习以及机器学习中的步骤。在评价步骤中,涉及到了两种数学工具,它们分别是最小均方误差和最大后验概率,首先我们给大家说一下最小均方误差,均方误差是反映估计量与被估计量之间差异程度的一种度量。设t是根据子样...原创 2019-02-19 16:56:48 · 454 阅读 · 0 评论 -
机器学习的步骤都有哪些(五)
机器学习中涉及到了很多的数学工具,我们在前面的文章中给大家介绍了很多,其中线性代数是一个比较常见的数学工具,在这篇文章中我们重点给大家介绍一下概率统计这一数学工具,希望这篇文章能够给大家带来帮助。在前面的文章中我们说到,线性代数起作用是在表示的过程当中。在评价过程中,我们需要使用到概率统计。概率统计包括了两个方面,一方面是数理统计,另外一方面是概率论。数理统计好理解,机器学习当中应用的很多模型...原创 2019-02-19 17:08:22 · 257 阅读 · 0 评论 -
机器学习的步骤都有哪些(六)
我们在上一篇文章中给大家介绍了机器学习中的概率统计的知识,概率统计知识在机器学习中评价步骤中用的很多。其实最优化理论在机器学习中的优化步骤中也是十分重要的,下面我们就给大家介绍一下这些内容。最优化理论,我们一看就知道这是用在机器学习的优化中,在最优化理论当中,主要的研究方向是凸优化。凸优化当然它有些限制,但它的好处是什么呢?能够简化这个问题的解。因为在优化当中我们都知道,我们要求的是一个最大值...原创 2019-02-19 17:15:42 · 341 阅读 · 0 评论 -
机器学习中的基础知识(一)
(1)准确率的概念,准确率就是分类模型预测准确的比例。(2)AUC(曲线下面积)则是一种考虑到所有可能的分类阈值的评估标准。ROC 曲线下面积代表分类器随机预测真正类要比假正类概率大的确信度。(3)激活函数就是一种函数,也就是将前一层所有神经元激活值的加权和输入到一个非线性函数中,然后向下一层传递该函数的输出值。(4)AdaGrad是一种复杂的梯度下降算法,重新调节每个参数的梯度,高效地给...原创 2019-02-19 17:21:50 · 370 阅读 · 0 评论 -
机器学习中的基础知识(二)
在上一篇文章中我们给大家介绍了很多的机器学习中的基础知识,机器学习的基础知识是比较零碎的,但却是十分重要的,所以我们要重视这些内容。在这篇文章中我们会继续为大家介绍机器学习涉及到的基础概念,希望大家能够重视起来。(1)候选采样是一种优化训练时间的方式,使用 Softmax 等算法计算所有正标签的概率,同时只计算一些随机取样的负标签的概率。这个想法的思路是,负类别可以通过频率更低的负强化进行学习...原创 2019-02-19 17:26:09 · 293 阅读 · 0 评论 -
机器学习中的基础知识(三)
通过前两篇文章我们给大家介绍了机器学习的相关概念,我们不难看出,机器学习的知识是十分零碎的,这是因为机器学习涉及到的知识有很多,在这篇文章中我们继续为大家介绍机器学习的知识,希望这篇文章能够给大家带来帮助。(1)分类阈值应用于模型的预测分数以分离正类别和负类别的一种标量值标准。当需要将 logistic 回归的结果映射到二元分类模型中时就需要使用分类阈值。(2)凸函数就是一种形状大致呈字母 ...原创 2019-02-19 17:31:35 · 182 阅读 · 0 评论 -
简单介绍数据分析行业中的六个技术(二)
在上面的文章中我们给大家介绍了数据分析行业中数据分析和数据挖掘的基本概念知识,这些知识也只能帮助我们初步了解这些内容,我们在这篇文章中给大家介绍机器学习和深度学习的知识,帮助大家一步步深入了解整个数据分析行业。首先我们个给大家说一下机器学习,其实机器学习是人工智能的一个分支。人工智能的研究历史有着一条从以推理为重点,到以知识为重点,再到以学习重点的自然、清晰的脉络。显然,机器学习是实现人工智能...原创 2019-02-14 13:58:28 · 314 阅读 · 0 评论 -
机器学习之随机森林(一)
如果大家想学人工智能的话,那么就一定不能够忽视有关机器学习的内容。这时候就会有人问,什么是机器学习?所谓机器学习就是一门多领域交叉学科,涉及概率论、统计学、逼近论等多门学科。机器学习是专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能的一门技术,而机器学习中随机森林是一个十分重要的算法,在这篇文章中我们就详细给大家介绍一下随机森林的相关...原创 2019-02-20 16:57:51 · 1851 阅读 · 1 评论 -
机器学习之随机森林(二)
在上一篇文章中我们简单给大家介绍了关于机器学习的知识,顺便也讲了讲机器学习误差的原因。其实不管是什么算法都是有方差和偏差存在的。在理想情况下,机器学习的误差就会小的很多。随机森林是可以减少方差的,而我们在上一篇文章中也留给大家两个问题,第一是随机森林是怎么减少这种误差?第二个问题是随机森林有什么优缺点。带着这两个问题,我们给大家介绍一下这些内容。其实随机森林一种可以减少方差的算法,如果大家接触...原创 2019-02-20 17:06:27 · 454 阅读 · 0 评论 -
机器学习之随机森林(三)
随机森林在机器学习中是一个十分重要的算法,大家可能对机器学习感到很陌生,但是大家一定不会对人工智能感到陌生。而机器学习是人工智能中是一个十分重要的内容,而随机森林又是机器学习中的内容。由此可见,随机森林是值得我们去学习的,在前面我们也给大家介绍了很多关于随机森林的知识,接下来的内容我们继续为大家讲述随机森林的最后一部分。我们在前面的文章中讲述了随机森林是怎么降低偏差和方差的,但是大家是否知道随...原创 2019-02-20 17:11:45 · 1204 阅读 · 0 评论 -
逻辑回归和支持向量机的联系是什么?
我们在学习机器学习或者人工智能的时候都会接触到一些关于逻辑回归和支持向量机的知识,但是很多朋友对于逻辑回归和支持向量机的联系不是很清楚。在这篇文章中我们就详细给大家介绍一下这些内容。首先我们给大家介绍一下逻辑回归和支持向量机的相同点,这两种算法的相同点uti体现在五点,第一点就是这两种算法都是分类算法,且一般处理二分类问题。第二点,都是监督学习算法。第三点两个方法都可以增加不同的正则化项。第四...原创 2019-02-20 17:30:33 · 1051 阅读 · 0 评论 -
深度学习如何改进(一)
在人工智能中,深度学习和机器学习都是十分重要的内容。熟知这两种知识是学习人工智能的前提条件。人工智能在不断地发展,深度学习也在某种程度上取得了很大的进步。在这篇文章中我们会详细给大家介绍一下深度学习模型改变的方向,以及改进以后有什么突出的特点。希望能够帮助到大家。其实深度学习涉及到了神经网络的工程原理和实践,而深度学习也有很多基本元素,神经网络的知识涉及到了很多分支,比如前馈神经网络、卷积神经...原创 2019-02-20 17:36:15 · 1165 阅读 · 1 评论 -
SKlearn中分类决策树的重要参数详解
classsklearn.tree.DecisionTreeClassifier(criterion=’gini’, splitter=’best’, max_depth=None, min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features=None, random_state=None,...原创 2019-03-08 16:01:59 · 527 阅读 · 0 评论 -
机器学习之决策树在sklearn中的实现
小伙伴们大家好~o( ̄▽ ̄)ブ,首先声明一下,我的开发环境是Jupyter lab,所用的库和版本大家参考:Python 3.7.1(你的版本至少要3.4以上Scikit-learn 0.20.0 (你的版本至少要0.20Graphviz 0.8.4 (没有画不出决策树哦,安装代码conda install python-graphvizNumpy 1.15.3, Pandas 0.23...原创 2019-03-06 16:29:36 · 277 阅读 · 0 评论 -
机器学习处理问题如何选择一个合适的算法?
我们在进行数据分析或者数据挖掘工作的时候,总会遇到很多的问题,而解决这些问题的方式有很多。如果需要我们用机器学习来处理,那么就需要我们根据算法去选择一个合适的算法。但问题是,用机器学习处理问题,该如何选择一个合适的算法呢?下面我们就给大家介绍一下选择算法的流程,希望这篇文章能够更好地帮助大家理解机器学习。选择算法是一个比较麻烦的事情,但是并不是不能选择,选择就需要我们十分细心,这样我们才能够选...原创 2019-03-06 17:45:36 · 296 阅读 · 0 评论 -
关于机器学习需要了解的知识
当我们要学习人工智能的时候,我们需要学习很多的知识,比如机器学习、深度学习等。一般来说,机器学习是人工智能的核心知识,要想学好人工智能就必须重视机器学习的知识。在这篇文章中我们给大家介绍一下关于机器学习需要了解的知识。当然,说到机器学习就必须要说一下机器学习算法,在机器学习算法中,尤其是神经网络被认为是新的人工智能革命的起因。而机器学习中涉及到了增强学习,那么什么是增强学习呢?数据驱动算法可以...原创 2019-03-06 17:51:49 · 256 阅读 · 0 评论 -
sklearn中的数据预处理和特征工程
小伙伴们大家好~o( ̄▽ ̄)ブ,我是菜菜,我的开发环境是Jupyter lab,所用的库和版本大家参考:Python 3.7.1(你的版本至少要3.4以上Scikit-learn 0.20.0 (你的版本至少要0.19Numpy 1.15.3, Pandas 0.23.4, Matplotlib 3.0.1, SciPy 1.1.01 sklearn中的数据预处理和特征工程sklearn...原创 2019-03-14 15:33:53 · 1589 阅读 · 0 评论