Hands-on Machine Learning with Scikit-Learn, keras, and Tensorflow(机器学习系统的类型)学习笔记(一)

本文介绍了机器学习的基础概念,包括机器学习的定义、为何使用机器学习,以及机器学习系统的主要类型,如监督学习、非监督学习、半监督学习和强化学习。文章详细阐述了每种学习类型的特点和应用场景,如监督学习中的分类和回归,非监督学习中的聚类和降维。此外,还讨论了在线学习和批量学习的区别以及基于实例和基于模型的学习方法。
摘要由CSDN通过智能技术生成

碎碎念

  • 从今天开始,博主开始学习Hands-on Machine Learning with Scikit-Learn,Keras & Tensorflow(2nd Edition,Tensorflow 2),这本书的第一版已经有大佬翻译过了,但第二版(Tensorflow 2)好像没有。博主尝试阅读英文原著的第二版,同时也会使用博客记录和分享自己的学习笔记。

Chapter 1 机器学习概览

  • 当大多数人听到“机器学习”,他们会想象着一个机器人:这个机器人是一个可靠的管家或者是一个可怕的终结者,这个想象取决于你询问的是谁。但是机器学习并不仅仅是未来主义的幻想,它早已经存在。事实上,在特定的应用中机器学习早已经存在了几十年,例如光学字符识别(OCR)。但是第一个改善数亿人生活、“接管世界”、真正成为主流的机器学习应用是在20世纪90年代:它是一个垃圾邮件过滤器。这个应用不完全是一个自我意识的天网(Skynet),但它在技术上确实符合机器学习(它实际上被学习的很好,以至于你很少需要将电子邮件标记为垃圾邮件)。数百个机器学习应用程序正悄悄地为您定期使用的产品和功能提供服务,这些应用从推荐到语言搜索。
  • 机器学习从哪里开始,又从哪里结束?机器去学些一些东西到底意味着什么?如果我下载一份维基百科,我的电脑真的“学到”了什么吗?是不是突然变聪明了?在本章中,我们将首先澄清什么是机器学习,以及为什么您可能想要使用它。
  • 然后,在我们开始探索机器学习领域之前,我们将看一下地图并了解主要的类别以及最著名的算法:监督与无监督学习、在线学习与批量学习、基于实例的学习与基于模型的学习。然后我们将研究机器学习项目的一般工作流程、讨论你可能面临的主要挑战、以及涵盖如何评估和微调(fine-tune)机器学习系统。
  • 本章介绍了许多基本概念(和行话),每个数据科学家都应该心知肚明。这将是一个高层次的概述(唯一没有太多代码的章节),所以这些都相当简单,但是在继续阅读这本书其余部分之前,你应该确保这一切对你来说都是清晰的。
什么是机器学习?
  • 机器学习是编程计算机的科学(和艺术),因此他们可以从数据中学习。
  • 这里有一个稍微笼统的定义:[机器学习是]研究领域,它使计算机能够在没有明确编程的情况下学习(Arthur Samuel, 1959)。
  • 以及一个更工程导向的定义:假设用 P P P来评估计算机程序在某任务类 T T T上的性能,若一个程序通过利用经验 E E E T T T中任务上获得了性能改善,则我们可以说关于 T T T P P P,该程序对 E E E进行了学习(Tom Mitchell, 1997)。
  • 例如,你的垃圾邮件过滤器是一个机器学习程序,它能够在给定垃圾邮件样本(例如,用户标记)和常规邮件样本(非垃圾邮件)情况下学习去标记垃圾邮件。系统用来学习的样本被称为训练集(training set)。每一个训练样本被称为一个训练实例(training instance)。在上述情况下,任务 T T T是标记新邮件为垃圾邮件,经验 E E E是训练数据(training data),以及性能度量 P P P需要被定义(例如,你能够使用正确分类邮件的比例来定义性能 P P P)。这个特殊的性能度量被称为准确率(accuracy),它在分类任务中经常被使用。
  • 如果你只是下载了一份维基百科的副本,你的电脑有更多的数据,但它并不是突然更擅长任何任务。因此,这不是机器学习。
为什么使用机器学习?
  • 考虑下如何使用传统的编程技术来编写垃圾邮件过滤器(Figure 1-1 传统方法):
    在这里插入图片描述
  • 1、首先你会去了解什么样的邮件是垃圾邮件。你可能会注意到,一些单词或短语(如“4U”、“信用卡”、“免费”和“惊人”等)往往会在经常的出现在垃圾邮件中。也许你还会注意到发件人的名字、电子邮件的正文等其他一些模式。
  • 2、你将为你注意到的每一个模式来写一个检测算法,并且如果大量的模式被检测到,你的程序将标记邮件为垃圾邮件。
  • 3、你将测试你的程序,并重复步骤1和2,直到它的性能足够好。
  • 由于这个问题并不简单,你的程序可能变成一系列复杂的规则-很难去维护。
  • 相比之下,基于机器学习技术的垃圾邮件过滤器通常检测垃圾邮件示例中与正常邮件示例相比异常频繁的单词模式来自动学习哪些单词和短语是垃圾邮件的良好预测器(Figure 1-2 机器学习方法)。这个程序更短、更容易去维护,而且很可能更准确。
    在这里插入图片描述
  • 此外,如果垃圾邮件发送者注意到他们所有包含“4U”的店子邮件都被阻止,那么他们可能会开始写“For U”。使用传统编程技术的垃圾邮件过滤器需要去更新以此来标记“For U”的邮件。如果垃圾邮件发送者一直针对你的垃圾邮件过滤器,那么你将需要永远写新的规则。
  • 相反,基于机器学习技术的垃圾邮件过滤器自动的注意到在被用户标记的垃圾邮件中“For U”已经成为频繁词汇,同时在没有你干预的情况下标记它们为垃圾邮件(Figure 1-3 自动更新改变)。
    在这里插入图片描述
  • 机器学习的另一个领域是针对传统方法过于复杂或没有已知算法的问题。例如,考虑语音识别(speech recognition):你想要去写一个程序来区分单词“one”以及“two”。你可能会注意到“two”一词以高音距声音(“T”)开头,因此你可以硬编码一种测量高英距声音强度的算法,并使用它来区分“one”和“two”。显然这种技术没法扩展到在嘈杂环境和数十种语言中,不同的人讲的数千个单词。最好的解决方案(至少在今天)是编写一个算法,让它在给定每个单词的许多示例记录的情况下自己学习。
  • 最后,机器学习能够帮助人类学习(Figure 1-4 机器学习能够帮助人类学习):可以对机器学习算法进行检查,以了解它们学到了什么(尽管对于某些算法来说,这可能是很棘手的)。例如,一般在足够多的垃圾邮件上对垃圾邮件过滤器进行了训练,就可以很容易的检查它,以揭示它认为是垃圾邮件的最好预测因素的单词和单词组合的列表。有时,这将揭示未被推测的关系或新的趋势,从而导致对于问题的更好理解。
  • 4
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值