《Python机器学习及实践:从零开始通往Kaggle竞赛之路》第1章 简介篇 学习笔记(一)1.1机器学习综述、1.2Python编程库、1.3Python环境配置总结

本文是《Python机器学习及实践》第1章的学习笔记,涵盖了机器学习的基础概念,如任务、经验和性能,并详细介绍了Python在机器学习中的优势,如便利的调试、跨平台和丰富的库。同时,重点讲解了Python编程库如Numpy、SciPy、Matplotlib、Scikit-learn和Pandas的作用和用途,并提供了Windows环境的Python环境配置指南。
摘要由CSDN通过智能技术生成

目录

1.1机器学习综述

1、机器学习的定义

2、机器学习的三个关键术语

(1)任务

(2)经验

(3)性能

1.2Python编程库

1、Python机器学习的优势

(1)方便调试的解释型语言

(2)跨平台执行作业

(3)广泛的应用编程接口

(4)丰富完备的开源工具包

2、第三方程序库及平台

(1)Numpy & SciPy

(2)Matplotlib

(3)Scikit-learn

(4)Pandas

(5)Anaconda

1.3Python环境配置

1、Windows系统环境

(1)安装Anaconda

(2)安装Pycharm

2、Mac OS系统环境


1.1机器学习综述

1、机器学习的定义

美国卡内基梅隆大学(Garnegie Mellon University)机器学习研究领域的著名教授Tom Mitchell的经典定义:

A program can be said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E.

如果一个程序在使用既有的经验(E)执行某类任务(T)的过程中被认定为是“具备学习能力的”,那么它一定需要展现出:利用现有的经验(E),不断改善其完成既定任务(T)的性能(P)的特质。

2、机器学习的三个关键术语

(1)任务

监督学习:关注对事物未知表现的预测,一般包括分类问题和回归问题。

分类问题:对其所在的类别进行预测,类别既是离散的,同时也是预先知道数量的。比如,根据一个人的身高、体重和三围等数据,预测其性别;根据一朵鸢尾花的花瓣、花萼的长宽等数据,判断其属于那个鸢尾花亚种。

回归问题:预测的目标往往是连续变量。比如,根据房屋的面积、地理位置、建筑年代等进行销售价格的预测。

无监督学习:倾向于对事物本身特性的分析,常用的技术包括数据降维和聚类问题。

数据降维:对事物的特性进行压缩和筛选。

聚类:依赖于数据的相似性,把相似的数据样本划分为一个簇。

(2)经验

特征:反映数据内在规律的信息。

监督学习:所拥有的经验包括特征和标记/目标两个部分。一般用一个特征向量来描述一个数据样本;标记/目标的表现形式则取决于监督学习的种类。

无监督学习:没有标记/目标,无法从事预测任务,适合对数据结构的分析。

备注:除了标记/目标的表现形式存在离散、连续变量的区别,从原始数据到特征向量转化的过程中也会遭遇多种数据类型:类别型特征,数值型特征,甚至是缺失的数据等。实际操作过程中,都需要把这些特征转化为具体的数值参与运算。

训练集:既有特征、同时也带有目标/标记的数据集。

(3)性能

所谓性能,便是评价所完成任务质量的指标。

测试集:具备相同特征的数据,将模型的预测结果同相对应的正确答案进行比对的数据集。

备注:需要保证出现在测试集的数据样本一定不能被用于模型训练,简而言之,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值