机器学习(Stanford)笔记一

一、the definition of Machine learning

1、Arthur Samuel (1959). Machine Learning:Field of study that gives computers the ability to learn without being explicitly programmed. 

2、Tom Mitchell (1998) Well-posed LearningProblem: A computer program is said to learn from experience E with respect to some task T and some performance measure P,if its performance on T, as measured by P, improves with experience E. 

question: Suppose your email program watcheswhich emails you do or do not mark as spam, and based on that learns how tobetter filter spam.  What is the task Tin this setting? 

a. Classifyingemails as spam or not spam. 

b. Watchingyou label emails as spam or not spam. 

c. Thenumber (or fraction) of emails correctly classified as spam/not spam. 

d. Noneof the above—this is not a machine learning problem.


我们收发邮件时,可以将我们认为的垃圾邮件做标记,基于我们标记的那些垃圾邮件,程序就会通过学习自动帮你过滤垃圾邮件。a是T,b是E,c是p。 基于任务T和性能测评P上,系统的性能经过算法的学习将会提高。

二、机器学习算法(Machine learning algorithms)

1、Supervised learning and Unsupervised learning

Supervised learning(监督学习):  teach the computer how to do something 
Unsupervised learning (无监督学习):computer learn  by itself
2、Others: Reinforcement learning(增强学习), recommender systems (推荐系统).
这个课程主要是教你如何应用这些机器学习算法,而非纯理论学习。

三、Supervised learning(监督学习)
1、预测房价



上面是某一城市的房价与房屋面积的关系,关系通过坐标轴来呈现,横轴表示方面面积,纵轴是房价。如果有个朋友有750的闲房打算出售,学习算法如何帮这个朋友能卖个好价钱。

如果画一条线性直线模型(红线)去拟合这些数据,可以看出大概能卖150k,如果用二次线性模型(蓝线)几乎拟合所有数据,发现可以卖出更高的价格,大概200K。
监督学习就是我们给算法一个包含“right answer”的数据集,上面的例子就是我们给出了一串真实的房价数据,让算法来产生最多的答案。这就是回归问题(regression problem),我们尝试去预测一个连续数值的输出。(Predic continuous valued output)
2、cancer (malignant(恶性), benign(良性))

这个例子是肿瘤的性质(恶性还是良性)与肿瘤块的大小的关系,横轴表示大小,纵轴只有两个值,0和1,0代表是良性,1代表是恶性。总共是十个数据,五个数据是恶性,五个是良性。当我们知道一个病人的肿块大小,机器学习算法将会估计这个病人的肿瘤是良性还是恶性的。这是分类问题(classification problem )

这个依然是肿瘤例子,跟之前的不一样的是,纵坐标换成了Age( 年龄),这里同样是有两个特征Age 和 Size,机器学习算法在这个坐标里找出一条直线把恶性和良性分开,以确定一个已知年龄和大小的是恶性还是良性。机器学习算法中可以有多个特征,甚至是无限个特征都可以处理。支持向量机可以让电脑处理无限个特征。

question 

You’rerunning a company, and you want to develop learning algorithms to address eachof two problems.

Problem1: You have a large inventory of identical items.  You want to predict how many of these itemswill sell over the next 3 months.

Problem2: You’d like software to examine individual customer accounts, and for eachaccount decide if it has been hacked/compromised.

Should you treat these as classification or as regression problems? 



the right answer is Treat problem 1 as aregression problem,problem 2 as aclassification problem


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值