分类任务的一些现实思考

1、垃圾短信检测思考

就是如何去判断收到的信息为垃圾信息

实现的思路:
①收集一些样本,告诉计算机哪些是垃圾信息
样本即就是你收到的垃圾短信里的内容,而垃圾信息我们可以给个标签,比如0、1,0表示垃圾信息,1表示不是垃圾信息,那么这些数据它就会有个正确结果的标签,即是监督学习。

②计算机自动寻找垃圾信息共同特征

共同特征,例如:发件人、是否群发、网址、元、赢、微信、免费等字眼,像发件人姓名非常怪异的、设计奇奇怪怪的网址、谈及金钱等,我相信大部分人都会收到过,大家可以对比。

③在新信息中检测中,会根据所记忆的垃圾信息特征内容, 判断其是否为垃圾邮件

那么,我们首先收到了短信中,判断是否是垃圾信息,就会依据特征标准去判断

2、图像识别思考

比如我有水果的图片,我把它们都贴上标签,即它们的名字
在这里插入图片描述
然后我再拿出一个新的图片,即上面都没有的
在这里插入图片描述
那么预测时就会根据第一个图提取的特征去匹配,如果匹配成功,那么它就会贴上相同的标签,那么预测结果就是橙子

3、手写数字识别思考

大家可参考这个网站http://yann.lecun.com/exdb/lenet/,可以查看数字的一些识别
在这里插入图片描述

4、股票涨跌预测思考

判断每只股票接下来 一段时间会上涨,还是下跌,然后就可以判断某个时间点上涨概率比较高的进行买入,下跌的进行卖出。
在这里插入图片描述

5、分类预测实现过程思考

根据数据类别与部分特征信息,自动寻找类别与特征信息的关系, 判断一个新的样本属于哪种类别。例如垃圾信息和非垃圾信息、股票涨和股票跌

特征信息
在这里插入图片描述
按行来看,每一行代表一个样本,以图片来举例,每一行代表一张图片,总共就有m张的图片,按列来看就是不同维度的信息,每一列就代表的是同一类的信息,比如从短信的例子来看,第一列就可能代表有没有敏感词的信息,第二列来看就可能代表是否有发件人异常的信息等,相当于就有n个属性,即就是m个样本n个属性的特征信息。

数据类别在这里插入图片描述
对应的就是输出的什么类别的结果,比如识别垃圾短信的例子,就可分成0和1,0可以说正常,1是垃圾信息,那么每一个y都会是0和1其中一个数。

寻找关系
在这里插入图片描述
接着上面的例子,把数据类别给入到计算机,就会去寻找输入的特征信息和数据类别之间会有什么样的关系,根据y最后的输出0还是1就回去判断类别是垃圾信息还是正常信息。

6、实现的具体方法

逻辑回归方程
在这里插入图片描述

朴素贝叶斯

决策树

knn近邻模型在这里插入图片描述

7、区分回归任务和分类任务

例子:股价预测

在这里插入图片描述

回归:
如果是回归任务,对应的是连续性数值预测
比如想预测明天的股价,它可能就是一个范围,如在[100,125]之间的任何一个数都有可能的
模型输出:连续型数值 (明天股价预测为:125.1)

分类:

非连续性判断类别
比如单纯预测股价是上涨还是下跌,就只有两种可能,就是一个非连续性的结构类别判断。

模型输出:非连续型标签 (明天股价预测为:上涨)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

侬本多情。

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值