1、垃圾短信检测思考
就是如何去判断收到的信息为垃圾信息
实现的思路:
①收集一些样本,告诉计算机哪些是垃圾信息
样本即就是你收到的垃圾短信里的内容,而垃圾信息我们可以给个标签,比如0、1,0表示垃圾信息,1表示不是垃圾信息,那么这些数据它就会有个正确结果的标签,即是监督学习。
②计算机自动寻找垃圾信息共同特征
共同特征,例如:发件人、是否群发、网址、元、赢、微信、免费等字眼,像发件人姓名非常怪异的、设计奇奇怪怪的网址、谈及金钱等,我相信大部分人都会收到过,大家可以对比。
③在新信息中检测中,会根据所记忆的垃圾信息特征内容, 判断其是否为垃圾邮件
那么,我们首先收到了短信中,判断是否是垃圾信息,就会依据特征标准去判断
2、图像识别思考
比如我有水果的图片,我把它们都贴上标签,即它们的名字
然后我再拿出一个新的图片,即上面都没有的
那么预测时就会根据第一个图提取的特征去匹配,如果匹配成功,那么它就会贴上相同的标签,那么预测结果就是橙子
3、手写数字识别思考
大家可参考这个网站http://yann.lecun.com/exdb/lenet/,可以查看数字的一些识别
4、股票涨跌预测思考
判断每只股票接下来 一段时间会上涨,还是下跌,然后就可以判断某个时间点上涨概率比较高的进行买入,下跌的进行卖出。
5、分类预测实现过程思考
根据数据类别与部分特征信息,自动寻找类别与特征信息的关系, 判断一个新的样本属于哪种类别。例如垃圾信息和非垃圾信息、股票涨和股票跌
特征信息
按行来看,每一行代表一个样本,以图片来举例,每一行代表一张图片,总共就有m张的图片,按列来看就是不同维度的信息,每一列就代表的是同一类的信息,比如从短信的例子来看,第一列就可能代表有没有敏感词的信息,第二列来看就可能代表是否有发件人异常的信息等,相当于就有n个属性,即就是m个样本n个属性的特征信息。
数据类别
对应的就是输出的什么类别的结果,比如识别垃圾短信的例子,就可分成0和1,0可以说正常,1是垃圾信息,那么每一个y都会是0和1其中一个数。
寻找关系
接着上面的例子,把数据类别给入到计算机,就会去寻找输入的特征信息和数据类别之间会有什么样的关系,根据y最后的输出0还是1就回去判断类别是垃圾信息还是正常信息。
6、实现的具体方法
逻辑回归方程
朴素贝叶斯
决策树
knn近邻模型
7、区分回归任务和分类任务
例子:股价预测
回归:
如果是回归任务,对应的是连续性数值预测
比如想预测明天的股价,它可能就是一个范围,如在[100,125]之间的任何一个数都有可能的
模型输出:连续型数值 (明天股价预测为:125.1)
分类:
非连续性判断类别
比如单纯预测股价是上涨还是下跌,就只有两种可能,就是一个非连续性的结构类别判断。
模型输出:非连续型标签 (明天股价预测为:上涨)