![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
machine learning
初入coder
这个作者很懒,什么都没留下…
展开
-
ML_05bayes
1、使用朴素贝叶斯进行一个文本的分类。假定单词出现之间没有影响(实际不可能没有影响,hhh),然后通过条件概率的算式来进行计算、判断分类 # -*- coding: UTF-8 -*- import numpy as np from functools import reduce # 创建实验样本 def loadDataSet(): postingList=[['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'], #切分的词.原创 2021-04-22 15:34:46 · 70 阅读 · 0 评论 -
ML_04svm
1、原始数据分析 # 原始散点图显示 def show(): xcord0 = []; ycord0 = []; xcord1 = []; ycord1 = [] fr = open('testSet.txt') for line in fr.readlines(): # 分析数据集的特点,将每行数据的每列提取出来 lineSplit = line.strip().split('\t') xPt = float(lineSplit[原创 2021-04-21 19:38:35 · 95 阅读 · 0 评论 -
ML_03decision tree
决策树通常用来处理分类问题,回归问题也可以处理如CART。最基本的思想是:对给定的数据进行一个特征的熵值化,从而进行判断;建立树形结构,自顶向下做出分类判断。 下面是展示最基础的决策树代码(利用信息增益作为判断依据ID3): from math import log import operator # 计算给定数据集的香农熵 def calcShannonEnt(dataSet): numEntries = len(dataSet) labelCounts = {} for原创 2021-04-18 21:02:28 · 75 阅读 · 0 评论 -
ML_02knn_
对knn的一点想法: 1、如果对特征权重是一致的,一定要做归一化处理,不然结果一定会偏向某一特征去,误差绝对很大。但如果有偏重不一样,我倒是觉得要加权重,但权重具体是多少也是个问题,能提前训练出来嘛? 2、k的选取?看了李航老师的《统计学习方法》k选小了,相当于用较小的领域中的训练实例进行预测,这样只对相似的数据有较好结果,估计误差会增大(类似过拟合的一种情况);k选取大,那么就是用较大的领域的训练实例进行预测,也就是说对一些不相似的数据也会有预测,那么会增大错误率。然后是用交叉验证法来选取最优的k值。等.原创 2021-04-16 11:15:54 · 64 阅读 · 0 评论