- 博客(7)
- 收藏
- 关注
原创 机器学习:支持向量机(SVM)
支持向量机(support vector machines,SVM)是一种二分类模型,它将实例的特征向量映射为空间中的一些点,SVM 的目的就是想要画出一条线,以 “最好地” 区分这两类点,以至如果以后有了新的点,这条线也能做出很好的分类。SVM 适合中小型数据样本、非线性、高维的分类问题。
2023-02-05 11:22:15 1910 1
原创 机器学习:Logistic回归介绍
简单来说, 逻辑回归(Logistic Regression)是一种用于解决二分类(0 or 1)问题的机器学习方法,用于估计某种事物的可能性。比如某用户购买某商品的可能性,某病人患有某种疾病的可能性,以及某广告被用户点击的可能性等。 注意,这里用的是“可能性”,而非数学上的“概率”。logisitc回归的结果并非数学定义中的概率值,不可以直接当做概率值来用。该结果往往用于和其他特征值加权求和,而非直接相乘。通过给定的n组数据(训练集)来训练模型,并在训练结束后对给定的一组或多组数据(测试集)进行分类。其中
2022-12-06 15:33:21 1283
原创 机器学习:朴素贝叶斯算法与垃圾邮件过滤
贝叶斯算法是由英国数学家托马斯·贝叶斯提出的,这个算法的提出是为了解决“逆向概率”的问题。正向概率:假设一个箱子里有5个黄色球和5个白色球,随机从箱子里拿出一个球,请问取出的是黄球的概率是多少?很容易计算P(黄球)= N(黄球)/N(黄球)+ N(白球) = 5/5+5 = 1/2。逆向概率:起初我们并不知道箱子里有多少个球,我们依次从箱子里取出10个球,发现这个10个球中有7个白球,3个黄球,那么我们会根据我们观察到的结果去推测箱子里白球与黄球的分布比例大概是7:3,但是我们无法推测出箱子里的球的个数。
2022-11-28 17:17:24 3217
原创 机器学习:决策树剪枝与连续值处理
1.首先,是否要按照“脐部”划分。在划分前,只有一个根节点,也是叶子节点,标记为“好瓜”。通过测试集验证,只有{4,5,8}3个样本可以正确分类,精度为3/7=42.9%。当按照脐部划分后,再进行验证,发现{4,5,8,11,12}被正确分类,精度为5/7=71.4%。精度提高,所以按照“脐部”进行划分。2.当按照脐部进行划分后,会对结点 (2) 进行划分,再次使用信息增益挑选出值最大的那个特征,信息增益值最大的那个特征是“色泽”,则使用“色泽”划分后决策树。
2022-11-21 12:21:53 591 1
原创 机器学习:决策树(Decision Tree)介绍
决策树是一种常见的机器学习算法,它的实现方式类似于我们平时利用多个不同权重选择做决策的过程。以下介绍一个现实生活中的例子。当父母给自己的女儿介绍对象时,女儿往往会根据对方的年龄、富贵、高矮、美丑等条件来决定是否与对方见面。当然这些条件的权重大小不同,毕竟没有一个花季少女会想嫁给一位油腻大叔。这便是一个决策过程,以此决策过程便可构造出一棵结构树:如上图决策树由结点和有向边组成。结点有两种类型:内部结点和叶 节点。内部结点表示一个特征或属性,叶节点表示一个类。-内部节点。
2022-11-13 15:33:13 1606
原创 机器学习:k近邻算法(KNN)介绍
Iris (/ˈaɪrɪs/) 数据集是机器学习任务中常用的分类实验数据集,由Fisher在1936年整理。· Iris :Anderson’s Iris data set, 中文名称:安德森鸢尾花数据集· Iris 数据集一共包含150个样本,分3类,每类50个数据,每个数据包含4个特征。4个特征分别为: Sepal.Length(花萼长度)、Sepal.Width(花萼宽度)、Petal.Length(花瓣长度)、Petal.Width(花瓣宽度),特征值都为正浮点数,单位为厘米。
2022-10-31 22:25:48 1873
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人