机器学习
每天一道题
不积跬步,无以至千里
展开
-
线性回归之向量化
机器学习 向量化计算 线性回归原创 2023-03-23 11:43:22 · 300 阅读 · 0 评论 -
简单线性回归的实现
机器学习中的线性回归原创 2022-07-07 21:31:55 · 337 阅读 · 0 评论 -
scikit-learn中的Scaler
scikit-learn中的归一化原创 2022-06-13 22:26:48 · 176 阅读 · 0 评论 -
机器学习之数据归一化(Feature Scaling)
机器学习中的数据归一化原创 2022-06-06 12:49:10 · 750 阅读 · 1 评论 -
网格搜索法
机器学习之网格搜索法原创 2022-06-05 10:33:43 · 931 阅读 · 1 评论 -
超参数和模型参数
kNN中的参数原创 2022-06-04 10:08:22 · 419 阅读 · 0 评论 -
训练数据集,测试数据集
判断机器学习算法的性能为了避免算法出现问题,可以将数据分为训练数据和测试数据,然后去判断算法的性能。下面我们用鸢尾花的数据来详细分析一下。首先用sklearn导入鸢尾花的数据。import numpy as npimport matplotlib.pyplot as pltfrom sklearn import datasetsiris = datasets.load_iris()X = iris.datay = iris.target如果我们直接将鸢尾花的数据分为测试数据和训练数据的话原创 2022-05-14 21:55:09 · 1890 阅读 · 2 评论 -
scikit-learn中的机器学习算法封装
kNN算法的封装对于上文中的kNN的算法,将他封装成了一个函数.import numpy as npfrom math import sqrtfrom collections import Counterdef kNN_classify(k, X_train, y_train, x): assert 1 <= k <= X_train.shape[0], "k must be valid" assert X_train.shape[0] == y_train.sh原创 2022-04-29 21:38:03 · 939 阅读 · 0 评论 -
kNN - k近邻算法
特点1.思想极度简单。2.应用数学知识少。3.效果好。4.可以解释机器学习算法使用过程中的很多细节问题。5.更完整的刻画机器学习应用的流程。算法介绍如图所示,恶性肿瘤为蓝色,良性为红色。假如现在又有一个病人,那么我们怎么确定这个病人是否为良性还是恶性呢。我们假设k为3(后面会详细介绍),绿色点为刚发现的病人,然后我们找到与绿色点最近的三个点,然后建立联系,发现他们三个都是蓝色的点,那么这个绿色的点的最终结果有很大的概率是蓝色,这就是k近邻算法。例题import numpy as np原创 2022-04-27 20:46:57 · 1050 阅读 · 0 评论 -
和机器学习相关的“哲学”思考
这是2001年微软的一篇论文,论文中描述了四种算法的准确率和数据规模的关系,根据图中显示的数据量越大,准确率越高,而且数据量越大,算法之间的准确率差别也就越小。那么引出一个问题:数据即算法?数据:数据非常重要。数据驱动。收集更多的数据。提高数据质量。提高数据的代表性。研究更重要的特征。算法为王?AlphaGo与普通不同的是,他并没有输入大量的数据,却能做到智能化。但是这也不能说明有了算法就完全不需要数据,有些时候是可以仅通过算法去建立模型,但是如果我们以更加精准的数据辅以完美的算法,.原创 2022-04-23 23:06:50 · 2187 阅读 · 0 评论 -
机器学习的其他分类
批量学习批量学习就是通过大量的学习资料,让机器建立模型。优点:简单。问题:如何适应环境变化。就比如垃圾邮件识别系统,他每年可能都会产生改变,而以前的学习资料可能就无法满足识别现在的垃圾邮件。解决方案:定时重新批量学习。缺点:每次重新批量学习,运算量巨大。在某些环境变化非常快的情况,甚至不可能。比如股市,每分没秒都在变化。在线学习与批量学习大致相同,唯一不同的是会将输入样例当作结果输出。就比如股票这种每分每秒都在变化,输入的样例就是这一时刻的结果。优点:及时反映新的环境变化。问题:新的数原创 2022-04-22 16:20:31 · 881 阅读 · 0 评论 -
机器学习方法的分类
监督学习给机器的训练数据拥有“标记”或者“答案”。就比如上图的MNIST数据集,我们需要给出每一行所对应的数字,机器才能学习。这里监督的意思就是我们人类给机器的信息已经进行了正确答案的划分。例:银行已经积累了一定的客户信息和他们信用卡的信用情况。监督学习主要处理的是分类和回归问题。算法:k邻近,线性回归和多项式回归,逻辑回归,SVM,决策树和随机森林。在以后的文章中我们都会慢慢介绍。非监督学习给机器的训练数据没有“数据”或者“答案”。比如下图:虽然他有横轴纵轴上的关系,但是他没有明确给原创 2022-04-21 21:04:32 · 885 阅读 · 0 评论 -
机器学习的主要任务
分类任务1.二分类任务只有两种选择。生活中的应用:判断邮件是否是垃圾邮件,判断发给客户信用卡是否有风险,判断某支股票涨跌。2.多分类任务有多种选择。生活中的应用:数字识别,图像识别,判断发给客户信用卡的风险评级。例:如果我们想让人工智能可以自己完成这个游戏,其实无疑就是每个方块有上下左右四种选择,也就是将一个复杂的问题转化成了多分类任务。对于复杂的问题,大多数都可以将他转化为分类任务。就拿无人驾驶来说,我们简单的可以将他分成对油门,刹车,方向盘的掌控去让人工智能去操作。但是只是说可以将他原创 2022-04-20 22:53:34 · 1804 阅读 · 2 评论 -
机器学习数据
基本概念如上图中为著名的鸢尾花数据,下面围绕鸢尾花我门来了解一些定义:数据整体叫做数据集。每一行数据为一个样本。除最后一列为,每一列表达为样本的一个特征。最后一列称为标记。如果我们选取第一列和第二列的数据建立关系,可以得到下面的图,这个图也被称为特征空间。根据这个特征空间我没可以明显的看出鸢尾花被分为两类,一类我们标记为红色,一类标记为蓝色。然后我们可以通过一条直线将他划分为两部分,得到下图:将他分为两部分也就是将花的特征分为两种,所以也就是说分类任务的本质就是在特征空间切分。而其实我原创 2022-04-19 23:11:12 · 692 阅读 · 4 评论