机器学习
文章平均质量分 78
北风扬尘尘飞扬
故人昔有凌云赋,何意陆沉黄绶间。
展开
-
Python3.12安装d2l库提示module ‘pkgutil‘ has no attribute ‘ImpImporter‘
上述的截图中,安装d2l时,指定了numpy的版本且从源码构建,报错提示找不多(此属性在Python 3.12中被移除,这儿也提到了一些解决办法,但在Mac OS上不生效),猜测直接升级numpy版本也能解决此问题。原创 2024-02-07 15:48:55 · 2845 阅读 · 4 评论 -
Tensorflow练习题
以下练习题来自机器学习实战:基于Scikit和Tensorflow一书。相比直接执行计算,创建计算图的最大优点是什么?最大的缺 点呢?答:主要优点:1.TensorFlow可以自动计算梯度(通过反向的autodiff)2.TensorFlow负责在不同的线程中并行执行各个操作3.它可以更容易地在多设备上运行同一个模型 4.它简化了查看,比如,在TensorBoard上查看模型主要缺点...原创 2019-10-25 21:20:22 · 3058 阅读 · 0 评论 -
运行TensorFlow
本文内容参考了机器学习实战:基于Scikit-Learn和Tensorflow一书。安装pip3 install --upgrade tensorflow创建计算图并运行import tensorflow as tf# 创建计算图x = tf.Variable(3, name='x')y = tf.Variable(4, name='y')f = x * x * y + ...原创 2019-10-25 20:13:26 · 355 阅读 · 0 评论 -
降维练习题
下面的习题来自机器学习实战:基于Scikit-Learn和Tensorflow一书。降低数据集维度的主要动机是什么?有什么主要弊端?答:降维的动机:1. 加速后续的训练算法(在某些情况下,也可能为了消除噪声和冗余特种额,使训练算法性能更好)2. 将数据可视化,从中获得洞察,了解最重要的特征 3. 节省空间(压缩)主要弊端:1. 丢失部分信息,可能使后续训练算法性能降低 2. 可能是计...原创 2019-10-25 11:22:26 · 1879 阅读 · 0 评论 -
降维
本文内容参考了机器学习实战: 基于Scikit-Learn和Tensorflow一书。维度的诅咒在高维空间中,许多事物的行为都迥然不同。例如, 如果你在一个单位平面(1×1的正方形)内随机选择一个点,那么这 个点离边界的距离小于0.001的概率只有约0.4%(也就是说,一个随 机的点不大可能刚好位于某个维度的“极端”)。但是,在一个10000 维的单位超立方体(1×1…×1立方体,一万个1...原创 2019-10-25 11:07:10 · 539 阅读 · 0 评论 -
集成学习与随机森林练习题
以下练习题来自机器学习实战:基于Scikit-Learn和Tensorflow一书。如果你已经在完全相同的训练集上训练了五个不同的模型,并 且它们都达到了95%的准确率,是否还有机会通过结合这些模型来获 得更好的结果?如果可以,该怎么做?如果不行,为什么?答:如果你已经训练了五个不同的模型,并且都达到了95%的精 度,你可以尝试将它们组合成一个投票集成,这通常会带来更好的结 果。如果模...原创 2019-10-24 11:51:36 · 3615 阅读 · 0 评论 -
集成学习与随机森林
本文参考了机器学习实战:基于Scikit-Learn和Tensorflow一书。集成学习:聚合一组预测器的预测,得到的预测结果会比单个预测器要好。这样的一组预测称为集成,这种技术也被称为集成学习,相应的学习算法称为集成方法。随机森林:基于训练集的不同随机子集进行训练一组决策树分类器,预测时,根据获得的所有树的各自预测,给票数最多的类别作为预测结果。这样的一组决策树称为随机森林。投票分类器...原创 2019-10-24 11:43:00 · 473 阅读 · 0 评论 -
Decision Tree决策树练习题
以下习题来自:机器学习实战:基于Scikit-Learn和Tensorflow一书。如果训练集有100万个实例,训练决策树(无约束)大致的深 度是多少?答: 一个包含m个叶节点的均衡二叉树的深度等于log2(m)的四 舍五入。通常来说,二元决策树训练到最后大体都是平衡的,如果不 加以限制,最后平均每个叶节点一个实例。因此,如果训练集包含一 百万个实例,那么决策树深度约等于log2(10...原创 2019-10-23 13:19:11 · 4989 阅读 · 1 评论 -
决策树Decision Tree
决策树训练和可视化在鸢尾花数据集上训练一个DecisionTreeClassifier:原创 2019-10-23 13:04:02 · 509 阅读 · 0 评论 -
SVM支持向量机习题解答
以下习题,来自机器学习实战:基于Scikit-Learn和Tensorflow一书。支持向量机的基本思想是什么?答:基本思想是拟合类别之间可能的、最宽的“街道”。它的目的是使决策边界之间最大间隔化,从而分隔出两个类别的训练实例。SVM在执行软间隔分类时,实际上是在完美分类和拟合最宽街道之间进行妥协(允许少量的实例最终落在街道上)。在训练非线性数据集时,记得使用核函数。什么是支持向量?...原创 2019-10-22 18:07:24 · 4756 阅读 · 0 评论 -
SVM支持向量机:分类、回归和核函数
本文内容,参考了机器学习实战:基于Scikit-Learn和Tensorflow一书。文中涉及的代码,从上到下可完美运行。SVM可以执行线性和非线性分类、回归或者异常值检测任务,适用于中小型复杂数据。线性SVM分类如下图的大间隔分类所示:右图的实线(决策边界)尽可能的远离训练实例。SVM对特征缩放敏感:1. 软间隔/硬间隔分类硬间隔:在数据是线性可分离时才有效;对异常值敏感。左...原创 2019-10-22 17:40:51 · 5355 阅读 · 0 评论 -
机器学习回归问题解答
下面的习题来自:机器学习实战:基于Scikit-Learn和TensorFlow如果你的训练集有超过百万个特征,你会选择什么线性回归训练算法?答: 随机梯度下降或者小批量梯度下降。在内存允许时,还可以使用批量梯度下降。但是由于计算复杂度随特征数量的增加而快速提升(比二次方还高),因此不能使用标准方程。如果你的训练集里特征的数值大小迥异,什么算法可能会受到影响?受影响程度如何?你应...原创 2019-10-21 23:42:15 · 628 阅读 · 0 评论 -
逻辑回归
本文本文所述内容,参考了机器学习实战:基于Scikit-Learn和TensorFlow一书。从上往下,本文的代码可完整运行。逻辑回归(Logistic回归,也称为罗吉思回归)被广泛用于估算一个实例属于某个特定类别的概率。概率估算逻辑回归模型概率估算(向量化形式)y∧=hθ(X)=σ(θT⋅X)\mathop y\limits^ \wedge = {h_\theta }(X) ...原创 2019-10-21 23:01:03 · 191 阅读 · 0 评论 -
线性回归
本文本文所述内容,参考了机器学习实战:基于Scikit-Learn和TensorFlow一书。线性回归线性模型就是对输入特征加权求和,再加上一个称为偏置项(也称为截距项)的常数。线性回归模型预测y∧=θ0+θ1x1+θ2x2+…+θnxn\mathop y\limits^ \wedge = {\theta _0} + {\theta _1}{x_1} + {\theta _2}...原创 2019-10-21 20:25:39 · 204 阅读 · 0 评论 -
手写体识别
本文本文所述内容,参考了机器学习实战:基于Scikit-Learn和TensorFlow一书。修正了书籍中的代码错误,文章中代码从上到下,组成一个完整的可运行的项目。获取MNIST在github上下载:MNIST训练集from sklearn.datasets import fetch_mldatamnist=fetch_mldata('MNIST original',data_ho...原创 2019-10-21 10:24:15 · 5210 阅读 · 0 评论 -
机器学习之房价预测
本文所述内容,参考了机器学习实战:基于Scikit-Learn和TensorFlow一书。框架问题数据流水线:一个序列数据处理组件称为一个数据流水线,组件通常是异步运行,组件和组件之间的连接只有数据仓库。选择性能指标在回归问题中,经常使用均方根误差(RMSE)来衡量,它是预测错误的标准差,公式如下:RMSE(X,h)=1m∑i=1m(h(x(i)−y(i))2{\rm{RMS...原创 2019-10-20 18:12:13 · 15690 阅读 · 3 评论 -
机器学习概述
本文所述内容,参考了机器学习实战:基于Scikit-Learn和TensorFlow一书。机器学习系统分类监督式学习/无监督式学习根据监督数量和监督类型,分为监督式学习、无监督式学习、半监督式学习和强化学习。监督式学习:提供给算法所需的有标注的训练数据。如分类任务(垃圾邮件分类)和回归任务(预测汽车价格)。无监督式学习:训练数据是未标注的。如聚类算法检测相似的访客分组,可视化算...原创 2019-10-19 21:22:36 · 249 阅读 · 0 评论