Numpy数据类型 NumPy支持比Python更多种类的数字类型(点此查看Python支持的数字类型)。Numpy 的类型C 的类型描述np.boolbool存储为字节的布尔值(True或False)np.bytesigned char平台定义np.ubyteunsigned char平台定义np.shortshort平台定义np.ushortunsigned short平台定义np.intcint平台定义np.uintcunsigned
Sklearn实现主成分分析 from time import timeimport loggingimport matplotlib.pyplot as pltfrom sklearn.model_selection import train_test_splitfrom sklearn.model_selection import GridSearchCVfrom sklearn.datasets import fetch_lfw_peoplefrom sklearn.metrics import classifica
Sklearn数据预处理 sklearn.preprocessing 包提供了几个常见的实用功能和变换器类型,用来将原始特征向量更改为更适合机器学习模型的形式。一般来说,机器学习算法受益于数据集的标准化。如果数据集中存在一些离群值,那么稳定的缩放或转换更合适。不同缩放、转换以及归一在一个包含边缘离群值的数据集中的表现在 Compare the effect of different scalers on data with outliers 中有着重说明。5.3.1 标准化,也称去均值和方差按比例缩放数据集的 标准化 对sci
Sklearn特征提取 模块 sklearn.feature_extraction 可用于提取符合机器学习算法支持的特征,比如文本和图片。注意 特征特征提取与特征选择有很大的不同:前者包括将任意数据(如文本或图像)转换为可用于机器学习的数值特征。后者是将这些特征应用到机器学习中。>>> measurements = [... {'city': 'Dubai', 'temperature': 33.},... {'city': 'London', 'temperature': 12.},.
Sklearn的pipeline Pipeline 可以把多个评估器链接成一个。这个是很有用的,因为处理数据的步骤一般都是固定的,例如特征选择、标准化和分类。Pipeline 在这里有多种用途:便捷性和封装性 你只要对数据调用 fit和 predict 一次来适配所有的一系列评估器。联合的参数选择 你可以一次grid search管道中所有评估器的参数。安全性 训练转换器和预测器使用的是相同样本,管道有助于防止来自测试数据的统计数据泄露到交叉验证的训练模型中。管道中的所有评估器,除了最后一个评估器,管道的所有评估器必须是转换器。 (
Sklearn部分依赖图 部分依赖图(以下简称PDP)显示了目标响应[1]和一组“目标”特征之间的依赖关系,并边缘化所有其他特征(特征补集,是目标特征集关于全部特征集合的补集)的值。直观地,我们可以将部分依赖关系解释为预期目标响应作为“目标”特征的函数。由于人类感知的限制,目标特征集的大小必须很小(通常是一个或两个),因此目标特征通常需要从最重要的特征中选择。下图展示了使用GradientBoostingRegressor实现的,加利福尼亚州住房数据集的四个单向和一个双向PDP:单向PDP告诉我们目标响应和目标特征(如线性、非
Sklearn验证曲线 每种估计器都有其优势和缺陷。它的泛化误差可以用偏差、方差和噪声来分解。估计值的 偏差 是不同训练集的平均误差。估计值的 方差 用来表示它对训练集的变化有多敏感。噪声是数据的一个属性。在下面的图中,我们可以看到一个函数 f(x) = \cos (\frac{3}{2} \pi x) 和这个函数的一些噪声样本。 我们用三个不同的估计来拟合函数: 多项式特征为1,4和15的线性回归。我们看到,第一个估计最多只能为样本和真正的函数提供一个很差的拟合 ,因为它太简单了(高偏差),第二个估计几乎完全近似,最后一个估计
Sklearn模型持久化 在训练完 scikit-learn 模型之后,最好有一种方法来将模型持久化以备将来使用,而无需重新训练。 以下部分为您提供了有关如何使用 pickle 来持久化模型的示例。 在使用 pickle 序列化时,我们还将回顾一些安全性和可维护性方面的问题。pickle的另一种方法是使用相关项目中列出的模型导出工具之一将模型导出为另一种格式。与pickle不同,一旦导出,就不能恢复完整的Scikit-learn estimator对象,但是可以部署模型进行预测,通常可以使用支持开放模型交换格式的工具,如“ONNX
Sklearn模型评估 有 3 种不同的 API 用于评估模型预测的质量:Estimator score method(估计器得分的方法): Estimators(估计器)有一个 score(得分) 方法,为其解决的问题提供了默认的 evaluation criterion (评估标准)。 在这个页面上没有相关讨论,但是在每个 estimator (估计器)的文档中会有相关的讨论。Scoring parameter(评分参数): Model-evaluation tools (模型评估工具)使用 cross-validati
Sklearn调整超参数 超参数,即不直接在估计器内学习的参数。在 scikit-learn 包中,它们作为估计器类中构造函数的参数进行传递。典型的示例有:用于支持向量分类器的 C 、kernel 和 gamma ,用于Lasso的 alpha 等。搜索超参数空间以便获得最好 交叉验证 分数的方法是可能的而且是值得提倡的。通过这种方式,构造估计器时被提供的任何参数或许都能被优化。具体来说,要获取到给定估计器的所有参数的名称和当前值,使用:estimator.get_params()搜索包括:估计器(回归器或分类器,例如
Sklearn实现交叉验证 学习预测函数的参数,并在相同数据集上进行测试是一种错误的做法: 一个仅给出测试用例标签的模型将会获得极高的分数,但对于尚未出现过的数据它则无法预测出任何有用的信息。 这种情况称为 overfitting(过拟合). 为了避免这种情况,在进行(监督)机器学习实验时,通常取出部分可利用数据作为 test set(测试数据集) X_test, y_test。需要强调的是这里说的 “experiment(实验)” 并不仅限于学术(academic),因为即使是在商业场景下机器学习也往往是从实验开始的。下面是模型训练
Sklearn实现Brich聚类 The Birch 为给定数据构建一棵 Characteristic Feature Tree (CFT,聚类特征树)。 数据实质上是被有损压缩成一组 Characteristic Feature nodes (CF Nodes,聚类特征节点)。 CF Nodes 有许多称为 Characteristic Feature subclusters (CF Subclusters) 的子簇,并且这些位于非终结位置的CF Subclusters 可以拥有 CF Nodes 作为子节点。CF Subcluster
Sklearn实现OPTICS聚类 OPTICS算法与DBSCAN算法有许多相似之处,可以认为是DBSCAN算法将eps要求从一个值放宽到一个值范围的推广。OPTICS与DBSCAN的关键区别在于OPTICS算法建立了一个可达性图,它为每个样本分配了一个reachability_(可达性距离)和一个簇ordering_属性内的点(spot);这两个属性是在模型拟合时分配的,用于确定簇的成员关系。如果运行OPTICS时max_eps设置为默认值inf,则可以使用cluster_optics_dbscan方法对任意给定的eps值在线性时间内重复执
Sklearn实现DBSCAN聚类 The DBSCAN 算法将簇视为被低密度区域分隔的高密度区域。由于这个相当普遍的观点, DBSCAN发现的簇可以是任何形状的,与假设簇是凸的 K-means 相反。 DBSCAN 的核心概念是 core samples, 是指位于高密度区域的样本。 因此一个簇是一组核心样本,每个核心样本彼此靠近(通过某个距离度量测量) 和一组接近核心样本的非核心样本(但本身不是核心样本)。算法中的两个参数, min_samples 和 eps,正式的定义了我们所说的 稠密(dense)。较高的 min_samples 或
Sklearn实现层次聚类 层次聚类(Hierarchical clustering)代表着一类的聚类算法,这种类别的算法通过不断的合并或者分割内置聚类来构建最终聚类。 聚类的层次可以被表示成树(或者树形图(dendrogram))。树根是拥有所有样本的唯一聚类,叶子是仅有一个样本的聚类。 请参照 Wikipedia page 查看更多细节。The AgglomerativeClustering 使用自下而上的方法进行层次聚类:开始是每一个对象是一个聚类, 并且聚类别相继合并在一起。 连接标准(linkage criteria 译注
Sklearn实现谱聚类 SpectralClustering(谱聚类) 是在样本之间进行关联矩阵的低维度嵌入,然后在低维空间中使用 KMeans 算法。 如果关联矩阵稀疏并且 pyamg 模块已经被安装,则这是非常有效的。 谱聚类 需要指定簇的数量。这个算法适用于簇数量少时,在簇数量多时是不建议使用。对于两个簇,它解决了相似图形上的 归一化切割(normalised cuts)的凸松弛问题: 将图形切割成两个,使得切割的边缘的权重比每个簇内的边缘的权重小。在图像处理时,这个标准是特别有趣的: 图像的顶点是像素,相似图形的边缘是图
Sklearn实现MeanShift聚类 MeanShift 算法旨在于发现一个样本密度平滑的 blobs 。均值漂移(Mean Shift)算法是基于质心的算法,通过更新质心的候选位置,这些侯选位置通常是所选定区域内点的均值。然后,这些候选位置在后处理阶段被过滤以消除近似重复,从而形成最终质心集合。...
Sklearn实现AP聚类 AffinityPropagation AP聚类是通过在样本对之间发送消息直到收敛的方式来创建聚类。然后使用少量模范样本作为聚类中心来描述数据集,而这些模范样本可以被认为是最能代表数据集中其它数据的样本。在样本对之间发送的消息表示一个样本作为另一个样本的模范样本的 适合程度,适合程度值在根据通信的反馈不断更新。更新迭代直到收敛,完成聚类中心的选取,因此也给出了最终聚类。...
Sklearn实现小批量KMeans聚类 MiniBatchKMeans 是 KMeans 算法的一个变种,它使用小批量(mini-batches)来减少计算时间,而这多个批次仍然尝试优化相同的目标函数。小批量是输入数据的子集,在每次训练迭代中随机抽样。这些小批量大大减少了收敛到局部解所需的计算量。 与其他降低 k-means 收敛时间的算法不同,小批量 k-means 产生的结果通常只比标准算法略差。该算法在两个步骤之间进行迭代,类似于 vanilla k-means 。在第一步, b 样本是从数据集中随机抽取的,形成一个小批量。然后将它们分配
Sklearn实现KMeans聚类 内平方和(within-cluster sum-of-squares)的标准(criterion)。该算法需要指定簇的数量。它可以很好地扩展到大量样本(large number of samples),并已经被广泛应用于许多不同领域的应用领域。k-means 算法将一组 N 样本 X 划分成 K 不相交的簇 C, 每个都用该簇中的样本的均值 \mu_j 描述。 这个均值(means)通常被称为簇的 “质心(centroids)”; 注意,它们一般不是从 X 中挑选出的点,虽然它们是处在同一个空间。..
Sklearn实现流形学习 高维数据集通常难以可视化。虽然,可以通过绘制两维或三维的数据来显示高维数据的固有结构,但与之等效的高维图不太直观。为了促进高维数据集结构的可视化,必须以某种方式降低维度。通过对数据的随机投影来实现降维是最简单的方法。虽然这样做能实现数据结构一定程度的可视化,但这种随机选择方式仍有许多有待改进之处。在随机投影过程中,数据中更有趣的结构很可能会丢失。...
Sklearn实现高斯混合模型 >>> import numpy as np>>> from sklearn.mixture import GaussianMixture>>> X = np.array([[1, 2], [1, 4], [1, 0], [10, 2], [10, 4], [10, 0]])>>> gm = GaussianMixture(n_components=2, random_state=0).fit(X)>>> gm
Sklearn实现高斯混合模型 import numpy as npimport matplotlib.pyplot as pltfrom matplotlib.colors import LogNormfrom sklearn import mixturen_samples = 300# generate random sample, two componentsnp.random.seed(0)# generate spherical data centered on (20, 20)shifted_gaussi
Sklearn实现等式回归 >>> from sklearn.datasets import make_regression>>> from sklearn.isotonic import IsotonicRegression>>> X, y = make_regression(n_samples=10, n_features=1, random_state=41)>>> iso_reg = IsotonicRegression().fit(X, y)&g
Sklearn实现随机森林 >>> from sklearn.model_selection import cross_val_score>>> from sklearn.datasets import make_blobs>>> from sklearn.ensemble import RandomForestClassifier>>> from sklearn.ensemble import ExtraTreesClassifier>>&g
Sklearn实现决策树 >>> from sklearn import tree>>> X = [[0, 0], [2, 2]]>>> y = [0.5, 2.5]>>> clf = tree.DecisionTreeRegressor()>>> clf = clf.fit(X, y)>>> clf.predict([[1, 1]])array([ 0.5])
Sklearn实现朴素贝叶斯 >>> from sklearn import datasets>>> iris = datasets.load_iris()>>> from sklearn.naive_bayes import GaussianNB>>> gnb = GaussianNB()>>> y_pred = gnb.fit(iris.data, iris.target).predict(iris.data)>>>
Sklearn实现交叉分解 import numpy as npimport matplotlib.pyplot as pltfrom sklearn.cross_decomposition import PLSCanonical, PLSRegression, CCA# ############################################################################## Dataset based latent variables modeln = 500# 2
Sklearn实现高斯过程 >>> from sklearn.gaussian_process.kernels import ConstantKernel, RBF>>> kernel = ConstantKernel(constant_value=1.0, constant_value_bounds=(0.0, 10.0)) * RBF(length_scale=0.5, length_scale_bounds=(0.0, 10.0)) + RBF(length_scale=2.0, lengt
Sklearn实现二次判别分析 >>> from sklearn.discriminant_analysis import QuadraticDiscriminantAnalysis>>> import numpy as np>>> X = np.array([[-1, -1], [-2, -1], [-3, -2], [1, 1], [2, 1], [3, 2]])>>> y = np.array([1, 1, 1, 2, 2, 2])>>>
Sklearn实现线性判别分析 from scipy import linalgimport numpy as npimport matplotlib.pyplot as pltimport matplotlib as mplfrom matplotlib import colorsfrom sklearn.discriminant_analysis import LinearDiscriminantAnalysisfrom sklearn.discriminant_analysis import QuadraticDisc
Sklearn实现最近邻算法(KNN) >>> from sklearn.neighbors import NearestNeighbors>>> import numpy as np>>> X = np.array([[-1, -1], [-2, -1], [-3, -2], [1, 1], [2, 1], [3, 2]])>>> nbrs = NearestNeighbors(n_neighbors=2, algorithm='ball_tree').fit(X)
Sklearn实现被动攻击算法 >>> from sklearn.linear_model import PassiveAggressiveClassifier>>> from sklearn.datasets import make_classification>>>>>> X, y = make_classification(n_features=4, random_state=0)>>> clf = PassiveAggressiveC
Sklearn实现感知器 >>> from sklearn.datasets import load_digits>>> from sklearn.linear_model import Perceptron>>> X, y = load_digits(return_X_y=True)>>> clf = Perceptron(tol=1e-3, random_state=0)>>> clf.fit(X, y)Perceptron()
Sklearn实现随机梯度下降 >>> import numpy as np>>> from sklearn.linear_model import SGDClassifier>>> from sklearn.preprocessing import StandardScaler>>> from sklearn.pipeline import make_pipeline>>> X = np.array([[-1, -1], [-2, -1],
Sklearn实现稳健回归 from matplotlib import pyplot as pltimport numpy as npfrom sklearn.linear_model import ( LinearRegression, TheilSenRegressor, RANSACRegressor, HuberRegressor)from sklearn.metrics import mean_squared_errorfrom sklearn.preprocessing import Polynomia
Sklearn实现逻辑回归 print(__doc__)# Authors: Alexandre Gramfort <alexandre.gramfort@inria.fr># Mathieu Blondel <mathieu@mblondel.org># Andreas Mueller <amueller@ais.uni-bonn.de># License: BSD 3 clauseimport numpy as npimport matplot
Sklearn实现岭回归 岭回归的基本用法Ridge回归通过对系数的大小施加惩罚来解决普通最小二乘法的一些问题。岭系数最小化的是带惩罚项的误差平方和:minw∣∣Xw−y∣∣22+α∣∣w∣∣22min_w||Xw-y||^2_2+\alpha||w||_2^2minw∣∣Xw−y∣∣22+α∣∣w∣∣22其中,α≥0\alpha \ge 0α≥0是控制系数收缩量的复杂性参数,α\alphaα越大,收缩量越大,模型对共线性的鲁棒性越强。[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-V2Qv
概率论与数理统计——方差分析 文章目录单因素试验的方差分析单因素试验双因素试验的方差分析方差分析是数理统计中应用很广泛的内容,主要看两个:单因素试验的方差分析双因素试验的方差分析在这之前先了解几个概念:方差分析:根据试验的结果进行分析,鉴别各个有关因素对试验结果的影响试验指标:在试验中要考察的指标称为试验指标因素:影响试验指标的条件称为因素。因素可分为两类:可控因素和不可控因素单因素试验:如果在一项试验中...
gitflow使用指南 当在团队开发中使用版本控制系统时,商定一个统一的工作流程是至关重要的。Git 的确可以在各个方面做很多事情,然而,如果在你的团队中还没有能形成一个特定有效的工作流程,那么混乱就将是不可避免的。基本上你可以定义一个完全适合你自己项目的工作流程,或者使用一个别人定义好的。在这章节中我们将一起学习一个当前非常流行的工作流程 git-flow。什么是 git-flow?一旦安装安装 git-flow,你将会拥有一些扩展命令。这些命令会在一个预定义的顺序下自动执行多个操作。是的,这就是我们的工作流程!git
Sklearn实现普通最小二乘法 LinearRegression拟合一个带有系数w=(w1,...,wp)w=(w_1,...,w_p)w=(w1,...,wp)的线性模型,使得数据集实际观测数据和预测数据之间的残差平方和最小,其数学表达式为:minw∣∣Xw−y∣∣22min_w||Xw-y||^2_2minw∣∣Xw−y∣∣22LinearRegression 会调用 fit 方法来拟合数组 X, y,并且将线性模型的系数 w 存储在其成员变量 coef_ 中:>>> from sklearn.lin
git pr/mr 提交规范 说在前面我们希望每个 mr 尽量⽐较单⼀,不要涉及太多复合的内容。这样便于 review,必要时也便于回滚。这⾥定义了 mr 提交时,title 和 message 的⼀个规范,如果可以的话,最好每个 commit 都遵循这个规范。定义规范的好处是:提供更多的信息,⽅便排查与回滚;过滤关键字,迅速定位.mr title 的规范形式化定义:<type>(<scope>): <subject>其中,各个域的说明如下:type:⽤于说明这次 mr/
Maven常用命令 文章目录mvn命令参数mvn常用命令1. 创建Maven的普通java项目2. 创建Maven的Web项目:3. 编译源代码4. 编译测试代码5. 运行测试6. 产生site7. 打包8. 在本地Repository中安装jar9. 清除产生的项目10. 生成eclipse项目11. 生成idea项目12. 组合使用goal命令,如只打包不测试13. 编译测试的内容14. 只打jar包15. 只测试而不编译,也不测试编译16. 清除eclipse的一些系统设置mvn命令参数mvn -v, --vers
Maven项目中如何引用另一个项目 项目A的pom文件:<project xmlns="<http://maven.apache.org/POM/4.0.0>" xmlns:xsi="<http://www.w3.org/2001/XMLSchema-instance>" xsi:schemaLocation="<http://maven.apache.org/POM/4.0.0> <http://maven.apache.org/xsd/maven-4.0.0.xsd>">
Python操作Influxdb数据库 from influxdb import InfluxDBClientclient = InfluxDBClient('localhost', 8086, 'study') # 连接数据库client.create_database('example') # 创建数据库# 待写入数据库的点组成的列表points = [ { "measurement": "cpu_load_short", "tags": { "host": "se
Linux的for循环语句 文章目录第一类:数字性循环第二类:字符性循环第三类:路径查找总结第一类:数字性循环#!/bin/bash for((i=1;i<=10;i++)); do echo $(expr $i \* 3 + 1); done #!/bin/bash for i in $(seq 1 10) do echo $(expr $i \* 3 + 1); done #!/bin/bash for i in {1..10} do ech
Linux的find命令 文章目录find语法例子Linux find 命令用来在指定目录下查找文件。任何位于参数之前的字符串都将被视为欲查找的目录名。如果使用该命令时,不设置任何参数,则 find 命令将在当前目录下查找子目录与文件。并且将查找到的子目录和文件全部进行显示。find语法find path -option [ -print ] [ -exec -ok command ] {} \;参数说明 :find 根据下列规则判断 path 和 expression,在命令列上第一个
Mac下Idea、PyCharm等工具无限试用的方法 1、下载专业版Idea、PyCharm2、选择试用30天3、30天到期后,执行以下脚本重置试用期#!/bin/bashif [ "$1" = "--prepare-env" ]; then DIR="$( cd "$( dirname "${BASH_SOURCE[0]}" )" >/dev/null 2>&1 && pwd )" mkdir -p ~/Scripts echo "Copying the script to $HOME/Script
如何在一台电脑上管理多个版本的Python? 文章目录安装pyenvMacWindowsLinuxpyenv使用pyenv commandspyenv localpyenv globalpyenv shellpyenv installpyenv uninstallpyenv rehashpyenv versionpyenv versionspyenv whichpyenv whence如何在同一个电脑上安装多个版本的Python并轻松管理、切换?pyenv轻松搞定。安装pyenvMacbrew updatebrew install pyen
Markdown数学公式 行内与独行行内公式:将公式插入到本行内,符号:公式内容公式内容公式内容,如:xyzxyzxyz独行公式:将公式插入到新的一行内,并且居中,符号:公式内容公式内容公式内容,如:xyzxyzxyz上标、下标与组合上标符号,符号:^,如:x4x^4x4下标符号,符号:_,如:x1x_1x1组合符号,符号:{},如:168O2+2{16}_{8}O{2+}_{2}168O2+2汉字、字体与格式汉字形式,符号:\mbox{},如:KaTeX parse error: Undefined cont
Mac下移动硬盘里的文件变成灰色的处理方法 打开终端,进入灰色文件所在目录,执行 sudo xattr -r -d com.apple.FinderInfo .注意:该命令会会递归处理所有子目录下的灰色文件
Kafka常用命令 启动kafka后台常驻方式,带上参数 -daemonkafka-server-start.sh -daemon /usr/local/kafka/config/server.properties指定JMX_PORT端口启动,指定jmx,方便监控Kafka集群JMX_PORT=8001 kafka-server-start.sh -daemon /usr/local/kafka/config/server.properties停止kafkakafka-server-stop.shTopic
机器学习常见面试题总结 序号题目难度ABCDEF正确答案1关于 Logit 回归和 SVM 不正确的是简单Logit 回归目标函数是最小化后验概率Logit 回归可以用于预测事件发生概率的大小SVM 目标是结构风险最小化SVM 可以有效避免模型过拟合A2是否能用神经网络算法设计逻辑回归算法?简单是否A3关于支持向量机 SVM,下列说法错误的是简单L2 正则项,作用是最大化分类间隔,使得分类器拥有更强的泛化能力Hinge 损失函数,作用是最小...
蔡勒公式 给定一个日期:yyy年mmm月ddd日,求这天是星期几1582年10月5日及之后的日期:w=([c4]−2c+y+[y4]+[13∗(m+1)5]+d−1) MOD 7w=([\frac c 4] - 2c + y + [\frac y 4] + [\frac {13*(m+1)} 5] + d - 1)\ MOD \ 7w=([4c]−2c+y+[4y]+[513∗(m+1)]+d−1) MOD 71582年10月4日及之前的日期:w=([c4]−2
sbt常用命令 命令说明compile编译源代码(在 src/main/scala 和 src/main/java 文件夹下)clean删除构建产生的文件run[argument] 运行test编译并执行所有测试package打包console打开 scala 交互界面reload重新加载构建配置reload plugins重新加载插件reload return重新加载根项目并离开插件项目exit退出help[comman...
Scala系列——目录 数据类型ArrayListSeqTupleMapSet流程控制if语句for和foreachwhile循环try语句match表达式没有break和continue函数类和对象类、字段和方法单例对象隐式转换和隐式参数等等...
pandas绘图指南 文章目录pandas绘图基本绘图方法plot其他绘图条形图直方图箱型图面积图散点图六边形图饼图绘制缺失数据几个特殊的绘图函数散点图矩阵密度图安德鲁斯曲线平行坐标滞后图自相关图自举图RadViz绘图格式import pandas as pdimport numpy as npimport matplotlib.pyplot as pltpandas绘图基本绘图方法plotSeries....
线性神经网络 线性神经网络和单层感知器的区别主要在于:感知器的传输函数只能输出两种可能的值,而线性神经网络可以输出任意值,其传输函数是线性函数 如图所示,线性神经网络可以产生二值输出(图中的qqq)和模拟输出(图中的yyy)和感知器类似,先行神经网络的变量: x(n)=[1,x1(n),x2(n),...,xN(n)]Tx(n)=[1,x1(n),x2(n),...,xN(n)]Tx(n)=[1, ...
机器学习系列——目录 监督学习广义线性模型普通最小二乘法岭回归Lasso回归多任务Lasso弹性网络多任务弹性网络最小角回归坐标下降法正交匹配追踪法贝叶斯回归贝叶斯岭回归主动相关决策理论逻辑回归随机梯度下降感知器被动攻击算法稳健回归多项式回归线性和二次判别分析线性判别分析二次判别分析内核岭回归支持向量机随机梯度下降最近邻高斯过程交叉分解朴素...
机器学习系列——最小角回归 在介绍最小角回归之前,需要先看看两个预备算法:前向选择算法前向梯度算法前向选择算法前向选择算法的原理是一种典型的贪心算法。要解决的问题是: 对于Y=XθY=X\thetaY=Xθ这样的线性关系,如何求解系数θ\thetaθ。其中YYY是m∗1m*1m∗1的向量,XXX是m∗nm*nm∗n的矩...
机器学习系列——坐标下降法 坐标下降法,是沿着坐标轴的方向去下降。坐标下降法的数学依据是: 一个可微的凸函数J(θ)J(\theta)J(θ),其中θ\thetaθ是n∗1n*1n∗1的向量,即有nnn个维度。如果在某一点θ‾\overline \thetaθ,使得J(θ)J(\theta)J(θ)在每一个坐标轴θ‾...
机器学习系列——Lasso回归 Lasso回归在普通最小二乘法的基础上加上了一个l1l_1l1惩罚项损失函数:J(θ)=12m∑i=1m(hθ(x(i))−y(i))2+λ∑j=1n∣θj∣J(\theta)=\frac 1 {2m}\sum_{i=1}^m(h_{\theta}(x^{(i)})-y^{(i)})^2+\lambda \sum_{j=1}^n|\theta_j|J(θ)=2m1i=1∑m(hθ(x(i...
sklearn系列——目录 监督学习广义线性模型线性和二次判别分析内核岭回归支持向量机随机梯度下降最近邻高斯过程交叉分解朴素贝叶斯决策树集成方法多类和多标签算法特征选择半监督学习等式回归概率校准神经网络模型(有监督)无监督学习高斯混合模型流形学习聚类双聚类分解成分中的信号(矩阵分解问题)协方差估计新奇和异常值检测密度估计神经网络模型(无监督)模型选择和评估...
Python操作InfluxDB指南 文章目录简单例子详细APIInfluxDBClientInfluxDBClient类的参数说明InfluxDB类的方法DataFrameClientDataFrameClient类的参数说明DataFrame类的方法详细例子InfluxDBClient例子DataFrameClient例子简单例子from influxdb import InfluxDBClientclient = Infl...
Influxdb语法 1、数据构成INSERT cpu_load_short,host=server01,region=us-west value=0.64,value2=0.86 1434055562000000000第一部分:“cpu_load_short,host=server01,region=us-west”第一部分称为key,key中包含了measurement name(类似表)和tags(tag...
Docker命令大全 docker hello worlddocker run ubuntu:15.10 /bin/echo "Hello world"各个参数解析:docker: Docker 的二进制执行文件。run: 与前面的 docker 组合来运行一个容器。ubuntu:15.10 指定要运行的镜像,Docker 首先从本地主机上查找镜像是否存在,如果不存在,Docker 就会从镜像仓库 Doc...
README.md CSDN-blog-sender利用 api 或者 cookie 发表博客,目前支持 csdn为什么有它?我在很多网站上都有博客,当发表博客时,每个网站都要更新,太累了,为了避免重复操作,所以想 b 通过程序...
LeetCode系列——1、两数之和 给定一个整数数组 nums 和一个目标值 target,请你在该数组中找出和为目标值的那 两个 整数,并返回他们的数组下标。你可以假设每种输入只会对应一个答案。但是,你不能重复利用这个数组中同样的元素。示例:给定 nums = [2, 7, 11, 15], target = 9因为 nums[0] + nums[1] = 2 + 7 = 9所以返回 [0, 1]链接:https://...
离群分析系列——1、离群分析引言 什么是异常值?异常值是一种和其他观察数据有显著差异,让人怀疑它是由不同的机制产生的数据异常检测应用举例:入侵检测系统:在许多计算机系统中,收集关于操作系统调用,网络流量或其他用户动作的不同类型的数据。 由于恶意活动,此数据可能会显示异常行为。 对此类活动的识别称为入侵检测。信用卡欺诈:未授权使用的信用卡消费(如盗刷信用卡)会存在很多异常行为(如非常用地消费、大额消费)传感网络...
机器学习系列——9、条件随机场 条件随机场(conditional random field, CRF)是给定一组输入随机变量条件下另一组输出随机变量的条件概率分布模型,其特点是假设输出随机变量构成马尔科夫随机场。...