![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
文章平均质量分 53
EdVzAs
写下自己的学习笔记
展开
-
Python 第三方模块 统计2 patsy,chowtest
官方文档:https://pypi.org/project/patsy/一.概述1.简介:patsy是1个用于描述统计模型(尤其是线性模型或具有线性组件的模型)和构建设计矩阵的Python库.其受R/S语言中的公式迷你语言启发并与之兼容,为Python带来了"R公式"(R "formulas")的便利性2.安装:pip install patsy二.使用...原创 2021-10-30 21:06:37 · 1363 阅读 · 0 评论 -
机器学习 朴素贝叶斯与贝叶斯网络
一.朴素贝叶斯1.概述(1)假设:①特征独立性:每个特征出现的概率与其他特征独立②特征均衡性:每个特征都同等重要2.实例:假设已经有1000封被标记好了(c1c_1c1表示垃圾邮件,c2c_2c2表示非垃圾邮件)的邮件,要求识别第1001封邮件是否为垃圾邮件.首先构建词汇表,设其中的单词数为N=nN=nN=n.将第邮件mmm映射到nnn维向量xmx_mxmm→xm=(x1m,x2m...xnm)xim={1 if 单词wi在m中出现过0 otherwisem→x_m=(x_{1m},x原创 2021-08-02 20:26:43 · 1637 阅读 · 1 评论 -
机器学习 装袋算法与随机森林
一.装袋算法1.概述:"自举聚集算法/装袋算法"(Bootstrap Aggregating;Bagging)是1种团体学习算法,最初由Leo Breiman于1996年提出.该算法可与其他分类/回归算法结合,提高其准确率/稳定性并通过降低结果的方差来避免过拟合.其基本想法是分别训练几个不同的模型,然后让各模型对测试样本的结果进行投票表决,即进行"模型平均"(Model Averaging)2.步骤:①通过"自助法"(Bootstrapping)从样本集中选出n个样本,得到训练集②在训练集上原创 2021-07-31 19:35:22 · 1522 阅读 · 0 评论 -
机器学习 最大熵模型
一.信息熵1.信息熵(1)概述:该概念由克劳德·艾尔伍德·香农在1948年首次提出,最初来自于热力学中熵的概念.为避免混淆,故称为信息熵(Entropy).这是1个用于度量信息的不确定性的抽象概念.由于1条信息的信息量的大小与其不确定性有直接关系,如为了弄清楚1件高度不确定的事,就需要大量信息,因此对不确定性的度量就相当于对信息量(或预期需求的信息量)的度量(2)定义:信息熵H(X)H(X)H(X)被定义为H(X)=−∑xP(x)log2P(x)H(X)=-\sum_x{P(x)\log_原创 2021-07-22 19:32:51 · 514 阅读 · 0 评论 -
机器学习 牛顿法
参见https://blog.csdn.net/itplus/article/details/21896453一.牛顿法参见:https://zhuanlan.zhihu.com/p/335443631.概念:"牛顿法"(Newton's method)是1种启发式的迭代算法,用于求解非线性最优化问题.其基本思想是:开始时随机选择1组参数(θ1,θ2...θn)并计算相应的目标函数值,然后迭代地沿牛顿方向移动来求解极小/大值.需要注意的是:仅当目标函数为凸函数时梯度下降能保证找到全局最优解;其他情原创 2021-07-21 18:09:26 · 398 阅读 · 0 评论 -
机器学习 线性回归
更多推导参见:https://blog.csdn.net/sinat_37965706/article/details/69204397一.线性回归1.概念:"线性回归"(Linear Regression)是指找到自变量与因变量之间的线性关系.相应的模型为"线性回归模型"(Linear Regression Model),该模型假设因变量y服从正态分布2.分类(1)简单线性回归:简单线性回归(Simple Linear Regression)是指找到1个自变量与1个因变量间的线性关系.简原创 2021-07-20 18:53:41 · 257 阅读 · 1 评论 -
机器学习 谱聚类
一.概述1.概念(1)谱,谱半径,谱范数:将方阵AAA的所有特征值构成的集合称为其谱(Spectrum),其谱中元素的最大绝对值称为其谱半径(Spectrum Radius/Spectral Radius),记为SR(A)=maxλi ∣eig(A)∣SR(A)=\underset{λ_i}{\max}\,|eig(A)|SR(A)=λimax∣eig(A)∣对矩阵MMM,将MTMM^TMMTM的谱半径的平方根称为MMM的谱范数(Spectrum Norm/Spectral Norm),记为S原创 2021-07-18 20:40:45 · 275 阅读 · 0 评论 -
机器学习 基于密度的聚类
一.概述1.概念:"基于密度的聚类"(Density-based Clustering)认为:在整个样本空间中,各目标簇均由一群稠密的样本点组成,而这些稠密样本点被低密度区域(即噪声)分割从而形成不同的簇;而算法的目的就是要过滤低密度区域并发现稠密样本点.具体来说,如果算法发现某个区域中数据点的密度超过了某个阈值,则将该区域放入最近的簇中2.优缺点(1)优点:①可发现任意形状的簇②对噪声不敏感③以数据集在空间中的稠密度为依据进行聚类,无需预先指定簇的数量,因此特别适合对未知数据集进行聚类原创 2021-07-17 23:27:43 · 633 阅读 · 2 评论 -
机器学习 层次聚类
一.概述1.层次聚类:"层次聚类"(Hierarchical Clustering)是1类聚类算法.这种算法会根据不同数据点间的相似度来逐级将数据点分入不同类别,从而创建出1棵有层次的聚类树.原始数据点是这颗树的最低层,树的顶层则是包含全部数据的根节点.层次聚类又可分为"合并的层次聚类"(AgglomerativeNesting;AGNES)和"分裂的层次聚类"(Divisive Analysis;DIANA)2.合并的层次聚类:"合并的层次聚类"(Agglomerative Nesting原创 2021-07-17 22:48:11 · 292 阅读 · 0 评论 -
Python 第三方模块 机器学习 Scikit-Learn模块 其他
一.calibration1.简介:该模块用于进行"概率校准"(Probability Calibration)2.使用(1)类:基于"保序回归"(isotonic regression)或"逻辑回归"(logistic regression)的概率校准:class sklearn.calibration.CalibratedClassifierCV([base_estimator=None,method='sigmoid',cv=None,n_jobs=None,ensemble=True])原创 2021-04-22 12:35:17 · 430 阅读 · 0 评论 -
Python 第三方模块 机器学习 Scikit-Learn模块 其他估计器
一.compose1.简介:该模块用于使用"变压器"(transformers)构建"复合模型"(composite models)的"元估计器"(Meta-estimators)2.使用(1)类:Applies transformers to columns of an array or pandas DataFrame:class sklearn.compose.ColumnTransformer(<transformers>[,remainder='drop',sparse_t原创 2021-03-31 19:55:23 · 163 阅读 · 0 评论 -
Python 第三方模块 机器学习 Scikit-Learn模块 无监督学习2 协方差估计,流形学习,高斯混合模型
一.isotonic1.简介:该模块用于进行"保序回归"(Isotonic regression)2.使用(1)类:"保序回归模型"(Isotonic regression model):class sklearn.isotonic.IsotonicRegression([y_min=None,y_max=None,increasing=True,out_of_bounds='nan'])(2)方法:求因变量是否与自变量单调相关:[<increasing_bool>=]skle原创 2021-04-12 17:11:57 · 282 阅读 · 0 评论 -
Python 第三方模块 机器学习 Scikit-Learn模块 无监督学习1 聚类2
一.kernel_approximation1.简介:该模块基于"傅立叶变换"(Fourier transforms)与"计算草图"(Count Sketches)实现了一些"近似核特征映射"(approximate kernel feature maps)2.使用:"加性卡方核"(additive chi2 kernel)的"近似特征映射"(Approximate feature map):class sklearn.kernel_approximation.AdditiveChi2Sample原创 2021-04-13 19:58:47 · 238 阅读 · 0 评论 -
Python 第三方模块 机器学习 Scikit-Learn模块 无监督学习1 聚类1
官方文档:https://scikit-learn.org/0.17/modules/classes.html#module-sklearn.cluster一.cluster1.简介:sklearn.cluster是sklearn模块中用于解决聚类问题的子模块2.类:cluster.AffinityPropagation([damping=0.5,max_iter=200,convergence_iter=15,copy=True,preference=None,affinity='euclid原创 2021-01-30 21:43:54 · 233 阅读 · 0 评论 -
Python 第三方模块 机器学习 Scikit-Learn模块 有监督学习7 概率校准,判别分析,核岭回归,SVM
一.discriminant_analysis1.简介:该模块用于进行线性判别分析和二次判别分析2.使用:"线性判别分析"(Linear Discriminant Analysis):class sklearn.discriminant_analysis.LinearDiscriminantAnalysis([solver='svd',shrinkage=None,priors=None,n_components=None,store_covariance=False,tol=0.0001,cov原创 2021-04-07 22:03:11 · 315 阅读 · 0 评论 -
Python 第三方模块 机器学习 Scikit-Learn模块 有监督学习6 集成学习
一.calibration1.简介:该模块用于进行"概率校准"(Probability Calibration)2.使用(1)类:基于"保序回归"(isotonic regression)或"逻辑回归"(logistic regression)的概率校准:class sklearn.calibration.CalibratedClassifierCV([base_estimator=None,method='sigmoid',cv=None,n_jobs=None,ensemble=True])原创 2021-04-22 22:20:18 · 184 阅读 · 0 评论 -
Python 第三方模块 机器学习 Scikit-Learn模块 有监督学习5 ANN,决策树
一.metrics1.简介:该模块包含各种"评分函数"(score functions)/"性能指标"(performance metrics)/"成对指标"(pairwise metrics)/"距离计算"(distancecomputations),用于对模型效果进行定量评估2.模型选择接口(Model Selection Interface):通过用户选择确定"计分器"(scorer):[<scoring>=]sklearn.metrics.check_scoring(<原创 2021-04-15 23:23:20 · 625 阅读 · 0 评论 -
Python 第三方模块 机器学习 Scikit-Learn模块 有监督学习4 线性模型2
一.linear_model3.线性回归器(2)带有变量选择的线性回归器(Linear regressors with variable selection):以"L1范数"(L1 priors)和"L2范数"(L2 priors)的混合作为"正则化器"(regularizer)的"弹性网络回归模型"(Elastic Net Regression model):class sklearn.linear_model.ElasticNet([alpha=1.0,l1_ratio=0.5,fit_inter原创 2021-04-29 20:46:35 · 439 阅读 · 0 评论 -
Python 第三方模块 机器学习 Scikit-Learn模块 有监督学习4 线性模型1
一.semi_supervised1.简介:该模块用于进行"半监督学习"(semi-supervised learning)2.使用:"标签传播分类器"(Label Propagation classifier):class sklearn.semi_supervised.LabelPropagation([kernel='rbf',gamma=20,n_neighbors=7,max_iter=1000,tol=0.001,n_jobs=None]) #参数说明: kernel:指定使用的原创 2021-04-22 18:19:32 · 232 阅读 · 0 评论 -
Python 第三方模块 机器学习 Scikit-Learn模块 有监督学习3 朴素贝叶斯,KNN
一.naive_bayes1.简介:该模块实现了"朴素贝叶斯算法"(Naive Bayes algorithms)2.使用:"伯努利朴素贝叶斯分类器"(Bernoulli Naive Bayes Classifier):class sklearn.naive_bayes.BernoulliNB([alpha=1.0,binarize=0.0,fit_prior=True,class_prior=None])"类别朴素贝叶斯分类器"(Categorical Naive Bayes Classifi原创 2021-04-22 15:52:41 · 240 阅读 · 0 评论 -
Python 第三方模块 机器学习 Scikit-Learn模块 有监督学习2 多类别分类,多输出学习,半监督学习
一.multiclass1.简介:该模块用于进行"多类别分类"(Multiclass classification),包括3类算法:①"1对其余"(one-vs-the-rest;OvR)/"1对全体"(one-vs-all;OvA)②"1对1"(one-vs-one;OvO) ③"纠错输出码"(error correcting output codes).该模块中提供的分类器均为元估计器,需要提供1个基本估计器(如2类别分类器或回归器)2.使用(1)1对多:1对多分类器:class skl原创 2021-04-22 15:50:32 · 505 阅读 · 0 评论 -
Python 第三方模块 机器学习 Scikit-Learn模块 有监督学习1 交叉分解,高斯过程,保序回归
一.multiclass1.简介:该模块用于进行"多类别分类"(Multiclass classification),包括3类算法:①"1对其余"(one-vs-the-rest;OvR)/"1对全体"(one-vs-all;OvA)②"1对1"(one-vs-one;OvO) ③"纠错输出码"(error correcting output codes).该模块中提供的分类器均为元分类器,需要提供1个基本分类器(如2类别分类器或回归器)2.使用(1)1对多:1对多分类器:class skl原创 2021-04-21 18:00:38 · 485 阅读 · 1 评论 -
Python 第三方模块 机器学习 Scikit-Learn模块 模型的选择与评估
一.impute1.简介:该模块用于处理缺失值2.使用:class sklearn.impute.SimpleImputer([missing_values=nan,strategy='mean',fill_value=None,verbose=0,copy=True,add_indicator=False])class sklearn.impute.IterativeImputer([estimator=None,missing_values=nan,sample_posterior=Fals原创 2021-04-11 15:44:36 · 948 阅读 · 0 评论 -
Python 第三方模块 机器学习 Scikit-Learn模块 矩阵分解,核近似
一.cross_decomposition1.简介:该模块用于进行"交叉分解"(cross decomposition)2.使用:"典型相关分析"(Canonical Correlation Analysis;CCA):class sklearn.cross_decomposition.CCA([n_components=2,scale=True,max_iter=500,tol=1e-06,copy=True])"偏最小二乘"(Partial Least Squares;PLS)转换与回归:c原创 2021-04-07 22:04:05 · 387 阅读 · 0 评论 -
Python 第三方模块 机器学习 Scikit-Learn模块 数据降维
一.feature_extraction1.简介:该模块用于对原始数据进行"特征提取"(feature extraction)2.使用:将"特征值映射列表"(lists of feature-value mappings)转换为矢量:class sklearn.feature_extraction.DictVectorizer([dtype<class 'numpy.float64'>,separator='=',sparse=True,sort=True])实现"特征哈希"(fea原创 2021-04-22 12:59:48 · 325 阅读 · 0 评论 -
Python 第三方模块 机器学习 Scikit-Learn模块 数据预处理
一.feature_extraction1.简介:该模块用于对原始数据进行"特征提取"(feature extraction)2.使用:将"特征值映射列表"(lists of feature-value mappings)转换为矢量:class sklearn.feature_extraction.DictVectorizer([dtype<class 'numpy.float64'>,separator='=',sparse=True,sort=True])实现"特征哈希"(fea原创 2021-04-10 14:42:45 · 427 阅读 · 0 评论 -
Python 第三方模块 机器学习 Scikit-Learn模块 简介,基类,数据集,错误
一.基本情况1.简介:Scikit-Learn是1个基于Numpy/SciPy/Matplotlib的Python机器学习库原创 2020-11-08 19:20:32 · 840 阅读 · 0 评论 -
Python 第三方模块 科学计算 SymPy模块
一.介绍原创 2021-03-15 20:24:03 · 1296 阅读 · 0 评论 -
Python 第三方模块 统计1 statsmodels模块1 简介,回归
一.statsmodels模块官方文档:https://www.statsmodels.org/stable/index.html二.patsy模块官方文档:https://pypi.org/project/patsy/1.概述(1)简介:patsy是1个用于描述统计模型(尤其是线性模型或具有线性组件的模型)和构建设计矩阵的Python库.其受R/S语言中的公式迷你语言启发并与之兼容(2)安装:pip install patsy2.使用...原创 2021-02-19 20:59:21 · 3125 阅读 · 0 评论 -
机器学习 优化问题
一.概述1.概念(1)优化问题:"(最)优化问题"(Optimization Problem)是指选择1组参数,以使指定指标(称为"目标")达到指定限制条件(称为"约束")下的最优值(2)凸优化问题:2.一般形式:设X=(x1,x2...xn)TX=(x_1,x_2...x_n)^TX=(x1,x2...xn)T,则最优化问题的一般形式为minf(X)s.t.{gi(X)≤0 (i=1,2...p)hj(X)=0 (j=1,2...q)\min{f(X)}\\s.t.\begin原创 2021-03-12 21:35:06 · 195 阅读 · 0 评论 -
Python 第三方模型 科学计算 SciPy模块8 优化与寻根
十二.Optimize模块1.优化(Optimization)(1)标量函数优化(Scalar Functions Optimization):(2)局部优化(Local Optimization):(3)全局优化(Global Optimization):2.最小二乘法与曲线拟合(1)非线性最小二乘法(Nonlinear Least-Squares):(2)线性最小二乘法(Linear Least-Squares):(3)曲线拟合(Curve Fitting):3原创 2021-03-17 19:26:44 · 1381 阅读 · 1 评论 -
Python 第三方模块 科学计算 SciPy模块7 稀疏矩阵2
十三.Csgraph子模块2.内容(4)其他:分析稀疏图中的"连通分量"(Connected Component):[<n_components>,<labels>=]scipy.sparse.csgraph.connected_components(<csgraph>[,directed=True,connection='weak',return_labels=True]) #参数说明: csgraph:指定稀疏图;为N×N sparse matrix原创 2021-03-20 20:46:50 · 223 阅读 · 0 评论 -
Python 第三方模块 科学计算 SciPy模块7 稀疏矩阵1
十一.Sparse模块1.创建稀疏矩阵(1)类:块系数行矩阵:class scipy.sparse.bsr_matrix(<arg1>[,shape=None,dtype=None,copy=False,blocksize=None]) #参数说明: arg1:指定 shape: dtype: copy: blocksize:原创 2021-03-11 10:09:00 · 600 阅读 · 0 评论 -
Python 第三方模块 科学计算 SciPy模块6 特殊函数2
十一.Special模块2.特殊函数(9)菲涅尔积分(Fresnel Integral):Fresnel integrals:[<S>,<C>=]scipy.special.fresnel(<z>[,out=None])Compute nt complex zeros of sine and cosine Fresnel integrals S(z) and C(z):[<Sz>,<Cz>=]scipy.special.fresnel_ze原创 2021-03-20 20:39:08 · 315 阅读 · 0 评论 -
Python 第三方模块 科学计算 SciPy模块6 特殊函数1
十.Special模块几乎所有以下函数均为"通用函数"(Universal Function),遵循"广播"(Broadcasting)及"自动数组循环"(Automatic Array-Looping)规则1.错误处理(Error Handling)(1)函数:Get the current way of handling special-function errors:[<err>=]scipy.special.geterr()#########################原创 2021-03-10 19:48:30 · 1147 阅读 · 2 评论 -
Python 第三方模块 科学计算 SciPy模块5 统计3
九.Stats模块4.统计检验(Statistical Tests):进行单变量"T-检验"(T-Test):[<statistic>,<pvalue>=]scipy.stats.ttest_1samp(<a>,<popmean>[,axis=0,nan_policy='propagate',alternative='two-sided'])进行双独立变量T-检验:[<statistic>,<pvalue>=]scipy.stat原创 2021-03-20 20:35:33 · 158 阅读 · 0 评论 -
Python 第三方模块 科学计算 SciPy模块5 统计2
九.Stats模块3.描述统计(Descriptive Statistics)(1)概括性统计(Summary Statistics):返回数据集的相关信息:[<nobs>,<minmax>,<mean>,<variance>,<skewness>,<kurtosis>=]scipy.stats.describe(<a>[,axis=0,ddof=1,bias=True,nan_policy="propagate"])原创 2021-03-20 20:29:35 · 147 阅读 · 0 评论 -
Python 第三方模块 科学计算 SciPy模块5 统计1
九.Stats模块1.概率分布(1)基类:连续型随机变量的基类:class scipy.stats.rv_continuous([momtype=1,a=None,b=None,xtol=1e-14,badvalue=None,name=None,longname=None,shapes=None,extradoc=None,seed=None])############################################################################原创 2021-02-27 14:49:07 · 351 阅读 · 0 评论 -
Python 第三方模块 科学计算 SciPy模块4 线性代数2
八.Linalg模块3.分解(2)SVD:对矩阵进行SVD:[<U>,<s>,<Vh>=]scipy.linalg.svd(<a>[,full_matrices=True,compute_uv=True,overwrite_a=False,check_finite=True,lapack_driver='gesdd']) #分解为<a>=<U>*<s>*<vh> #参数说明:其他参数同scipy.l原创 2021-03-20 20:27:10 · 143 阅读 · 0 评论 -
Python 第三方模块 科学计算 SciPy模块4 线性代数1
七.IO模块1.mat文件(1)读取:读取.mat文件:[<mat_dict>=]scipy.io.loadmat("<file_name>"[,mdict=None,appendmat=True,byte_order=None,mat_dtype,squeeze_me,chars_as_strings,matlab_compatible,struct_as_record,verify_compressed_data_integrity,variable_names=None,原创 2021-02-22 16:11:23 · 513 阅读 · 0 评论