算法进阶
文章平均质量分 84
WslWslYYX
这个作者很懒,什么都没留下…
展开
-
算法进阶--HMM
算法进阶--HMMHMMHMM的三个基本问题前向算法后向算法HMM定义:HMM是关于时序的概率模型,描述由一个隐藏的马尔科夫链生成不可观测的状态随机序列,再由各个状态生成观测随机序列过程HMM随机生成的状态随机序列,称为状态序列,每个状态生成一个观测,由此产生的观测序随机序列,称为观测序列序列的每个位置可看做是一个时刻目的:用来处理那些样本之间不独立的数据(结构化数据)HMM的确定:HMM由出是概率π、状态转移概率分布A以及观测概率分布B确定(其中,π为初始隐状态的概原创 2021-11-07 01:34:55 · 329 阅读 · 0 评论 -
算法进阶--主题模型
算法进阶--主题模型前置知识前置知识Γ\GammaΓ函数: Γ\GammaΓ函数是阶乘在实数上的推广,是一个确定的数字Beta 分布:(目的:加上1B(α,β)\frac{1}{B(\alpha,\beta)}B(α,β)1使得xα−1(1−x)β−1x^{\alpha-1}(1-x)^{\beta-1}xα−1(1−x)β−1在x∈[0,1]x\in[0,1]x∈[0,1]上积分为1)Beta分布的期望为:共轭先验分布:在贝叶斯概率理论中,如果后验概率P(θ∣x)P(\theta原创 2021-11-05 11:09:11 · 120 阅读 · 0 评论 -
算法进阶--朴素贝叶斯,贝叶斯网络,D-separation
算法进阶--贝叶斯网络朴素贝叶斯高斯朴素贝叶斯多项分布朴素贝叶斯朴素贝叶斯朴素贝叶斯是假设样本特征之间相互独立如:(通过n个特征来判断样本y的分类)P(y∣x1,x2,x3...xn)=P(x1,x2,x3...xn∣y)P(Y)P(x1,x2,x3...xn)P(y|x_1,x_2,x_3...x_n)=\frac{P(x_1,x_2,x_3...x_n|y)P(Y)}{P(x_1,x_2,x_3...x_n)}P(y∣x1,x2,x3...xn)=P(x1,x2,x3...xn原创 2021-11-03 18:35:02 · 347 阅读 · 0 评论 -
算法进阶--EM算法
算法进阶--EM算法Jensen不等式Jensen不等式若f是凸函数:(以离散的角度来看,连续的同理)f(θx+(1−θ)y≤θf(x)+(1−θ)f(y)f(\theta x +(1-\theta)y \leq \theta f(x) +(1-\theta)f(y)f(θx+(1−θ)y≤θf(x)+(1−θ)f(y)其中 x 和 y 为f凸函数上任意两点,θ∈(0,1)\theta \in(0,1)θ∈(0,1)若θ1,...,θk≥0,θ1+...+θk=1\theta_{1},...,\原创 2021-11-02 21:55:20 · 237 阅读 · 0 评论 -
算法进阶--层次聚类
算法进阶-聚类2层次聚类方法AGENS密度聚类方法DBSCAN算法密度最大值聚类谱聚类拉普拉斯矩阵的类型层次聚类方法定义:对给定的数据集进行层次的分解,直到某种条件满足为止分为:1.凝聚的层次聚类:AGNES算法– 一种自底向上的策略,首先将每个对象作为一个簇,然后合并这些原子簇为越来越大的簇,知道某个中介条件被满足2.分裂的层次聚类:DIANA算法– 采用自顶向下的策略,首先将所有对象置于一个簇中,然后逐渐细分为越来越小的簇,直到达到了某个终结条件AGENS簇间距离:1.最小距离:两个原创 2021-10-31 22:33:49 · 365 阅读 · 0 评论 -
算法进阶--聚类之k-Means与其评判标准,相似度计算
算法进阶--聚类聚类聚类的基本思想K-Means 算法K-Means 补充相似度/距离计算方法总结聚类定义:聚类就是对大量未标注的数据集,按数据的内在相似性将数据集划分为多个类别,使类别内的数据相似度较大而类别间的相似度较小聚类的基本思想1条件:给定一个有N个对象的数据集,构造数据的k个簇,k≤nk\leq nk≤n,且满足下列条件:– 每一个簇至少包含一个对象– 每一个对象属于且仅属于一个簇– 将满足上述条件的k个簇称作一个合理划分2.思想:对于给定的类别数目k,首先给出初始划分,通过原创 2021-10-31 11:21:31 · 4409 阅读 · 0 评论 -
算法进阶--SVM实践
算法进阶--SVM实践分类器指标(再谈)svm初步使用分类器指标(再谈)在前面precision,recall 以及F1评判指标下引入FβF_\betaFβ:Fβ=(1+β)⋅precision⋅recallβ2⋅precision+recallF_{\beta}=\frac{(1+\beta)\cdot precision \cdot recall}{\beta^{2} \cdot precision+recall}Fβ=β2⋅precision+recall(1+β)⋅precision⋅re原创 2021-10-28 22:57:31 · 286 阅读 · 0 评论 -
算法进阶--SVM原理
算法进阶--SVM支持向量机线性可分SVM带松弛因子的SVM(线性SVM)支持向量机分为:线性可分支持向量机– hard margin maximization(硬间隔最大化),所以又称为硬间隔支持向量机线性支持向量机–soft margin maximization(软间隔最大化),所以又称为软间隔支持向量机非线性支持向量机– kernel function(核函数)ps.前两种向量机+核函数=非线性(可分)向量机线性可分SVM目的: 在分类问题中,构建一个平面(直线或者超平面原创 2021-10-27 23:54:14 · 726 阅读 · 0 评论 -
算法进阶--xgboost实践
xgboost-实践初次使用xgboost初次使用xgboostimport xgboost as xgbif __name__ == "__main__": # 读取数据 data_train = xgb.DMatrix('agaricus_train.txt') data_test = xgb.DMatrix('agaricus_test.txt') # 设置参数 param = {'max_depth': 3, 'eta': 1, 'silent':原创 2021-10-27 09:51:52 · 102 阅读 · 0 评论 -
算法进阶--提升
算法进阶--第四天提升提升提升:是一个机器学习技术,可以用于回归和分类问题,它每一步产生一个弱预测模型(如决策树),并且加权累加到总模型中,如果每一步的弱预测模型生成都是依据损失函数的梯度方向,则称之为梯度提(Gradient boosting)–理论意义:如果一个问题存在弱分类器,则可以通过提升的方法得到强分类器梯度提升算法:首先给定一个目标损失函数,其定义域是所有可行的弱函数集合(基函数),提升算法通过迭代的选择一个负梯度方向上的基函数来逐渐逼近局部最小值...原创 2021-10-25 14:28:43 · 1144 阅读 · 2 评论 -
算法进阶--决策树与随机森林
决策树与随机森林决策树决策树评价决策树的过拟合样本不均衡的常用处理方法:RF拓展之计算样本间的相似度RF拓展之计算特征重要度RF拓展之Isolation Forest决策树前置知识:信息熵:H(x)=−∑i=1p(xi)logp(xi)H(x)=-\sum_{i=1} p(x_i)logp(x_i)H(x)=−∑i=1p(xi)logp(xi)条件熵:H(Y∣X)=H(X,Y)−H(X)=−∑x,yp(x,y)logp(y∣x)H(Y|X)=H(X,Y)-H(X)=-\sum_{x,y}p(原创 2021-10-20 22:16:23 · 146 阅读 · 0 评论 -
算法进阶--回归
算法进阶--第二天线性回归线性回归最小二乘之理解过程:如对房价的预测:Living area(feet2feet^2feet2)bedroomsPrice(1000$/s)2104340016003330………………此时通过对面积与卧室个数可以建立一个线性回归来对房价进行预测,预测值为hθ(x)h_\theta(x)hθ(x):如:hθ(x)=θ0+θ1x1+θ2x2h_\theta(x)=\theta_0+\theta_1{x原创 2021-10-19 19:42:05 · 167 阅读 · 0 评论 -
算法进阶--最大似然,赔率,Fuzzywuzzy库,主成分分析,onehot
算法进阶--第一天故地重游之最大似然估计赌徒之赔率Fuzzywuzzy库-Levenshtein distance故地重游之最大似然估计首先从贝叶斯公式开始:给定某些样本D,在这些样本中计算某结论A1,A2…An出现的概率,即P(Ai|D),若求maxP(Ai|D),则有以下式子:– 当样本给定时,P(D)是常数,可以忽略maxP(Ai∣D)=maxP(D∣Ai)P(Ai)P(D)=max(P(D∣Ai)P(Ai))maxP(A_i|D)=max\frac{P(D|A_i)P(A_i)}{P(D)原创 2021-10-17 14:54:36 · 265 阅读 · 0 评论