![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
文章平均质量分 51
weixin_45589945
这个作者很懒,什么都没留下…
展开
-
EM算法
应用 EM算法有很多的应用,最广泛的就是GMM混合高斯模型、聚类、HMM等等 EM算法 Jensen不等式: 设f是定义域为实数的函数,如果对于所有的实数x。如果对于所有的实数x,f(x)的二次导数大于等于0,那么f是凸函数。当x是向量时,如果其hessian矩阵H是半正定的,那么f是凸函数。如果只大于0,不等于0,那么称f是严格凸函数。 Jensen不等式表述如下: 如果f是凸函数,X是随机变量,那么:E[f(X)]>=f(E[X]),特别地,如果f是严格凸函数,当且仅当X是常量时,上式取等号。原创 2021-04-20 04:39:33 · 224 阅读 · 0 评论 -
聚类
分类 K-means均值聚类 层次聚类 谱聚类 层次聚类 凝聚:AGNES 分裂:DIANA DBSCAN DBSCAN以一个从未访问过的任意起始数据点开始。这个点的邻域是用距离ε(所有在ε距离的点都是邻点)来提取的。如果在这个邻域中有足够数量的点(根据 minPoints),那么聚类过程就开始了,并且当前的数据点成为新聚类中的第一个点。否则,该点将被标记为噪声(稍后这个噪声点可能会成为聚类的一部分)在这两种情况下,这一点都被标记为访问,允许存在噪声 DBSCAN比其他聚类算法有一些优势。首先,它不需要一个原创 2021-04-13 17:15:12 · 142 阅读 · 0 评论 -
机器学习-SVM
SVM 基本概念 支持向量机(support vector machines,SVM)是一种二分类模型,它将实例的特征向量映射为空间中的一些点,SVM 的目的就是想要画出一条线,以 “最好地” 区分这两类点,以至如果以后有了新的点,这条线也能做出很好的分类。SVM 适合中小型数据样本、非线性、高维的分类问题。 分类 线性可分支持向量机 SVM 将会寻找可以区分两个类别并且能使间隔(margin)最大的划分超平面。比较好的划分超平面,样本局部扰动时对它的影响最小、产生的分类结果最鲁棒、对未见示例的泛化能力最强原创 2021-04-06 04:26:47 · 191 阅读 · 0 评论 -
数据预处理
极端值处理 KNN 决策树 对极端值不敏感 可视化检验 例如:信用卡额度过高,持卡人年龄过大 缺失值处理 完全随机 随机 完全非随机 提升算法 伪残差,拟合残差 正则项 决策树的复杂度可考虑叶节点数和叶权值 超参数 GBDT GBDT的核心就在于,每一棵树学的是之前所有树结论和的残差,这个残差就是一个加预测值后能得真实值的累加量。这就是Gradient Boosting在GBDT中的意义, GBDT可以用更少的feature,且避免过拟合。Boosting的最大好处在于,每一步的残差计算其实变相地增大了分错原创 2021-04-05 21:33:47 · 211 阅读 · 0 评论 -
决策树和随机森林
决策树条件熵信息增益信息增益比基尼指数经典算法 决策树是一种基本的分类与回归方法,学习通常包含三个步骤:特征选择、决策树的生成和决策树的剪枝 条件熵 H(X,Y)-H(X) 信息增益和条件熵 决策树容易发生过拟合,对于未测试数据的泛化能力较弱,剪枝和随机森林:极小化决策树整体的损失函数 剪枝:父结点变成新的叶结点 随机森林: 信息增益 使用信息增益选择特征的算法称为C3算法 信息增益比 特征A对训练数据集D的信息增益比gR(D, A)定义为其信息增益g(D, A)与训练集D的经验熵之比 基尼指数 基尼指数是原创 2021-03-23 02:46:23 · 110 阅读 · 0 评论 -
机器学习之线性回归
线性回归预测损失函数sklearn均方误差过拟合和欠拟合模型的保存和加载逻辑回归logisticRegressionUML 图表FLowchart流程图导出与导入导出导入 损失函数 最小二乘法 梯度下降法 sklearn 封装好但有些过程看不到,参数在内部 数据量大用SGD梯度下降 均方误差 mean_squared_error 过拟合和欠拟合 1.欠拟合 在训练集和验证集表现都不好 模型过于简单,增加数据特征 2.过拟合 在训练集表现好但验证集表现不好 原因:特征过多;存在嘈杂特征,模型过于复杂 解决:进原创 2020-12-20 17:10:03 · 68 阅读 · 0 评论 -
机器学习之k近邻算法和朴素贝叶斯
相似的样本,特征之间的值相近 !欧式距离,需要进行标准化处理 实例:预测入住位置 from sklearn.neighbors import KNeighborsClassifier from sklearn.preprocessing import StandardScaler from sklearn.feature_extraction.text import TfidfVectorizer 特征值:row_id, x_y坐标,准确性,时间, 目标值:place_id 分类问题 xy缩小 我们用到d原创 2020-12-10 06:42:32 · 365 阅读 · 0 评论 -
数据降维
数据降维 特征选择 噪声:对预测结果有影响 过滤式:方差 variancethreshold def var(): """ 特征选择-删除低方差的特征 :return: None """ var = VarianceThreshold(threshold=1.0) data = var.fit_transform([[0, 2, 0, 3], [0, 1, 4, 3], [0, 1, 1, 3]]) print(data) return N原创 2020-12-08 05:09:12 · 169 阅读 · 0 评论 -
机器学习(1)
Marvin Lee Minsky 人工智能 机器学习 深度学习 场景: 机器写新闻 人脸识别 智能诊断 信贷需求预测,店铺销量预测 应用领域: 自然语言处理 图像识别 传统预测 框架 tensorflow pytorch theano caffe2 机器学习概述 数据——规律——预测 案例:AlphaGo 智能客服,ET医疗,智慧城市 减少成本 特征工程 数据集 文件csv,numpy多线程 释放GIL 可用数据集 1.Kaggle 2.UCI :专业 3.scikit-learn 数据量小 结构组成:原创 2020-12-07 06:46:49 · 144 阅读 · 0 评论