机器学习
文章平均质量分 54
伽音
数据挖掘、机器学习、深度学习、自然语言处理
展开
-
机器学习 k-mediods算法
1.原理 k-mediods聚类算法原理和k-means聚类算法原理大体相似,主要不同的是k-means聚类算法更新聚簇中心的时候直接计算的均值,而k-mediods聚类算法更新聚簇中心的时候先对每个聚簇中心计算每一个点到簇内其他点的距离之和,然后再选择距离最小的点来作为新的聚簇中心。k-mediods算法这样计算可以避免数据中的异常值带来的影响。2.算法思路(1)从输...原创 2018-09-03 14:22:29 · 3426 阅读 · 0 评论 -
机器学习 k-means算法
1.原理 k-means是一种无监督的基于距离的聚类算法。在无监督的算法中,训练集的标签信息是不知道的,任务是通过对训练样本的学习来揭示数据的内在性质和规律。聚类是将训练集中的样本划分为若干个不想交的子集,每一个子集称为一个簇,这些簇都是不知道标签信息的数据样本,每一个样本都包含着一个n维的特征向量。 k-means聚类算法是将n个样本的数据集x划分为k个簇,表...原创 2018-09-03 14:20:50 · 196 阅读 · 0 评论 -
机器学习 决策树
1.决策树种类算法 支持类型 树结构 特征选择 连续值处理 缺失值处理 剪枝 ID3 分类 多叉树 信息增益 不支持 不支持 不支持 C4.5(J48) 分类 多叉树 信息增益率 支持 支持 支持 CART 分类,回归 二叉树 基尼系数,方差 支持 ...原创 2018-09-03 14:03:24 · 158 阅读 · 0 评论 -
机器学习 线性回归
1.线性回归1.1原理 线性回归就是通过拟合已知的数据来得到一个线性模型,然后再利用线性模型来预测其他数据,使得预测结果接近真实值,达到预期目标。最后把真实值和预测值作比较,计算均方误差,求取均方误差最小时的一组值。假设函数: 损失函数: 目标:1.2算法思路1.2.1最小二乘法 划分数据后,利用训练数据中特征部分构建矩阵X,标签列构建y,然...原创 2018-09-03 10:23:18 · 330 阅读 · 0 评论 -
机器学习 EM算法
参考链接:https://blog.csdn.net/zhihua_oba/article/details/73776553原创 2018-09-02 18:07:55 · 124 阅读 · 0 评论 -
机器学习 数据分析基础
1.数据类型(1)数值型 ● 连续型:利用实数表示属性 ● 离散型:利用整数表示属性(2)标称型 ● 0-1型:预先定义一个类别,若记录属于该类别则为1,否则为0 ● 多值标称型:预先定义一个类别集合,用类别集合中的一个或多个来描述样本(3)序列型:有序的数值型或标称型值串(4)序数型:具有偏序关系的离散数值2.数据清洗 (1)噪声数据 ● 平滑 ...原创 2018-09-02 18:05:45 · 204 阅读 · 0 评论 -
机器学习 模型融合
1.Voting 投票法针对分类模型,多个模型的分类结果进行投票,少数服从多数。除了公平投票外,还可以给投票设置权重,分类器效果越好权重越高,分类器效果越差,权重越低。2.Averaging回归问题:直接取平均值作为最终的预测值,也可以使用加权平均。分类问题:直接将模型的预测概率做平均,也可以使用加权平均。可以把所有模型预测的结果作为新的特征,再通过线性回归计算出权重...原创 2018-09-01 20:01:24 · 1464 阅读 · 0 评论 -
机器学习 评价指标
from sklearn.metrics import *# 参考链接# https://blog.csdn.net/shine19930820/article/details/78335550# https://blog.csdn.net/weixin_41770169/article/details/79547972# y_true表示真实标签,y_pre表示预测标签,y_p...原创 2018-08-24 22:40:06 · 352 阅读 · 0 评论 -
logistic回归和softmax回归
1.logistic回归二分类2.softmax回归多分类参考 链接:https://blog.csdn.net/x454045816/article/details/79009748原创 2018-09-04 10:20:41 · 153 阅读 · 0 评论