![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
文章平均质量分 70
尚优未来
一点一滴,一花一叶,喜欢文学的程序员
展开
-
机器学习 001_主成分分析Principal Component Analysis
一、预备知识点(1)均值描述的是样本集合的中间点。(2)标准差给我们描述的则是样本集合的各个样本点到均值的距离的平均值是多少,我们可以理解为平均值这个点“向心力”或者“凝聚力”的强弱。也可以理解为“波动性”……即标准差能反映一个数据集的离散程度。平均数相同的,标准差未必相同。这里有一个点:就是标准差什么时候除以n,什么时候除以n-1如果计算一个数据集的标准差,就除以n;如果...原创 2018-07-19 16:27:14 · 226 阅读 · 0 评论 -
机器学习002_k-近邻算法
1.1 概述采用测量不同特征值之间的距离方法进行分类。优点:精度高、对异常值不敏感、无数据输入假定缺点:计算复杂度高、空间复杂度高适用数据范围:数值型和标称型 1.2 kNN分类算法伪代码:对位置类别属性的数据集中的每个点依次执行以下操作:(1)计算已知类别数据集中的点与当前点之间的距离;(2)按照距离递增次序进行排序;(3)选取与当前点距离最小的k个点...原创 2018-08-29 19:50:51 · 281 阅读 · 0 评论 -
机器学习004_朴素贝叶斯
1.1 基于朴素贝叶斯决策理论的分类方法优点:在数据较少的情况下仍然有效,可以处理多类别问题缺点:对于输入数据的准备方式较为敏感适用数据类型:标称型数据“朴素”——整个形式化过程只做最原始、最简单的假设。朴素贝叶斯是贝叶斯决策论的一部分,选择具有最高概率的决策。Thomas Bayes 通过引入先验知识和逻辑推理来处理不确定命题。概率、条件概率、贝叶斯准则P(x,y...原创 2018-09-05 20:16:57 · 260 阅读 · 0 评论 -
机器学习003_决策树
决策树优点:计算复杂度不高,输出结果易于理解,对中间值的缺失不敏感,可以处理不相关特征数据。缺点:可能会产生过度匹配问题。适用数据类型:数值型和标称型。1.1 决策树的构造创建分支的伪代码函数CreateBranch():检测数据集中的每个子项是否属于同一分类:If so return 类标签Else 寻找划分数据集的最好特征 划分数据集 ...原创 2018-08-31 17:03:28 · 286 阅读 · 0 评论 -
机器学习005_Logistic回归
用一条直线对假设的数据点进行拟合(该线称为最佳拟合直线)这个拟合过程称为回归。表示要找到最佳拟合参数集。Logistic回归进行分类的主要思想是:根据现有数据对分类边界线建立回归公式,以此进行分类。(1)收集数据(2)准备数据:由于需要进行距离计算,因此要求数据类型为数值型。另外,结构化数据格式则最佳。(3)分析数据:采用任意方法对数据进行分析。(4)训练算法:大部分时间将用于...原创 2018-09-12 09:45:41 · 232 阅读 · 0 评论 -
强化学习002_隐马尔科夫模型HMM
HMM是一个关于时序的概率模型,描述了一个由隐藏的马尔科夫链随机生成的不可观测的状态随机序列,再由各个状态生成一个观测而产生观测随机序列的过程。主要由五部分组成:状态序列、状态转移矩阵、观测序列、观测概率分布、初始的状态分布通过现象看本质的学习模型:隐马尔科夫模型我们输入的拼音字母就是观测序列,而这个观测到的表象的实质应该是我们想要的拼音字母或者是句子。隐马尔科夫模型就是通过输...原创 2018-09-17 11:10:38 · 1273 阅读 · 0 评论 -
“达观杯”文本智能处理挑战赛
一、报名http://www.dcjingsai.com/static_page/cmpList.html寻找到“达观杯”文本智能处理挑战赛二、下载下载数据集下载使用Anaconda的spyder或者Pycharm三、编写代码import pandas as pdfrom sklearn.linear_model import LogisticRegress...原创 2018-10-09 19:24:23 · 1097 阅读 · 2 评论