小滔滔ahh-CSDN博客

原创 Git学习

Git创建版本库$ mkdir learngit$ cd learngit$ pwd$ git init把一个文件放到Git仓库只需要两步:使用命令git add ，注意，可反复多次使用，添加多个文件；使用命令git commit -m ，完成。$ git add readme.txt$ git commit -m "..."查看状态和修改（下面这种形式是比...

2019-12-09 13:12:17 122

原创 JavaSE 知识点汇总

JavaSE知识点汇总：Java要点：面向对象编程

2019-12-08 10:45:32 262

第十九章：马尔可夫链蒙特卡罗法蒙特卡罗法，也称为统计模拟方法，是通过从概率模型的随机抽样\color{red}{随机抽样}随机抽样进行数值计算的方法；而马尔可夫链蒙特卡罗法是特例，是以马尔可夫链\color{red}{以马尔可夫链}以马尔可夫链为概率模型的蒙特卡罗法；蒙特卡罗法蒙特卡罗法的核心是随机抽样\color{red}{随机抽样}随机抽样，要解决的问题是：假设概率分布已知，通过抽样获得...

2019-11-10 08:36:11 723

原创统计学习方法学习笔记：第二十一章.PageRank算法

第二十一章：PageRank算法PageRank的定义：网页重要度的计算方法假设互联网是一个有向图，在其基础上定义随机游走模型，即一阶马尔可夫链。假设浏览者在每个网页依照链接出去的超链接以等概率跳转到下一个网页，并在网上持续不断的进行这样的随机跳转，这个过程形成一阶马尔可夫链。PageRank表示这个马尔可夫链的平稳分布\color{red}{PageRank表示这个马尔可夫链的平稳分布}...

2019-11-09 19:09:57 290

原创统计学习方法学习笔记：第十八章.概率潜在语义分析

第十八章：概率潜在语义分析概率潜在语义分析是利用概率生成模型\color{red}{利用概率生成模型}利用概率生成模型对文本集合进行话题分析的方法：给定一个文本集合，通过概率潜在语义分析（求解生成模型\共现模型的参数）,可以得到各个文本生成话题的条件概率分布：P(z|d)，以及各个话题生成单词的条件概率分布：P(w|z)学习策略：观测数据（w、d）的极大似然估计学习算法： EM算法（...

2019-11-05 18:04:19 279

原创统计学习方法学习笔记：第十七章.潜在语义分析

第十七章：潜在语义分析单词向量空间假设某一个文本为一个向量\color{red}{某一个文本为一个向量}某一个文本为一个向量，而向量的每一维对应某个单词在该文本中的频数或者权值\color{red}{向量的每一维对应某个单词在该文本中的频数或者权值}向量的每一维对应某个单词在该文本中的频数或者权值（TF-IDF,具体定义可查看书籍，是一个单词在文本综合重要度的体现），那么文本集合就可以表示为一...

2019-11-05 16:11:15 257

原创统计学习方法学习笔记：第十六章.主成分分析

第十六章：主成分分析（PCA:principal component analysis）利用正交变换\color{red}{正交变换}正交变换把由线性相关变量表示的观测数据转换为少数几个由线性无关变量表示\color{red}{由线性无关变量表示}由线性无关变量表示的数据，同时尽可能的保留较多的原始数据信息，线性无关的变量称为主成分，\color{red}{线性无关的变量称为主成分}，线性无关的...

2019-11-04 21:04:21 1470

原创统计学习方法学习笔记：第十五章.奇异值分解

第十五章：奇异值分解（SVD:singular value decomposition）定义与性质将一个非零的\color{red}{非零的}非零的的m×n\color{red}{m\times{n}}m×n的实矩阵A，表示为以下三个矩阵乘积的运算：A=UΣVT，这里是完全奇异值分解\color{red}{A=U\Sigma{V^T}，这里是完全奇异值分解}A=UΣVT，这里是完全奇异值分解...

2019-11-04 18:41:11 723

原创统计学习方法学习笔记：第十四章：聚类方法

第十四章：聚类方法基本概念聚类是根据样本之间的相似度或距离来将样本进行归类，不同的距离度量方式会影响最终的聚类效果，常用的距离或相似度有下列：闵可夫斯基距离：欧式、曼哈顿距离、切比雪夫距离等马哈拉诺比斯距离：dij=[(xi−xj)TS−1(xi−xj)]12,d_{ij}=[(x_i-x_j)^TS^{-1}(x_i-x_j)]^{\frac{1}{2}},dij=[(xi−xj...

2019-11-02 17:01:35 455

原创统计学习方法学习笔记：第十一章.条件随机场

第十一章：条件随机场

2019-11-01 15:07:08 220 1

原创统计学习方法学习笔记：第十章.隐马尔可夫模型

第十章：隐马尔可夫模型

2019-10-30 20:49:10 213

原创统计学习方法学习笔记：第九章.EM算法及其推广

第九章：EM算法及其推广

2019-10-28 22:30:05 218

原创统计学习方法笔记：第八章.提升方法

第八章：提升方法提升方法是将弱学习方法提升为强学习方法的统计学习方法；在分类问题中，提升方法通过反复修改训练数据的权值分布（对比之前的一些算法，基本上都认为所有训练数据的概率分布是一致的），构建一系列基本分类器**（弱分类器）**，然后将这些分类器线性组合，即得到强分类器；Adaboost 算法初始化权值（一般认为刚开始的概率分布均匀）建立 m 个弱分类器：(1). 按照某一算法...

2019-10-28 17:55:44 163

原创统计学习方法笔记：第七章.支持向量机

第七章：支持向量机线性支持向量机线性可分或硬间隔支持向量机前提：训练数据集线性可分\color{red}{线性可分}线性可分；学习目标：特征空间的分离超平面：w⋅x+b=0，w≠0w\cdot{x}+b=0，w\neq{0}w⋅x+b=0，w=0；这个超平面是唯一的\color{red}{唯一的}唯一的；学习策略：最大间隔法，等价于下列的最优化问题：min⁡w,b12∣∣w∣∣2\...

2019-10-16 20:33:01 203

原创统计学习方法学习笔记：第三章.K近邻算法

第三章：K近邻算法算法概述K近邻算法是一种多分类与回归的算法，这里只讨论分类模型中的KNN算法；算法的基本思想是，对于一个目标实例x，根据与其相距最近（这里涉及到距离度量）的 k 个点的类别，由多数表决原则，来决定目标实例所属的类别；特别的，当 k =1 时，为最近邻算法；KNN算法有三要素：k值的选择（影响到模型的复杂度，过/欠拟合问题）、距离度量、分类决策；KNN模型模型当训练集、...

2019-10-14 19:22:47 168

原创统计学习方法学习笔记：第六章.逻辑回归与最大熵模型

第六章逻辑回归与最大熵模型逻辑回归和最大熵模型都是对数线性模型；模型的学习就是在给定的训练数据集下对模型（这里是条件概率分布\color{red}{条件概率分布}条件概率分布）进行极大似然估计\color{red}{极大似然估计}极大似然估计；逻辑回归模型：P(Y=k∣x)=ewk⋅x1+∑k=1K−1ewk⋅x,k=1,2,3,...,K−1;P(Y=k|x)=\frac{e^{w_k...

2019-10-14 16:13:09 144

原创统计学习方法学习笔记：第四章.朴素贝叶斯

第四章：朴素贝叶斯

2019-10-12 21:02:07 126

原创统计学习方法学习笔记：第五章.决策树

第五章：决策树这里讨论的范围是分类决策树，是一种基于特征对实例进行分类的模型，树形结构；可以转换为一个if - then规则的集合（互斥且完备，每一个实例有且仅有一条路径覆盖），也可以看做是定义在特征空间划分上的类的条件概率分布（各个叶节点上的条件概率往往偏向某一类，条件概率大的那一类即为叶节点上所有实例的类别）。通常包含三个步骤：特征的选择、决策树的生成、决策树的剪枝；主要的学习算法有ID3...

2019-10-12 19:50:16 227

原创统计学习方法学习笔记：第二章.感知机

感知机概述感知机是二元分类的线性分类模型，目的是求出一个分离超平面，利用梯度下降法对代价函数进行最小化；模型感知机的数学模型可由下列表达式给出：f(x) = sign( wx + b) ;其中 w 为权值向量，是分离超平面（wx + b = 0 ）的法向量，b 为截距（bias），sign（x）为符号函数：x > 0,输出 +1；反之，输出 -1策略数据集的线性可分性...

2019-10-08 17:00:27 190

原创统计学习方法学习笔记：第一章.统计学习及监督学习概论

统计学习方法统计学习方法按照不同的角度可以分为不同的几个类别，如：监督学习、无监督学习、半监督学习、强化学习等，又可以根据技巧分为：贝叶斯学习、核方法；按模型分类：线性、非线性；概率模型、非概率模型等等；统计学习方法三要素：模型（假设空间：需要学习的模型属于某个函数集合）、策略（选择什么样的模型）、算法（如何得到最优的模型）；构建一种统计学习方法就是确定具体的统计学习三要素；下面以监督学习为...

2019-10-08 09:37:37 230

原创吴恩达 Cousera 机器学习课程要点整理2：无监督学习及其他相关问题

无监督学习对于一类没有标签 y 的机器学习问题称之为无监督学习1.K-Means聚类算法1.概述：K-Means聚类算法就是把一系列样本点x（i）按照特征的相似程度（向量距离）聚合为不同的K类，是一个不断迭代的过程，该过程中聚类中心不断变化，所有样本点所属的聚类也不断变化，最终聚合为不同的K类；2.过程：初始化聚类中心：可以采用随机的方式从样本点中选取不同的 K 个点作为聚类中心，因...

2019-10-05 16:27:36 297

原创吴恩达 Coursera 机器学习课程要点整理1：监督学习

线性回归1.样本不同特征之间的数量级相差太大会导致算法效率低下甚至出现拟合不当的情况，因此对数据有必要进行适当的预处理，这就是所谓的 feature normalization ：减去各自的均值除以各自的标准偏差（这里存疑，是否就是标准差？）2.线性回归中可以直接有正则方程求得能使代价函数J取得最小值的参数序列，这里，可以不进行feature normalization，表达式如下：...

2019-09-30 21:40:18 314

weixin_44692791的博客