2018年03月_Icevivina

原创总结机器学习面试题---按照算法分类（更新整理中）

简历：一份好的简历中的项目描写应该要精准的描述出项目技术难点，并且包含准确的评价数字。面试时如何交流？你要保持和面试官的不断的交流，不要把他当成面试官，而要把他当成未来团队成员，先和未来的团队成员一起想办法讨论问题，解决问题，然后临时给出一个基本的可运行版本。即使算法和运行效率看起来特别差，但是先给出一个基本的可运行的版本，然后再和面试官讨论。这也是我们工作过程中的基本的工作模式，先给一个...

2018-03-29 22:27:21 1490 3

原创 Lesson1--深层神经网络

1深层（deep）神经网络的符号表示 LLL表示神经网络层数，一般L&lt;3都称为浅层(shallow)神经网络. a[l]a[l]a^{[l]}表示激活单元。在编程中最需要注意的是核对矩阵的维数，避免numpy在计算上出现的错误。2为什么深层神经网络是有效的？1）神经网络前面的隐藏层计算比较低层次的信息，然后组合到一个比较复杂的信息进行进行处理，比如声音识别中，可能先识...

2018-03-28 09:56:58 401

原创 Lesson1--浅层神经网络

1.神经网络的表示名称：输入层，隐藏层hidden layer，输出层。神经网络的层数，我们一般不计入输入层，因此这是一个两层的神经网络；用a[0],a[1]..a[0],a[1]..a^{[0]},a^{[1]}..分别表示每一层的激活单元，用下标表示每个激活单元中的第几个结点，所以a[1]1a1[1]a^{[1]}_1表示第一层的激活单元的第一个结点；w,bw,bw,b向量的维...

2018-03-26 11:16:39 439

原创 CF协同过滤与SVD分解

协同过滤具体可以参考这篇文章：https://www.cnblogs.com/lesleysbw/p/6024379.html 协同过滤CF分为两种：基于客户的CF和基于物品的CF。协同过滤的三个步骤：1.收集用户偏好这个是生成数据矩阵的过程，最重要的有两点：降噪和归一化。降噪需要使用SVD分解来降低信息冗余；归一化是为了将不同特征的影响视为一致。2.找到相似的用户或...

2018-03-23 10:10:10 796

最近在看PCA降维的过程中，发现与特征值分解与奇异值分解都有或多或少的关系，但又感觉有些模糊不清，今天看了几篇文章，发现从线性变换的角度来了解矩阵更清晰了一些，于是整理了一些知识点如下。本文参考的知识点有：PCA的数学原理，链接：http://blog.codinglabs.org/articles/pca-tutorial.html；特征值与奇异值有什么区别，链接：https://www.z...

2018-03-20 16:39:04 313

原创隐马尔可夫模型HMM---《统计学习方法》第十章

标注问题标注问题的输入是一个观测序列，输出是一个标记序列或状态序列。标注问题的目的在于学习一个模型，使它能够对观测序列给出标记序列作为预测。标注常用的统计学习方法有：隐马尔可夫模型，条件随机场。举例：给定一个由单词组成的句子，对这个句子中的每一个单词进行词性标注，即对一个单词序列预测其对应的词性标记序列。隐马尔可夫模型隐马尔可夫的基本概念隐马尔可夫模型是关于时序的概...

2018-03-20 11:15:07 1430

原创 EM算法及其推广---《统计学习方法》第9章

EM算法是一种迭代算法，用于含有隐变量的概率模型参数的极大似然估计，或极大后验概率估计。EM算法的每次迭代由两步组成：E步求期望值，M步求最大值。（EM算法是一种对模型参数的估计，该模型中含有隐变量）EM算法的引入EM算法概率模型有时既含有观测变量，又含有隐变量或潜在变量。如果概率模型的变量都是观测变量，那么就可以通过极大似然估计或贝叶斯估计法估计模型参数。但是，当模型中含有隐...

2018-03-19 08:57:01 417

原创支持向量机---《统计学习方法》第七章

支持向量机（SVM）是一种二类分类模型，它的基本模型是定义在特征空间上的间隔最大的线性分类器，间隔最大使它有别于感知机；支持向量机还包括核技巧，这使它成为实质上的非线性分类器。支持向量机的学习策略就是间隔最大化，可形式化为一个求解凸二次规划的问题，也等价于正则化的合页损失函数的最小化问题。支持向量机的学习算法是求解凸二次规划的最优化算法。线性可分支持向量机/硬间隔支持向量机线性可分...

2018-03-17 16:12:10 1021 1

原创提升方法---《统计学习方法》第八章（带扩展内容）

学习这一章，除了学习书中的adaboost之外，还应该了解集成方法的分类，随机森林，xgboost等其他方法。因为书中所讲到的内容有限，因此我会在最后对这一章做一定的扩展补充。在分类问题中，提升方法通过改变训练样本的权重，学习多个分类器，并将这些分类器进行线性组合，提高分类的性能。提升方法Adaboost提升方法的基本思路对于分类问题而言，给定一个训练样本集，求比较粗糙的分...

2018-03-16 16:06:09 712

原创逻辑斯蒂回归与最大熵模型----《统计学习方法》第6章

逻辑斯蒂回归模型与最大熵模型都属于对数线性模型。学习算法：改进的迭代尺度算法和拟牛顿法。逻辑斯蒂回归模型逻辑斯蒂分布分布函数F(x)=11+e−(x−μ)/γF(x)=11+e−(x−μ)/γF(x)=\frac{1}{1+e^{-(x-\mu)/\gamma}}属于逻辑斯蒂函数，形状是一条S形曲线，曲线以（μ,1/2）（μ,1/2）（\mu,1/2）为中心对称点。μμ\mu越小，曲线...

2018-03-14 15:57:54 270

原创决策树---《统计学习方法》第5章

本章学习的额外目标：‘极大似然估计’与“先验概率”有什么关系，‘正则化的极大似然估计’ 什么CART树不采用熵而采用基尼指数？决策树是一种基本的分类与回归方法。本章主要讨论用于分类的决策树。决策树学习主要包括3个步骤：特征选择、决策树的生成和决策树的剪枝。决策树模型与学习决策树模型分类决策书模型是一种描述对实例进行分类的树形结构。决策树由结点和有向边组成。节点分为内部结点...

2018-03-14 10:08:16 1039

原创朴素贝叶斯法----《统计学习方法》第四章

学习这一章，我们要弄懂几个名词，“朴素贝叶斯”，‘贝叶斯定理’，‘最大后验概率’，‘先验概率’，‘极大似然估计’。（名词的解释放在文章最后）朴素贝叶斯法的学习与分类朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。对于给定的训练数据集，首先基于特征条件独立假设学习输入/输出的联合概率分布；然后基于此模型，对给定的输入x，利用贝叶斯定理求出后验概率最大的输出y。朴素贝叶斯法通...

2018-03-12 20:31:46 402

原创 K近邻法--《统计学习方法》第三章

KNN是一种基本的分类和回归方法，分类时，对新的实例，根据其k个最近邻的训练实例的类别，通过多数表决等方式进行预测。因此，k近邻法不具有显式的学习过程。k值的选择、距离度量及分类决策规则是k近邻法的三个基本要素。也就是说分析k近邻法的时候不能像分析之间的模型一样从模型，策略和算法入手，因为它没有显示的学习过程，每一次的判别都要计算输入向量与实例点之间的距离来判断。k近邻法的三个基本要素...

2018-03-12 17:40:15 380

原创感知机--《统计学习方法》第二章

感知机模型：线性分类模型(属于判别模型)，策略：算法：梯度下降法模型：由输入空间到输出空间的函数：f(x)=sign(wx+b)f(x)=sign(wx+b)f(x)=sign(wx+b)，其中w是权值向量，b是偏置。wx+b=0wx+b=0wx+b=0对应特征空间中的一个超平面S，w是超平面的法向量，b是超平面的截距。这个超平面将特征空间划分为两个部分，位于两部分的点分别被...

2018-03-12 11:50:33 193

原创李航《统计学习方法》--第一章

统计学习是关于计算机基于数据构建概率统计模型并运用模型对数据进行分析和预测的一门学科。统计学习三要素：模型，策略，算法模型：在监督学习中，模型就是所要学习的条件概率分布或决策函数。模型的假设空间包含所有可能的条件概率分布或决策函数。在书中称有决策函数表示的模型为非概率模型，由条件概率表示的模型为概率模型。策略：策略就是按照什么样的标准学习或选择最优的模型。统...

2018-03-12 10:15:34 275

原创泰坦尼克的进一步学习---特征工程到底怎么做？

这几天又看了泰坦尼克项目中最popular的两个kernals，一个是利用ensembling+stacking，在我看来主要是模型优化，先利用了五种算法:RandomForestClassifier, ExtraTreesClassifier, AdaBoostClassifier, GradientBoostingClassifier, SVC得出初步结果（五种算法中前面四种都是从sklear...

2018-03-08 21:56:28 606 1

转载 matplotlib,seaborn,plotly数据可视化库这么多，应该如何选择？

在做titanic分析的过程中，看了一些大神的想法，发现在分析数据的过程中，许多大神会使用到seaborn，plotly这些库，而我等小白仅仅知道matplotlib这个唯一的数据可视化库而已。上网查找资料后整理如下：数据可视化库可以根据其应用场景来分为以下几类：基础的2D,3D图绘制库，交互信息可视化库，地图可视化库基础的2D,3D可视化主要包括了matplotlib和seabo...

2018-03-06 11:19:45 9672

Icevivian