yu_tsl-CSDN博客

原创三大统计学相关系数讨论

相关系数定义为两个向量之间的相似性，最常用的相关系数是皮尔森相关，但是实际情况更加复杂，因此我们介绍一下统计学中出现的相关系数。一皮尔森相关皮尔森相关描述两个变量之间的线性相关 x,y 为两个变量。适用条件：1. 两个变量都是连续变量2. 每个变量都应该是正态分布，或者接近正态分布的单峰对称分布3. 变量之间应该为线性关系当对...

2018-10-11 10:52:48 5916

转载 fast text

转载于（https://blog.csdn.net/john_bh/article/details/79268850）转载请注明作者和出处：http://blog.csdn.net/john_bh/ 一、简介二、FastText原理 2.1 模型架构 2.2 层次SoftMax 2.3 N-gram特征三、基于fastText实现文本分类 3.1 fastTe...

2018-09-03 22:54:17 862

转载 word2vect 原理2

转载于（http://www.cnblogs.com/pinard/p/7243513.html）1. 基于Hierarchical Softmax的模型概述　　　　我们先回顾下传统的神经网络词向量语言模型，里面一般有三层，输入层（词向量），隐藏层和输出层（softmax层）。里面最大的问题在于从隐藏层到输出的softmax层的计算量很大，因为要计算所有词的softmax概率，再去找概率最...

2018-09-03 22:28:24 760

转载 word2vec 原理

转载于（https://www.cnblogs.com/pinard/p/7160330.html）1. 词向量基础　　　　用词向量来表示词并不是word2vec的首创，在很久之前就出现了。最早的词向量是很冗长的，它使用是词向量维度大小为整个词汇表的大小，对于每个具体的词汇表中的词，将对应的位置置为1。比如我们有下面的5个词组成的词汇表，词"Queen"的序号为2，那么它的词向量就是(0...

2018-09-03 22:26:44 328

原创 N-gram 模型

N-gram 模型语言模型：定义了自然语言中标记序列的概率分布，通俗一点考虑就是说，一个句子是自然语句的概率。举例说明：假设用户说了这么一句话：“I have a gun”，因为发音的相似，该语音识别系统发现如下几句话都是可能的候选：1、I have a gun. 2、I have a gull. 3...

2018-09-03 22:25:33 275

转载 LSTM介绍

LSTM介绍 LSTM神经网络是为了克服RNN循环神经网络的梯度消失或者梯度爆炸而产生的神经网络。主要的改变是增加了三个门，分别是输入门、输出门和忘记门。下面内容转载于（https://blog.csdn.net/gzj_1101/article/details/79376798） ...

2018-09-03 21:04:13 4248

原创常用排序算法比较

常用排序算法比较排序的稳定性和复杂度不稳定：选择排序（selection sort）— O(n2) 快速排序（quicksort）— O(nlogn) 平均时间, O(n2) 最坏情况; 对于大的、乱序串列一般认为是最快的已知排序堆排序（heapso...

2018-08-31 20:09:25 227

转载推荐算法之协同过滤

转载于 https://blog.csdn.net/xiaokang123456kao/article/details/74735992一、什么是协同过滤？协同过滤是利用集体智慧的一个典型方法。要理解什么是协同过滤 (Collaborative Filtering, 简称 CF)，首先想一个简单的问题，如果你现在想看个电影，但你不知道具体看哪部，你会怎么做？大部分的人会问问周围的朋友，看看...

2018-08-31 11:51:57 500

原创机器学习算法之Ensemble

Ensemble（集成方法）集成学习，通过构建并结合多个学习器来完成任务，即通过弱学习器集成为一个强学习器。典型方式为 boosting 和 baggingBoosting 和 Bagging异同引用（https://www.cnblogs.com/liuwu265/p/4690486.html...

2018-08-30 10:43:05 625

原创机器学习算法之决策树

决策树-DecisionTree 　什么是决策树？　　决策树是一种基本的分类与回归方法。其主要有点事模型具有可得性，分类速度快。学习时，利用训练数据，根据损失函数最小化原则建立决策树模型；预测时，对新数据，利用决策树模型进行分类。决策树是一种用于...

2018-08-29 22:24:03 430

原创深度学习笔试知识点及面试常考题

深度学习发展史：忽略前面那些铺垫，直接介绍深度学习爆发期的历史 1. 2012 AlexNet 成功利用relu 代替 sigmoid函数，解决了sigmoid函数的梯度弥散问题添加了drop out 层，防止过拟合采用最大池化，代替平均池化 2. 2014 VGG 通过反复堆叠3*3 小型卷积核和2*2 的最大池化层 3. 201...

2018-08-29 19:48:03 9116

原创机器学习算法之支持向量机

支持向量机——SVM优缺点：(1)非线性映射是SVM方法的理论基础,SVM利用内积核函数代替向高维空间的非线性映射；(2)对特征空间划分的最优超平面是SVM的目标,最大化分类边际的思想是SVM方法的核心；(3)支持向量是SVM的训练结果,在SVM分类决策中起决定作用的是支持向量；(4)SVM 是一种有坚实理论基础的新颖...

2018-08-28 16:18:50 2542

原创机器学习算法之贝叶斯

朴素贝叶斯是基于贝叶斯定理与特征条件独立假设的分类算法，是一种古典概率模型朴素贝叶斯特点：朴素贝叶斯的优点：对小规模的数据表现很好，适合多分类任务，适合增量式训练，朴素贝叶斯法高效且易于实现。缺点：对输入数据的表达形式很敏感，分类的性能不一定很高。贝叶斯定理：公式推导：（推荐一篇不错的文章，朴素贝叶斯算法原理小结）由上面我们得到了贝叶斯公式，而贝叶斯模型的...

2018-08-27 18:17:05 395

转载机器学习算法之logistic regression

LR 算法特点：优点：计算代价不高，易于理解和实现；预测结果是界于0和1之间的值。缺点：容易欠拟合，分类精度可能不高；预测结果呈“S”型，概率变化很小，边际值太小，slope太小，而中间概率的变化很大，很敏感。导致很多区间的变量变化对目标概率的影响没有区分度，不容易确定阀值。公式推导：模型解释：1. 最大似然估计：...

2018-08-27 11:56:48 366

原创 2018 阿里秋招面试心得

博主非科班大牛，通过师兄得到阿里内推，但一面实在是惨痛，... 本以为简历遭到阿里的拒绝，没想到在积极准备秋招，努力刷题的时候，一个夏日下午的电话打破了这份宁静，接到电话发现是杭州的，当时觉得可能是海康威视或者浙江大华，没想到是蚂蚁金服。于是我就说我晚上7点之后有空，接着挂了电话后疯狂准备。总体而言，面试给我的感觉是面试官对我的简历不感兴趣，没有怎么问我项目，上来就问我知...

2018-08-14 10:58:32 3788 3

原创秋招笔试算法python使用坑

平时使用Python编程的时候，我们一般直接使用数据，但是在例如牛客网笔试的时候，发现必须从标准输入读取数据，这就会遇到许多坑。下面我们把Python 2.7 和Python3 的读取方式： Python 2.7import sys #####python 2.7 读取数据方式try...

2018-08-13 16:13:47 924

原创机器学习-笔试知识点总结

1. 偏差与方差：偏差：度量了学习算法的期望预测与真实结果的偏离程度，即刻画了学习算法本身的拟合能力方差：同样大小训练集的变动，导致学习性能的变化，即刻画了数据扰动对模型造成的影响 2 线性模型：线性回归模型： lasso 和ridge 分别是l1 范数和l2范数惩罚项线性分类模型 logistics线性判别分析 LDA : 目的，将训练样...

2018-08-09 15:10:50 801

原创 Python-机器学习入门及技巧总结

随着这两年人工智能的快速发展，机器学习与深度学习行业炙手可热，对于那些想进入这个行业的同学们，小编在这里给大家介绍一下自己的心得体会以及利用Python的一些小技巧，希望对大家有所帮助。在机器学习方面，对于想入门的新手，首先不得不提就是斯坦福大学的Andrew Ng-吴恩达，他在例如Coursera等网站上面的课程非常适合新手，并且当你入门之后，回头再看，又会有新的收获，在这里我把相应的链

2017-12-13 20:52:51 5793 3

yu_tsl的博客