机器学习
文章平均质量分 61
ygpGoogle
这个作者很懒,什么都没留下…
展开
-
Glove词向量与FastText详解
文章目录共现信息Glove公式推导共现信息这里的环境可以有多个定义,但在这篇文章中,是给了一个窗口大小来规定环境。上面这个公式表示任意一个词kkk出新在iii的环境中的次数。上面这个公式表示词jjj出现在词iii环境中的次数。PijP_{ij}Pij是共现概率。Glove公式推导上图的ice环境与steam环境做除法,当k=固体,比值较大,说明固体与冰联系密切;同理,气体与水蒸气联系密切,所以比值较小。贡献概率比值如下公式:我们现在是要设计一个函数可以表达上述两个概率相除,文中是这原创 2021-06-22 16:27:21 · 376 阅读 · 0 评论 -
SVD奇异值分解
文章目录SVD资讯压缩SVD过滤杂讯SVD分解步骤SVD资讯压缩我们可以看到左边那个图可以由右边的图拼出来。SVD过滤杂讯我们看下面这个图,他除了的白色中夹杂着灰色,这个灰色就是杂讯,我们要想办法过滤掉。如下图,我们保留前三个奇异值。原本可以拆成15个部分做矩阵相乘再相加,但现在只保留奇异值最大的三个。然后我们可以像下图一样,得到比原图更清晰的图。SVD分解步骤任何矩阵都可以做奇异值分解。从上例可以看出,UUU和VTV^TVT都是正交矩阵。具体如何凑请看下一张图:特征值的根号就是原创 2021-06-22 00:04:18 · 264 阅读 · 2 评论 -
西瓜书绪论解读
啥是机器学习机器学习就是自动寻找对应的函数关系,包括语音识别,图像识别,阿尔法go,对话系统等。我们怎样告诉机器我们想找的函数表达式??监督式学习:必须利用一些分好类的数据进行学习。下图的蓝框中的四张图片是我们的训练集,也是我们心里所认知的正确的输入和输出。当用f1作为函数时,该函数的输出全是狗,显然错了一半,也就是百分之五十,那么这个f1就不太好了,机器就会去寻找另一个函数,比如找到了f2,这时输出结果两猫两狗,错误率为0,那么这个f2就被找到了,以后就可以将全新的猫狗图片作为输入,用该f2原创 2020-08-26 21:08:46 · 279 阅读 · 0 评论 -
深度学习之神经网络(第一节)
感知机如上图所示,这里的神经网络是模拟人的神经网络的工作方式所提出的一种理念。感知机简单来说就是在收集了数据进行处理后由感知机得出结果,就像人喝水,由温觉感受器去感觉水温,然后得出结论要不要喝?感知机与逻辑回归的关系由上图我们可以看到,当只有一个感知机时,这不就跟逻辑回归一样吗,只是逻辑回归里叫sigmod,以0.5为阈值。上图所示,与或问题好解决,只需要一个感知机就行,如与问题,当w1和w2等于1时,右上角的点的目标值是2,而我阈值假设是1.5,那么大于1.5的是一个类,小于1.5的是另一原创 2020-07-04 11:52:16 · 740 阅读 · 0 评论 -
深度学习之Tensorflow(第二节)
线程队列与IO操作在计算争分夺秒的时候,需要去提高IO读取的速度?我们都知道操作系统里的IO速度是个瓶颈,如果还像以前那样用单核的那种多线程的话,肯定是不行的。单核的那种多线程是假的多线程,仅仅是用一块cpu利用人无法想象的速度换入换出任务,给人的一种一个cpu能同时处理多个任务。而在tensorflow里,可以做到真正的多线程,真的是几个cpu同时来搞。如上图所示,我们拿读取数据并训练这个需求来举例。如果我们仅仅用一个线程去搞这个需求,训练数据这个子需求就要等待读取数据这个子需求搞完了才能搞。所以我原创 2020-07-02 17:26:27 · 183 阅读 · 0 评论 -
深度学习之Tensorflow(第一节)
Tensorflow简介深度学习介绍深度学习,如深度神经网络、卷积神经网络和递归神经网络已被应用,计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域,并获取了极好的效果。我们可以看到上图所示的现在最流行的深度学习框架。认识TensorflowTensorflow特点Tensorflow的安装在说安装之前,先看看上图,cpu对于计算的处理没有gpu好,在公司里面肯定是用gpu版本的tensorflow,我安装的是windows版的cpu版的tensorflow,安装过程百原创 2020-06-30 23:27:44 · 246 阅读 · 0 评论 -
线性回归、岭回归、逻辑回归以及k-means的实现
回归算法-线性回归分析线性模型线性回归这里我们补充一点关于矩阵和数组的知识:从上图分析,数组在numpy中是ndarray类型,我们引入矩阵,就是为了满足一些特定的运算,我们要求他必须是二维,二维是个什么概念?就是[[],[],[],[]]这种,就是深度为2,我们把特征值都搞成矩阵,当然权重也要搞成矩阵,因为目标值必须是一个样本对应一个值,如特征值的矩阵为1x4,那么权重矩阵就要4x1,这才能得到一个单独的数!!!下面演示一下之前numpy里疑惑的地方!之前numpy就解释过mult原创 2020-06-28 17:40:02 · 859 阅读 · 0 评论 -
分类模型评估、模型的选择与调优与决策树分类算法
模型的选择与调优1、交叉验证交叉验证过程交叉验证:将拿到的数据,分为训练和验证集。以下图为例:将数据分成5份,其中一份作为验证集。然后经过5次(组)的测试,每次都更换不同的验证集。即得到5组模型的结果,取平均值作为最终结果。又称5折交叉验证。2、网格搜索超参数搜索-网格搜索交叉验证是和网格搜索配合使用的:超参数搜索-网格搜索API还是拿K-近邻的代码来举例,加入了交叉验证和网格搜索:def knncls(): """ K-近邻预测用户签到位置 :ret原创 2020-06-25 19:19:42 · 919 阅读 · 0 评论 -
机器学习之Scikit-Learn数据集及分类算法(k近邻算法与朴素贝叶斯算法)
机器学习基础机器学习开发流程数据类型注:只要记住一点,离散型是区间内不可分,连续型是区间内可分离散型:图像识别,判断是猫是狗?离散型:文本主题分析,科技还是体育?连续型:预测票房数据!【注】对于不同类型的数据会有不同的算法进行处理。机器学习算法分类举个例子,监督学习就是给你一大堆男性,女性的特征,身高,体重等,给你的这些数据既有特征值也有目标值,也就是你已经知道了这些特征对应的性别是什么了,然后你再输入一组新的特征值让程序去帮你预测目标值,也就是预测是男是女。无监督学习是指原创 2020-06-22 22:55:14 · 1336 阅读 · 0 评论 -
机器学习之数据抽取、特征处理、降维、归一化标准化、处理缺失值的Scikit-Learn代码实现
什么是机器学习?机器学习是从数据中自动分析获得规律(模型),并利用规律对未知数据进行预测!应用场景很有可能我们看到的新闻是机器人写的!图像识别辅助医生进行诊断,对比二张ct的不同图片艺术化,相当于ps人脸识别,这依赖于手机硬件,硬件越好,收集的图像越准确。推荐系统数据的特征及特征工程:这就拿dataframe来说,一个人有身高,体重,皮肤颜色,头发长度等特征,具体的值被称为特征值,每一行数据被称为一个样本,我们所要预测的值称为目标值。在机器学习中不需要去重,然后缺失值一原创 2020-06-22 12:34:35 · 726 阅读 · 0 评论