自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(21)
  • 收藏
  • 关注

原创 经典花书笔记

花书阅读笔记: https://www.deeplearningbook.org/chapter_1 Introduction介绍深度学习的发展情况和一些概念abstract and formal tasks(抽象和格式化的任务)对人类而言很困难,但是对计算机而言则超级简单ML算法强烈依赖于数据的representation,特征的选择对机器学习的性能产生重大的影响,然而对于很多任务,我们很难知道应该提取哪些特征。解决这个问题的方法之一是使用ML来发掘本身,这种解决方法称为representat

2021-06-24 09:31:45 95

原创 Immersive Math

chapter 9 线性映射线性映射是两个空间上的变换,把空间N上的值映射早空间M上。我们很早就接触的函数变换就是一个特殊的映射,把一个x映射到y上。除了值的映射还有向量的映射,矩阵的映射。介绍了两个映射的案例:图像的压缩处理,空间上的投影实现不是所有的映射都是可逆的,要求双射。不是双射的只能前进不能后退了。小结:一个饼干放进魔术帽里,出来一只鸽子,这就是一个映射。放进鸽子还能出来饼干就是可逆的。参考资料[1] http://immersivemath.com...

2021-04-20 09:56:47 154

原创 ML Step-by-Step Guides

1、How Do I Get Started?如何开始ML的旅程?1、学习方法:采用自顶向下的方法学习,待着任务寻找答案2、ML应用的5步骤:定义问题,准备数据,抽查算法,提升结果,展示结果3、工具选择:如果没有代码基础可以用weka,一个不用代码的ML平台4、在小型数据集上练习,提升能力5、形成自己的文档集,收集项目、记录技能、心得细节等6、相关平台:UCI数据集、kaggle比赛平台小结:入门引言,有个大致了解,知道应该如何学习,有个蓝图参考资料Step-by-Step Guides

2021-04-19 13:46:02 193

原创 ML基础收集

[kaggle]Data Cleaninghttps://www.kaggle.com/learn/data-cleaning该课程关于数据的处理,主要涉及:缺失值处理:无价值的缺失值可以直接删除,由于未填写导致的缺失可以均值填充,或请根据其他行列信息推出。归一化和标准化的区别:归一化是缩放,标准化是改变分布;当模型和距离计算相关则需要归一化,模型使用的前提假设是基于正态分布的,则要标准化。*日期的解析编码问题的处理* 离散数据的处理,例如移除空格,转为小写等小结:基础入门...

2021-03-30 13:54:33 138

原创 Reading Record

迁移学习简明手册:https://tutorial.transferlearning.xyz/

2021-03-25 09:23:41 203 1

原创 computer Vision笔记

阅读《Computer Vision》https://www.kaggle.com/learn/computer-vision一、卷积网络一个卷积网络分类器可以看做由两部分组成:一部分是提取特征的base层,一部分基于特征做出分类决策的head层。1、卷积网络如何实现特征提取?base层执行特征提取包含三个基础操作卷积层:Filter图片过滤器,使用kernel映射图片卷积网络训练期间学习的权重主要包含在卷积层中,我们把这些权重称为Kernels。在卷基层的kernels决定它创造怎样的特征。选

2021-02-24 11:44:04 113

原创 强化学习简单介绍

阅读Antonio Gulli《Deep Learning with Tensorflow 2 and keras》Second Edition 第十一章reinforcement learning本章为强化学习入门引入,更详细的知识需要进一步发展1、什么是强化学习reinforcement learning (RL)是近年来最有前进的领域。例如AlphaGo,自动帆船等核心算法都是强化学习。2、与有监督、无监督学习的差异RL和有监督学习、无监督学习都是不一样的与有监督学习不同,RL不依赖与有标

2021-01-25 14:50:06 215

原创 无监督学习与TF2

阅读Antonio Gulli《Deep Learning with Tensorflow 2 and keras》Second Edition 第十章 Unsupervised Learning笔记使用TF2能实现哪些无无监督的算法呢?1、PCA、Kmeans可以使用TF2来实现PCA、Kmeans(之前我们主要使用sklearn来实现的),书本案例的实现方法是通过算法原理来实现的。例如PCA,首先使用tf.linalg.svd实现SVD奇异值拆解,然后实现降维的作用例如Kmeans,首先随机选

2021-01-04 15:50:35 165

原创 autoencoder是什么?

阅读Antonio Gulli《Deep Learning with Tensorflow 2 and keras》Second Edition 第九章 AutoEncoder笔记自编码用来做什么?当神经网络要输入大量的信息,比如高清图片的时候,输入的图像数量可以达到上千万,要神经网络直接从输入的数据量中进行学习,是一件非常费力不讨好的工作,因此我们就想,为什么不压缩一下呢?提取出原图片中最具有代表性的信息,缩减输入中的信息量,然后在把缩减过后的信息放入到神经网络中学习,这样学习起来就变得轻松了。自编

2020-12-25 11:40:09 208

原创 MLY阅读记录

吴恩达《Machine Learning Yearning》阅读该书目的不是教你机器学习算法理论,而是教你如何使用这些算法数据规模驱动机器学习从传统机器学习模型发展为深度学习,传统机器学习在大规模书籍下表现平缓,而深度学习随着数据量的增大表现越来越好。小规模样本取决与ML特征工程的好坏,如果你有100万个样本数据,我会赞成你使用神经网络。样本数据要具有典型性,开发集和测试集应该服从同一分布算法选择根据单一指标做出决定误差分析指的是检查被算法误分类的开发集样本的过程,以便帮助你找到造成这些误差的

2020-12-15 11:14:03 314

原创 RNN了解

阅读Antonio Gulli《Deep Learning with Tensorflow 2 and keras》Second Edition 第八章 RNN笔记RNN和CNN是当下深度学习应用领域中的两大主流结构,CNN 在2012年就开始大行其道,而 RNN 的流行却要到2015年以后了CNN 这种网络架构的特点之一就是网络的状态仅依赖于输入,而 RNN 的状态不仅依赖于输入,且与网络上一时刻的状态有关。因此,经常用于处理序列相关的问题实际中前后之间往往存在联系,例如单词语义之间,股

2020-12-08 16:02:19 228

原创 Embedding泛谈

阅读Antonio Gulli《Deep Learning with Tensorflow 2 and keras》Second Edition 第七章 Embedding笔记

2020-11-25 11:41:15 183

原创 GAN生成式对抗网络

阅读Antonio Gulli《Deep Learning with Tensorflow 2 and keras》Second Edition 第六章GAN笔记GAN生成对抗网络是无监督的深度学习模型2014年由lan Goodfellow提出,被深度学习三巨头之一Yann LeCun称为近年来最炫酷的想法核心理念:左右互搏,训练一个generator和discriminator,一个用来输入噪声生成图片,一个用来判断哪些是机器生成的图片,哪些是实际图片GAN现在用来生成高质量、逼真的图片di

2020-11-11 14:17:12 149

原创 集成学习进阶

近期看《百面机器学习》,看后记录集成学习分为bagging,boosting,stacking三类bagging各基分类器之间无强依赖,并行处理boosting采用串行,对前一层的错误分类给以更高的权重,有两个流行模型:adaboost,gradient boostingadaboost对分类正确的样本降低权重,错误样本增加权重,弱分类器的选择有很多GBDT梯度提升决策树,如何理解梯度提升?和梯度下降的关系是怎样的?bagging提高性能的方式是降低方差(取均值决策),所以要求弱分类器之间不存

2020-11-05 10:28:16 220

原创 常见的决策树

阅读李航《统计学习方法》第五章 决策树笔记决策树是一种基础的分类回归算法(可用于回归哦),不过书中主要讨论了用于分类的决策树。主要提到三类常用的决策树ID3,C4.5,CART决策树为了防止过拟合的问题,使用了剪枝(本质上就是设置了一个参数epsilon:对ID3和C4.5,计算信息增益/信息增益比,如果大于epsilon则作为最优结点,继续发展;对CART而言,计算数据集D labels的gini与特征下gini差值是否小于epsilon,小于则不作为最优结点继续发展了)ID3使用信息增益作为特征

2020-10-22 11:57:27 666

原创 卷积神经网络基础

阅读Antonio Gulli《Deep Learning with Tensorflow 2 and keras》Second Edition 第四章 CNN笔记卷积神经网络近年来在图像识别,NLP处理上风头无两。本章节主要讲CNN在图像识别上的应用。一、输入数据1、输入结果第一章使用全连接层也能实现图像的分类,改种方法把输入数据压缩成向量,例如一个28*28像素的图片,转换成长度为784的向量作为模型的输入。但这种方法破坏了图像数据对结构。CNN采用卷积核在不破坏图像结构的前提下,提取特征,

2020-10-14 11:49:48 163 1

原创 怎样使用逻辑回归

逻辑回归作为古老,使用广泛,入门的算法,对于逻辑回归的学习与使用是不可避免的,那么应该如何使用逻辑回归呢?总结为以下问题:数据特征与labels的相关系数关系(无意义特征删除)逻辑回归模型处理的是数值特征,分类型特征应如何转换?onehot/dummy、数字编码转换是否需要做标准化/归一化处理?如何解决样本不均衡问题?再缩放/上采样/下采样。class_weight与sample_weight的使用带来的效果L1、L2正则化分别带来的效果是怎样的?为什么使用交叉验证?用哪种交叉验证?sk

2020-10-13 17:42:13 250

原创 使用Tensorflow2实现回归

算法选型较axcuracy

2020-10-12 14:07:32 228

原创 关于数据竞赛的入门

阅读 阿水《数据竞赛入门讲义》笔记竞赛平台有哪些kaggle是全球最大的竞赛平台国内有天池,是阿里旗下知名度较高其他竞赛一般有哪些内容总结起来有分类:标签是类别,任务是分类回归:标签是数据,任务是回归时序:与时间有关,任务是时序问题涉及的数据类型有:结构化数据,非结构化数据流程EDA:分析数据情况特征工程模型训练与验证实际业务中如何选择模型根据场景决定,一般深度学习在非结构化数据比较占优势。需要关注模型的精度,可解释性,迭代速度,预习耗时,模型文件大小等。如何选择

2020-09-29 11:47:32 122

原创 手写数字识别

Antonic Gulli《Deep Learning with TensorFlow 2 and Keras》 second edition chapter I 阅读笔记介绍引入作为TF书籍的第一章简单介绍了tensorflow,什么是tf?支持哪些语言?keras是什么?tf是谷歌大脑开源的神经网络框架支持多种语音keras是一个建立和训练深度学习的框架,大幅度简化了代码程序。在tf2被采纳兼容,作为一个高级api存在。手写数字识别然后以minist手写数字的识别为介绍案例最简一层

2020-09-23 11:28:56 149

原创 深度学习与文本分类项目解析

背景本文为阅读项目记录(https://github.com/kk7nc/Text_Classification)目的:文本分类特征提取方法方法一:TF-IDF方法二:字典向量化+glove序列模型组合TF-IDF + 传统机器学习算法字典+glove+深度学习(CNN,RCNN,RNN)TF-IDF + DNN补充gloveglove 下载得到的数据内容为:每个词汇对应一串数据,长度有50/100/200/300,根据所选文件决定GloVe file which could

2020-09-16 19:46:18 322 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除