- 博客(5)
- 收藏
- 关注
原创 模型训练加速——win10下安装tensorflow-gpu版本
如果自己的GPU还可以,个人强烈建议装一个GPU版本的tensorflow,会比CPU版本的快很多。所需软件:anaconda,CUDA,CUDNN,tensorflow-gpu说明:这个四个软件之间版本协调非常不好,本人也是踩了很多坑,装了又卸,卸了又装,才找到合适的搭配:anaconda3.5.2,CUDA9.0.176,CUDNN7.0.5,tensorflow-gpu1.5.0...
2018-12-12 17:32:51 416
原创 How does batch normalization help optimization,Bacth Normalization的原理
Bacth Normalization出现背景深度神经网络的“深”意味着性能强,但同时也意味着训练难:“梯度消失”,“梯度爆炸”等问题难以解决。人们把这种问题的出现归咎于internal covariate shift(内部协变量变化)。为了解决这个所谓的ICS,2015年谷歌的Sergey Ioffe,Christian Szegedy(Batch Normalization: Acceler...
2018-12-03 21:46:12 432
原创 Target Propagation(目标传播),SGD(随机梯度下降)的替代,生物合理的方法
前言对生物脑神经的不停研究,人们发现了:1、多层结构在学习和认知过程中,脑神经是具有分层结构的,从低级细胞逐步到高级细胞,逐步提取特征。2、credit assignment(信用赋值)在学习和认知过程中,每个神经元都有一定的调节过程,主要依赖于突触可塑性。对于第一点,人们已经认识到了“深”的重要性,随着人工神经网络层数的加深,从数据中提取的特征会越来越高级,整个模型的精度也会变好。...
2018-11-14 17:56:53 1543
原创 Residual Connections Encourage Iterative Inference理解及思考
这篇文章是Facebook研究团队在2018年ICLR上的orals论文,对残差网络进行了一定的解读
2018-10-31 09:06:47 698 2
原创 知识蒸馏,teacher—student模型的思考
知识蒸馏,teacher—student模型的思考这个方向的学术源头是Rich Caruana2014年的作品《Do Deep Nets Really Need to be Deep?》,后来经过Hinton的《Distilling the Knowledge in a Neural Network》发扬光大。实用价值:可以对大型神经网络进行瘦身以便部署到用户端;理论价值:引发对深度网络的思考:...
2018-10-30 20:25:02 27800 5
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人