![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
深度学习
文章平均质量分 88
iTensor
中科院某所渣硕,瞎研究自然语言处理方向。
展开
-
机器翻译:统计建模与深度学习方法
前言机器翻译:统计建模与深度学习方法Machine Translation: Statistical Modeling and Deep Learning Methods推荐一本来自东北大学自然语言处理实验室 (NEUNLPLab) / 小牛翻译 (NiuTrans Research)关于机器翻译的教材。目的是对机器翻译的统计建模和深度学习方法进行较为系统的介绍。其内容被编纂成书,可以供计算机相关专业高年级本科生及研究生学习之用,亦可作为自然语言处理,特别是机器翻译相关研究人员的参考资料。本书用tex原创 2020-08-02 21:37:35 · 652 阅读 · 0 评论 -
想要搞深度学习,我来推荐几款免费的GPU平台
Google Colab优点:GPU,TPU不限时长,一直免费使用。可以配合谷歌网盘使用。缺点:需要科学上网。我这里会时不时掉线。DBC类被同学邀请使用的,的确挺方便。优点:不用科学上网。1080,2080型号都有,价格挺便宜。只需要绑定邮箱。缺点:不免费,但是价格的确挺便宜。……………广告时间…………我一共找到了三个DBC平台,每个平台新用户可以免费试用三天左右,...原创 2020-02-15 10:50:01 · 4752 阅读 · 4 评论 -
优化算法总结
背景对一个多元函数 f(x)f(x)f(x) 求最小值,当无法准确求出其准确结果时,需要用到其导数。根据泰勒公式,f(x)f(x)f(x) 在 xkx_kxk 处展开二阶导:f(x)≈f(xk)+∇xf′(xk)(x−xk)T+12(x−xk)T∇x2f′′(xk)(x−xk)f(x) \approx f(x_k) + \nabla_x f'(x_k)(x - x_k)^T + \fra...原创 2019-10-15 11:24:12 · 286 阅读 · 0 评论 -
bert原理篇
文章目录背景模型结构参数设置输入表示Pre-TrainingTask 1:Masked LMTask 2:Next Sentence Prediction (NSP)背景正如论文名:BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding。BERT 是一个语言模型,通过大量的语料进行无监督训...原创 2019-09-12 14:57:17 · 1229 阅读 · 2 评论 -
熵小结
信息量与事件发生概率大小相关,发生概率越大,信息量越大。设事件 xxx 发生的概率为 p(x)p(x)p(x) ,那么该事件的信息量为:I(x)=−log(p(x))I(x) = -log(p(x))I(x)=−log(p(x)) 。熵在信息论和概率统计中,熵表示随机变量不确定性的度量。设随机变量为 XXX ,即事件 XXX 发生的可能性共有 nnn 个,每个可能 xix_ixi 发生的...原创 2019-09-03 08:42:12 · 254 阅读 · 0 评论 -
Transformer小结
[Model Architecture](#Model Architecture)Self-Attention[Multi-Head Attention](#Multi-Head Attention)[Positional Encoding](#Positional Encoding)EncoderDecoderSummaryReferenceModel Architecture...原创 2019-09-03 08:40:43 · 929 阅读 · 2 评论 -
Embedding小结
Word2Vec TutorialIdeaWord2Vec 是一个可以将单词转换为固定维度向量的工具。Two modelSkip-Gram(SG)基本思想给定中心词,去预测窗口范围内的词。例如给定句子:{...,"prolems", "turning", ’into", ’banking", "crises’, "as",...}给定窗口 m=2m = 2m=2 ,中心...原创 2019-09-03 08:31:14 · 810 阅读 · 0 评论 -
Attention小结
[Encoder–Decoder Model](#Encoder–Decoder Model)[Attention Mechanism](#Attention Mechanism)ReferencesEncoder–Decoder Model在论文1中提出了一种用来处理机器翻译任务的新模型 Encoder–Decoder Model 。[外链图片转存失败(img-mzXcN5Vl-15...原创 2019-09-03 08:23:41 · 110 阅读 · 0 评论 -
TensorFlow-gpu 设置使用 CPU 运行程序
1.安装GPU环境请转 Ubuntu18 安装 CUDA9.0 和 cuDNN 史2.使用 CPU 运行 tensorflow:import osos.environ["CUDA_DEVICE_ORDER"] = "PCI_BUS_ID" os.environ["CUDA_VISIBLE_DEVICES"] = "-1"...原创 2018-10-28 20:18:50 · 5970 阅读 · 0 评论 -
Ubuntu18 安装 CUDA9.0 和 cuDNN 史
文章目录显卡配置安装显卡驱动(重中之重)下载CUDA9.0和cuDNN1.下载CUDA9.02. 下载cuDNN显卡配置GeForce 940MX安装显卡驱动(重中之重)在 官网 选择显卡的参数,下载合适的驱动。重启,输入 nvidia-msi ,如下图所示,则驱动安装完毕。下载CUDA9.0和cuDNN1.下载CUDA9.0虽然已经有Ubuntu18.04支持的10.0版本C...原创 2018-10-22 16:05:06 · 9061 阅读 · 5 评论 -
[未完] 深度学习 之 词向量(Word Embedding)篇 :word2vec
欢迎参观 一> 个人小站 一. 词向量表示形式在使用神经网络模型进行文本分类或者机器翻译时,前提工作是要对整理好的文本数据进行词向量化 (Word Embedding) ,既使用向量形式代表词。1.1 One-hot representation表示形式:向量维度的大小为数据中词汇表的大小,每个单词对应的位置置为1。例如 { I love china } ,love...原创 2018-08-02 23:32:45 · 1579 阅读 · 0 评论 -
TensorFlow学习(一): 构建卷积神经网络
TensorFlow的 layers 模块提供了一个高级API,可以轻松构建神经网络。它提供了便于创建全连接层和卷积层的方法,添加了激活函数以及应用DropOut正则化(防止过拟合)。在本教程中,您将学习如何构建卷积神经网络模型来识别MNIST数据集中的手写数字。 MNIST数据集包含60,000个训练样例和10,000个手写数字0-9的测试示例,格式为28x28像素单色图像。...翻译 2018-03-17 20:54:02 · 2545 阅读 · 1 评论 -
TensorFlow自然语言处理篇--------递归(循环)神经网络RNN(LSTM模型)
(未完待续)准备工作我们将会训练一个RNN用于语言方面,目标是给出一系列单词,然后预测下一个单词。为此,我们使用专门衡量这些模型好坏的标准数据:PTB数据。它的数据量比较小并且训练起来相对较快。 PTB数据集已经预处理并含有整体10000个不同的词,包括结束句子的标记和用于罕见词语的特殊符号(\ < UNK>)。 为了更容易处理数据,在 reader.py 中,我们将每...翻译 2018-03-26 17:24:05 · 1921 阅读 · 0 评论 -
TensorFlow学习(三)—_实现自编码器
自编码器的介绍请参考这里准备 导入所需要的包。import numpy as npimport sklearn.preprocessing as preimport tensorflow as tffrom tensorflow.example.tutorials.mnist import input_data定义函数参数初始化方法 xavi...原创 2018-04-08 20:13:08 · 658 阅读 · 0 评论 -
吴恩达 深度学习课程2018开放 (Stanford CS230)
Stanford 2018 春季 CS230 (深度学习)课程资料开放,授课老师是吴恩达。课程介绍从官网课程介绍,这次课程和去年的课程差别不算太大,仍然包括 CNNs, RNNs, LSTM, Adam, Dropout, BatchNorm, Xavier/He initialization 等深度学习的基本模型,涉及医疗、自动驾驶、手语识别、音乐生成和自然语言处理等领域。除了学习理...原创 2018-06-24 20:48:47 · 8901 阅读 · 11 评论 -
详解从 Seq2Seq模型、RNN结构、Encoder-Decoder模型 到 Attention模型
注:本文的所有模型只涉及自然语言处理领域,同时本文不涉及太多复杂公式推导。一、Seq2Seq 模型1. 简介Sequence-to-sequence (seq2seq) 模型,顾名思义,其输入是一个序列,输出也是一个序列,例如输入是英文句子,输出则是翻译的中文。seq2seq 可以用在很多方面:机器翻译、QA 系统、文档摘要生成、Image Captioning (图片描述...原创 2018-04-25 20:59:57 · 5243 阅读 · 6 评论 -
深度学习之LSTM篇
循环神经网络(RNNs) 人们思考的时候往往会依据之前的经验,正如读这篇文章的时候,在读第二段的时候你会回忆第一段相关的内容,而不是将每一段单独来进行学习。正是因为这具有连贯性。 这也恰好是传统神经网络的缺点。例如,你想要分辨一个电影在每个时刻想要发生什么情节。传统神经网络不能根据前一刻的情节来判断下一刻发生的情节。 但是,RNN可以解决这个问题。因为RNN的网络结构...原创 2018-04-15 22:35:35 · 457 阅读 · 0 评论