机器学习
正在吃饭的派大星
这个作者很懒,什么都没留下…
展开
-
ModuleNotFoundError: No module named ‘numpy.testing.nosetester‘解决
conda新建一个环境 本身没有安装sklearn,重新安装了一个,调用发现报错: ModuleNotFoundError: No module named 'numpy.testing.nosetester 检查报错文件,发现是import sklearn相关包的时候报错。 网上看到一些方法是将sklearn相关的包更新到最新版本,但是我自己试了一下发现还是不行。 最后发现是numpy和scipy的版本不匹配造成,conda环境输入: pip3 install -i https://pypi.tuna.t原创 2021-09-06 10:51:33 · 3360 阅读 · 0 评论 -
ELMO模型
ELMO是考虑上下文的模型 上图只考虑了正向序列,接下来再反向进行训练: 训练好正向和逆向的网络后,每次字符都输入两个网络获得对应隐藏层输出。 将多层的h相加获得最终的h,再进行接下来的处理。 ...原创 2021-08-28 23:28:04 · 109 阅读 · 0 评论 -
auto-encoder
encoder:将输入转换为一个code 代表着输入的信息 decoder:将code解码为输入同类型数据 单独的encoder和decoder无法训练,因为是无监督的,但是合在一起就可以训练。 deep auto-encoder encoder可以将输入编码成一个向量,这里同时需要一个判别器,能够分辨向量和输入之间是否匹配。 因此这里要先训练判别器,可以输入图片和label,减小判别器的loss。 将原始图片和decoder生成图片相减,获得分数。 ...原创 2021-08-28 23:18:14 · 82 阅读 · 0 评论 -
RNN变体及其应用(详细)
ppt来自于李宏毅老师的视频 首先从带有记忆的网络开始: 前一步的隐藏层状态会写入记忆单元中 再次输入 可以发现相同输入。因为记忆单元存在,输出是不同的 rnn就是具有类似特点的网络,可以记忆之前输入的信息 同时rnn根据存储信息不同可以划分为不同的网络: 存储隐藏状态或者是输出 双向RNN: 将序列按照正反的双向顺序输入,根据两个的h获得输出y 优点是获得信息更广 LSTM 通过输入门决定是否将记忆写到记忆单元中 输出门决定是否将记忆单元中的值输出 遗忘门决定是否遗忘记忆单元的值 具体结构: 输原创 2021-08-28 14:54:25 · 1447 阅读 · 0 评论 -
beam search
为什么要用beam search: rnn网络每次可以输出下一个节点的概率,但是如果使用贪心每次选择最大概率的节点,最终序列的概率不一定最大: 例如只按照下一个节点的概率可以获得ABB 0.6^3 但是还有BBB 0.4*0.9^2概率会更大 同时又无法检查所有的路径(计算时间问题) 因此要是用beam search 设定beam的大小 例如为2 那么每一次选择概率最大的2个节点。 首先选择第一层的AB,下一步就有4个节点可以选择,选择最大概率的两个节点BB,以此类推 实例: 设定beam为3,将起始字原创 2021-08-28 11:22:11 · 173 阅读 · 0 评论 -
transformer模型
ppt来自李宏毅老师的视频 在讲transformer之前需要了解一下rnn和attention的知识 rnn缺点: 不容易并行化计算,要一个一个字符输入 方法1:用CNN代替 将整体序列输入,使用filter获取信息,为了获得长序列的关系可以使用多层CNN 方法2:self-attention 将每个输入向量分别乘以不同矩阵获得不同的向量 接下来用q对k做attention,即输入q和k输出匹配分数,注意q和k维度相同 scaled dot-product attention:具体是将q和k点乘除以原创 2021-08-28 11:04:28 · 329 阅读 · 0 评论 -
attention模型
attention进行翻译: 核心部分是一个rnn网络,每次输入一个向量获得对应的隐藏层向量h,z作为decoder网络的一个参数向量, 每次获取z和h的匹配度作为a 匹配度可以用cos相似计算,也可以搭建一个网络计算,网路的参数可以和其他参数一起学习 将所有h和第一个z计算的匹配度a,通过softmax后求和获得第一个c,c作为decoder的输入。可以视为获取了输入的部分信息。 接下来再用第二个z分别和h求匹配度,获得第二个c再次输入decoder,以此往复直到生成结束 ...原创 2021-08-28 10:17:28 · 88 阅读 · 0 评论 -
半监督学习的概念
监督学习 训练数据x和标签y 半监督 除了上面的还有没有标签的x 通常没有标签的x数目远大于有标签的 半监督也根据如何使用没有标签的数据分成两类: 通常使用半监督学习是因为收集数据时难以获得对应的标签。 ...原创 2021-08-27 22:51:35 · 107 阅读 · 0 评论