- 博客(29)
- 收藏
- 关注
原创 大语言模型peft微调技术
上图x轴表示的是层id,即哪一层,从embedding层到最后输出层,y轴表示的是norm值。P-tuning的缺点:1. 并不能做到在所有规模参数的模型上表现都好,超过10 billion参数的模型表现好,100 million到1 billion规模参数的模型上相比全参数微调差很多。但是,不同于让专家优化单个词,单个词容易受具体的词的影响,不同的词有不同的向量表示。在DoRA中,是对参数矩阵分解,而不是向量,矩阵的每一列参数连接了输入到输出,也就是将每一列看作向量做分解(如下图右)。
2024-04-18 17:34:34 960
原创 模型预测时GPU占用不断增长
情况:pytorch框架,深度模型单GPU预测时,显存占用会不断增长,由有1G增长到5G,甚至更多。我这边排查下来的原因是卷积的输入尺寸变化,有很大尺寸的输入导致GPU占用不断增长。如果你的模型中没有使用卷积层,可以不往下阅读。如何看出显存占用不断增长?登录代码运行服务器,使用 watch -n 1 nvidia-smi ,观察显存变化预测部分代码如下:with torch.no_grad(): # 模型预测 output = self.model(**input_da
2022-04-23 17:00:39 3763 4
原创 batch normalization and batch size
batch normalization的原理解释可以看https://www.cnblogs.com/guoyaohua/p/8724433.html 我觉得写得挺清晰的实验结果:batch_size的大小会影响batch normalization的效果。当batch_size过大的时候,会使得模型效果不稳定(我做的实验是模型偏向于预测为某一个类别)。实验:模型:DPCNN,在...
2019-12-04 21:26:01 1043
原创 word2vec
1. 两种word2vec模型的结构之前的神经网络语言模型结构Neural Probabilistic Language Model (NNLM)为什么采用新的结构,不使用NNLM的结构?在NNLM的结构中,有隐藏层,就是上图中tanh那层,则当单词的窗口长度为n,映射得到的词向量C的维度为D, 隐藏层的维度为H时,从映射层(projection)到隐藏层(hidden lay...
2019-06-29 16:14:52 842
翻译 A Hybrid CNN-RNN Alignment Model for Phrase-Aware Sentence Classification
记录一下这篇论文。网络结构如下:有3个阶段:第一个阶段是使用CNN生成短语向量,第二个阶段结合短语向量和词向量,并使用软对齐的RNN来生成考虑词顺序的句向量,第三个阶段使用句向量来做类别预测。1. CNN句向量是句子中第i个单词对应的k维的词向量,长度为N的句子可以看作列方向上的词向量的拼接。使用一系列卷积核来学习不同长度的短语表示。表示第i步的短语向量,包含了所有...
2019-06-17 22:54:54 444
原创 TextCNN是否忽略了词的顺序?
想请教个问题:TextCNN在convolution操作后会有max pooling的操作,如果把不同的convolution操作看作是提取不同的特征,所有的convolution都是对整个句子进行的,那max pooling之后是不是就完全失去了句子的顺序?希望有人指点一二,感恩...
2019-04-22 17:55:55 416 13
原创 为什么说BERT是bidirectional
BERT是一个deep bidirectional Transformer。Transformer可参考 https://baijiahao.baidu.com/s?id=1622064575970777188&wfr=spider&for=pc 非常详细易懂Transformer是一个encoder-decoder框架。编码器的结构:其中...
2019-04-19 20:55:19 1138
原创 如何理解word2vec中的NCE
以下是自己的一些想法和提问,不一定正确,还望大家指正,感恩!word2vec为什么使用NCE?使用NCE来替代softmax, 是因为softmax在类别很多很多的时候计算量大(计算每个类的得分的时候都需要对所有类求和来做分母),word2vec最后需要输出词表大小的类别,数量很大。NCE相当于将多类别分类变成多个二类分类,正类是输入词的上下文中的某个词,负类是不属于上下文的某些词。什...
2019-04-17 20:59:47 1478
原创 一个LSTM层中隐向量的个数怎么理解
参考 https://www.reddit.com/r/MachineLearning/comments/87djn7/d_what_is_meant_by_number_of_hidden_units_in_an/LSTM有input gate, forget gate, output gate,这些gate都是将本时刻的输入和上一时刻的隐含状态作为输入得到的, 在计算过程中会产生3个本时刻...
2019-04-16 21:59:41 4039 3
原创 html 换行
使用django编写网页项目,当文本参数传入html时,<br>在网页上仍然显示为<br>,没有换行。解决方法:在.html文件中,将 {{error_message}} 重新写成 {{error_message|safe}}则view.py中向html传入'您好<br>请输入关键词'时,可以显示换行。...
2018-09-18 17:15:10 4527
原创 sklearn CountVectorizer 单字
在使用python sklearn.feature_extraction.text的CountVectorizer时,发现会自动剔除掉单字的中文和只有一个字母的英文。#CountVectorizer convert a collection of text documents to a matrix of token countsfrom sklearn.feature_extractio...
2018-09-13 11:41:01 1996 1
翻译 命名实体识别(biLSTM+crf)
本文是翻译的github这个项目的博客https://guillaumegenthial.github.io/sequence-tagging-with-tensorflow.html。为什么要用biLSTM?为了使特征提取自动化。当使用CRF++工具来进行命名实体识别时,需要自定义模板(或者使用默认的模板)。任务和数据任务是进行命名实体识别(named entity recognit...
2018-08-31 09:17:26 26052 5
原创 rasa 中文聊天机器人
环境:ubuntu 16.04主要是运行github项目https://github.com/zqhZY/_rasa_chatbot ,用来回答一些手机通信业务,项目里面有训练集。如有问题,期待大家指正,非常感谢!1.Rasa介绍rasa是开源的工具,包括rasa core和rasa nlu。官网:https://rasa.com/rasa nlu主要用于用户意图识别和实体识别...
2018-08-31 08:52:38 15549 9
原创 tensorflow多次restore模型出错
环境:python3,tensotflow在恢复了预先训练好的模型进行预测时,第一次是能够成功执行的,但我多次restore模型时,出现了以下问题:1.ValueError: Variable char_embed/char_embedding already exists, disallowed. Did you mean to set reuse=True in VarScope? O...
2018-08-23 17:18:57 7774 2
翻译 word2vec skip-gram
翻译了http://mccormickml.com/2016/04/19/word2vec-tutorial-the-skip-gram-model/这个链接下介绍skip-gram的word2vec。如有错误,望大家指出,非常感谢!这篇教程涵盖了word2vec的skip-gram神经网络结构。模型Word2Vec使用了在其他机器学习中也会看到的技巧。我们使用单隐藏层的简单神经网络来...
2018-08-02 19:52:27 1685
翻译 神经网络 backpropagation
这是很早之前看到的cs224n lecture note 3中一篇文章,当时翻译了一部分,没有翻译完,现在好像找不到了。觉得这篇文章对理解后向传播很有用,分享一下。如有问题,还望大家指出,非常感谢!这部分介绍单层和多层神经网络,以及它们如何用于分类,并介绍如何使用分布的梯度下降(distributed gradient decent),也就是backpropagation来训练这些模型。在训练...
2018-07-20 11:18:15 1364
翻译 K-Competitive Autoencoder for Text
对论文https://arxiv.org/pdf/1705.02033.pdf中的模型部分进行记录尽管自编码器的目标是最小化reconstruction error,我们的目标是从数据中提取出有意义的特征。相比于图片数据,文本数据对自编码器更有挑战,因为文本数据高维,离散,幂律词分布。当检验用自编码器提取的特征时,发现这些特征并不是不同的。是因为在隐藏层的很多神经元分享输入神经元的相似组(往往是出...
2018-07-10 20:36:27 861
原创 uwsgi http socket
在使用uwsgi+django发布网页时,如何生成uwsgi.sock文件?在uwsgi运行的配置文件ini中,添加:socket=/home/hadoop/PycharmProjects/wxtbr/uwsgi.sock
2018-07-04 17:49:16 3866
原创 tf.gather
tf.gather(params, indices, validate_indices=None, name=None, axis=0)Gather slices from `params` axis `axis` according to `indices`.从'params'的'axis'维根据'indices'的参数值获取切片。就是在axis维根据indices取某些值。参考博...
2018-06-15 08:54:33 12448 2
原创 tensorflow 部分预处理函数
tf.split(value, num_or_size_splits, axis=0, num=None, name='split')将tensor拆分为新的tensor如果'num_or_size_splits'是一个整数'num_split',就把'value'沿着'axis'所在的维拆分成'num_split'个更小的tensor。如果'num_or_size_splits'不是一个整数,那...
2018-06-10 16:39:57 652
原创 python hanlp
想要在python中调用hanlp进行中文实体识别,Ubuntu 16.04的系统环境1. 安装jpype1,在cmd窗口输入pip install jpype12. 下载hanlp的安装包在https://github.com/hankcs/HanLP/releases (1).下载最新的 hanlp-1.6.4-release.zip文件,里面包含hanlp-1.6.4.jar...
2018-05-25 17:54:03 4871
转载 ubuntu 16.04 无法连接wifi
在ubuntu 16.04 LTS显示不出来任何Wifi,也就没法连接Wifi。按网上的方法,设置 "software & updates"的“Additional Drivers”为using,但仍然无效。在命令窗口输入发现Hard blocked:yes,也就是有硬件阻塞。参考点击打开链接,里面有详细说明,按FN+F2的组合键将Wifi的硬件开关打开即可。...
2018-04-08 19:46:13 2241
原创 stanford parser 中文 出错 UnicodeDecodeError
win7+python3.4+nltk调用stanford parser对中文进行语法解析。有些句子成功解析,有些句子会报错,报错如下:UnicodeDecodeError: 'utf-8' codec can't decode bytes in position 96-97: invalid continuation byte解决方法:parser = StanfordParser(model_...
2018-02-28 18:01:53 367
原创 python已存在的excel中新增表,不覆盖原数据
每月需更新某个excel表格,进行两项操作,且不覆盖原有的sheet:1. 在原来的excel表中新增sheet2. 往原有的excel表中的某张sheet新增内容基于python3,使用xlrd,xlwt,具体代码如下,亲测有效,希望对大家有帮助,谢谢!import xlwtimport xlrdfrom xlutils.copy import copy#打开需要操作的excel表wb...
2018-02-14 10:40:14 20588 6
原创 ubuntu pyhon版本的切换
Ubuntu 16.04 LTS,系统自带了python2.7和Python3.5。使用whereis python的命令可以看到和python有关的文件。1.如何将默认的python版本修改为3.5?(默认是2.7,可以使用 python --version 查看目前系统默认的python版本)sudo rm /usr/bin/pythonsudo ln -s /usr/bin/python3...
2017-10-11 19:54:20 266
原创 crontab 保存并退出
Ubuntu系统使用crontab定时执行python脚本crontab -e配置完成后,如何把保存并退出?1.Ctrl+O 写入2.出现“FIile name to Write...”,输入Enter3.Ctrl+x 保存输出提示“crontab:installing new crontab”表示成功。
2017-09-28 11:55:11 39636 2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人