BERT
bert
还卿一钵无情泪
虚空界尽 众生界尽 众生业尽 众生烦恼尽 我此愿望无有穷尽 念念相续 无有间断 身语意业 无有疲厌
展开
-
TensorFlow BERT fine-tune 训练中断解决办法 或 使用开源模型继续fine-tune 参数配置
TensorFlow bert模型中断后如何继续训练原创 2022-07-11 19:33:17 · 750 阅读 · 0 评论 -
BERT的三个Embedding详解
BERT将输入文本中的每一个词(token)送入token embedding层从而将每一个词转换成向量形式两个嵌入层,segment embeddings和 position embeddingstoken embeddingtoken embedding 层是要将各个词转换成固定维度的向量。在BERT中,每个词会被转换成768维的向量表示假设输入文本是 “I like strawberries”。下面这个图展示了 Token Embeddings 层的实现过程:输入文本在送入原创 2021-12-20 15:31:45 · 28639 阅读 · 16 评论 -
BERT发展架构(逻辑导图)
转载 cr.NewBeeNLP原创 2021-01-20 14:35:30 · 151 阅读 · 0 评论 -
bert知识扩充
一、BERT-wwmwwm(Whole Word Masking),全词Mask就是对整个词都通过Mask进行掩码,包含更多信息的是词,相比于Bert的改进是用Mask标签替换一个完整的词而不是子词,中文和英文不同,英文中最小的Token就是一个单词,而中文中最小的Token却是字,词是由一个或多个字组成,且每个词之间没有明显的分隔,论文下载链接:https://arxiv.org/pdf/1906.08101.pdf二、BERT-wwm-ext它是BERT-wwm的一个升...原创 2020-12-24 18:32:07 · 933 阅读 · 2 评论 -
Bert与GPT-2
在GPT出现后,谷歌18年推出了Bert,19年时openAI又推出了GPT-2一、共同点Bert和GPT-2都采用的是transformer作为底层结构~ 效果都惊人的好二、差异语言模型:Bert和GPT-2虽然都采用transformer,但是Bert使用的是transformer的encoder,即:Self Attention,是双向的语言模型;而GPT-2用的是transformer中去掉中间Encoder-Decoder Attention层的decoder,即:Marke.转载 2020-06-03 22:54:36 · 4100 阅读 · 3 评论 -
Bert模型精简方法
BERT六大瘦身大法网络剪枝:包括从模型中删除一部分不太重要的权重从而产生稀疏的权重矩阵,或者直接去掉与注意力头相对应的整个矩阵等方法来实现模型的剪枝,还有一些模型通过正则化方法实现剪枝。低秩分解:即将原来大的权重矩阵分解多个低秩的小矩阵从而减少了运算量。这种方法既可以用于标记嵌入以节省磁盘内存,也可以用到前馈层或自注意力层的参数矩阵中以加快模型训练速度。知识蒸馏:通过引入教师网络用以诱导学生网络的训练,实现知识迁移。教师网络拥有复杂的结构用以训练出推理性能优越的概率分布,是把概率分..转载 2020-06-09 21:22:09 · 684 阅读 · 0 评论 -
Bert 源码各个文件详解
1.1 modeling.py 如下图所示,modeling.py定义了BERT模型的主体结构,即从input_ids(句子中词语id组成的tensor)到sequence_output(句子中每个词语的向量表示)以及pooled_output(句子的向量表示)的计算过程,是其它所有后续的任务的基础。如文本分类任务就是得到输入的input_ids后,用BertModel得到句子的向量表示,并将其作为分类层的输入,得到分类结果。 modeling.py的31-106行定义了一个BertConfig转载 2020-06-09 21:17:13 · 1825 阅读 · 0 评论 -
BERT 情感分类 调试问题
1. 直接运行shell 脚本会出现问题 bash run.sh直接复制脚本在shell中运行2. 注意写路径 ‘\’ 的问题,多写或少写都会有问题3. 参数do_train,do_eval和do_predict分别控制了是否进行训练,评估和预测,可以按需将其设置为True或者False,但至少要有一项设为True4. 内存不够对于参数max_seq_length, train_batch_size 越小, 内存使用越小 对于使用的预训练集 BERT-Base 使用内存比 BERT-.原创 2020-06-17 15:48:54 · 447 阅读 · 0 评论 -
Bert核心内容
Bert 2018年10月 出现传送门Bert原文:BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding代码:google-research/bert关于Bert已经有很多人都详细地写过它的原理,给大家推荐一个知友写的总结Bert的相关论文和代码的文章:Pan Yang:BERT相关论文、文章和代码资源汇总1. Pre-training预训练之Marked LMBert在.转载 2020-06-03 23:05:25 · 947 阅读 · 1 评论 -
BERT多标签分类 (BERT Multi Label Classifier)
本文 在Multi_Label_Classifier_finetune 这个项目上进行改写https://github.com/Vincent131499/Multi_Label_Classifier_finetunecentos安装的TensorFlow GPU版本 1.14.0修改:没有使用这个,加了这一句实验中会使用CPU,不使用GPU,应该和指定硬件有关os.environ['CUDA_VISIBLE_DEVICES'] = '1'#os.environ[...原创 2020-11-24 10:26:07 · 1858 阅读 · 1 评论 -
bert模型部署 bert_base 和 bert_serving
bert模型部署成服务目前遇到两个库,一个是官方,一个是第三方两个部署方式相似但有些区别官方 bert_base第三方 bert_serving用官方的一个参考https://www.jianshu.com/p/67f99e48f7f7from bert_base.client import BertClienttext1='这个东西太差了'text2='#乐享骑行我逍遥#'text3='电脑休假心未回'with BertClient(show_serv...原创 2020-08-30 22:09:43 · 2291 阅读 · 0 评论 -
BERT TensorFlow 训练和调试 (shell)
内存60G,20核max_seq_length 和 train_batch_size 再大会OOM训练和验证shellexport DATA_DIR='/xx/xx/bert'export BERT_BASE_DIR='/xx/xx/chinese_L-12_H-768_A-12'python run_classifier.py \ --task_name=organ_grid \ --do_train=true \ --do_eval=true \ -...原创 2020-08-26 16:43:22 · 515 阅读 · 0 评论