文本的向量表示


BERT encode出来的文本向量有两个问题:

  1. BERT encode出来的向量表达具有各向异性:
    用不同的方式去衡量向量,表现出来不同的语义,差别很大,也就是不能完整的衡量出 BERT 向量中全部语义信息。
  2. 分布不均匀,低频词分布稀疏,高频词分布紧密 :
    也就是高频词会集中在头部,离原点近;低频词会集中在尾部,离原点远;高频词与低频词分布在不同的区域,那高频词与低频词之间的相识度也就没法计算了。这也反映出来的就是明显的低频词没有得到一个很好的训练。同时,高频词频次高,也会主宰句子表达。
    在这里插入图片描述

流式变换BERT-flow

带白化处理的BERT-whitening

对比学习的SimCSE

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值