文章目录 weight sharing-用一个线性层处理单词(共享)解决参数量过大的问题Consistent memory-解决语义相关性问题Gradient-可导 weight sharing-用一个线性层处理单词(共享)解决参数量过大的问题 Consistent memory-解决语义相关性问题 需要用全局的视角来处理语义信息,来解决语义相关性问题 Gradient-可导