交叉确认集是从训练集中抽取一部分用来调整模型参数
模型构建的时候一定要选用跟模型相匹配的数据
其中,未登录词是指当下出现的新词,未纳入词典中的词
例如:X为电影 ,Y为院,通过公式计算X与Y的凝聚程度,较大则为一个词,反之不是
一般采用默认模式(精确模式),不采用全模式,
精确模式:会将这句话中的词进行切割,
全模式:只要是单词就会显示
IDF的作用就是为了凸显出在文章当中出现的在其他文章当中出现频率较小的词的重要性
运行结果:
词向量的优势就是把离散表示转化成了连续表示
![在这里插入图片描述](https://img-blog.csdnimg.cn/20200715230815414.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80NTgxMTcxMw==,size_16,color_FFFFFF,t
RNN属于强分裂器,经常会过拟合。
注意力机制能够让翻译的关键词语对应起来,权重较高,翻译的更加精准。通常名词的注意力机制权重较高。
知识图谱实战(四)
最新推荐文章于 2024-02-24 12:14:59 发布