项目简介
Wide And Deep模型是Google推出的一个基于记忆和推理的算法,首先在tensorflow里面实现了。为了进一步理解这个算法,我们尝试在shifu中进行实现。基于guagua做hadoop上分布式数据训练模型。
遇到的问题
下面就一些我们在项目中遇到的问题,进行简要的记录。
- 2019年5月28日 预测值处于饱和区
问题描述:
我们已经基本实现了Wide And Deep算法,并且在本地版本中对少量数据进行测试时, match rate很高。 但是搬到hadoop上面,83个map的数据时,最后eval error降到60之后也不往下降了,保持不变。另外一个问题是,训练数据比较慢。目前一次迭代到10到15秒钟,但是预期的速率应该是5秒每次full batch迭代。
解决办法:
为了定位问题,我们首先选择一个正确的对标的模型LR,然后去比较梯度和权重的变化是否合理。
迭代慢后来发现是由于debug log太多,造成的。
- Gradient全部为正