简介
mzcn是本人针对于matchzoo-py库出现的对中文文本语料处理不友好,而开发出的新版本,具体功能介绍在这里:
https://blog.csdn.net/yingdajun/article/details/119846966
新版本功能介绍
目前通过阅读Facebook公司提出的pytext的框架,给原本的mzcn模型添加了以下三个功能:
1.支持一键进行训练
2.一键导出ONNX格式
3.检测是否可以进行预测
(由于本人电脑性能贼差,刚毕业没有余钱换电脑,所以预测结果很垃圾,但是估计性能好一点的电脑导出的ONNX文件效果会更好一点)
项目环境要求:
WIN10系统
torch >= 1.5.0
pandas >= 1.3.1
实验示例
首先cd到训练文件的位置
我电脑上训练文件的位置是 I:\AHanJia\matchzoo-py改造\gitHub\mzcn\demo\command
文件目录结构如下
python train.py --config_file config/anmm.json --onnx_file result/anmm.onnx
[OPTIONS]:
–config_file TEXT,这是用于读取选择好的配置文件,配置文件包含待训练的数据集的位置、任务的类型(是排序还是分类)、处理器的参数、数据集的参数、回调函数的参数、模型的参数等信息、优化器的参数、训练轮数。如下图所示
–onnx_file TEXT 导出的ONNX格式的文件名
实验结果如下所示:
总结与反思
这是我对这个项目进阶的第二版本,也是我自己的能力的二重进步。其中我发现,由于本项目属于matchzoo-py项目的二次开发,本项目同样也经常会出现No objects to concatenate的问题,不过只需要重新训练即可。
原生项目太过依赖于pandas的0.24.2版本,下载会比较困难,所以我直接改成了最先版本的pandas。
项目地址:
https://github.com/yingdajun/mzcn
参考文献
https://blog.csdn.net/yingdajun/article/details/119846966
https://blog.csdn.net/sinat_33455447/article/details/85064284