多轮对话是否需要改写(文本分类embedded初探)
环境:
python3.7
tnsorflow1.14
repo目录结构:
数据集介绍:
使用的数据集为自己构建的QA数据集,由于数据量较少,不区分验证集与测试集。
注:原始数据以txt文本格式保存,标签分为pos与neg,因此预处理主要是将标签与数据分开对应保存,并将数据分为训练集与测试集。
数据预处理:
import os
from collections import Counter
def slide_word(text: str, l):
result = []
if len
原创
2021-12-29 11:33:20 ·
866 阅读 ·
0 评论