1.30万数据中自己造的占比
2.下游sft
3.用的模型是多大的?6b嘛?大概要训练多久
4.数据清洗怎么做的
5.知道回复长度的分布是什么样的吗
6.问题和回复哪个比较长
7.数据有尝试让他保持均衡嘛?
8.bert 64 512 128的表现怎么样
9.为什么上线的效果好于训练时
10.具体的类别的准确率
11.为什么选择了F1做指标,而不是准确或是召回
12.后续又做了什么优化?数据版本控制
13.AB测分别提了多少 然后对用户的留存率提了多少
14.怎么追踪这个后续的结果
15.介绍一下学校的项目
16.介绍下社交网络方面常用的模型及优点
17.用的数据集是怎么来的
18.虚假信息的定义
19.我们最后是要做什么 溯源嘛还是什么卡住关键节点