开课吧代码实战笔记整理,侵删
为什么要关心表格横轴,纵轴的长度?
因为要把数据送进模型,肯定要把数据向量化,我们需要加速计算的话,我们一次要送进多维向量,那么向量肯定要一样长
为什么要关注数据的方差,平均值?
因为可以利用数据的均值,方差来确定合适的区间来构造多维向量
a=np.where(content['sentence_len']<(np.mean(content['sentence_len'])+1.5*np.std(content['sentence_len'])))[0]
1.5倍的标准差是个经验参数
这个15分类的问题,准确率至少得多少?
最差得11.16%
绝大部分句子长度在20-30之间
如何选择长度?