头条新闻标题分类——数据分析

这篇博客讨论了在数据分析中为何关注表格横轴和纵轴长度,以及数据的方差和平均值。强调了在向模型送入数据时,向量长度的一致性对加速计算的重要性。此外,提到了数据的方差和平均值在构造多维向量中的作用,并指出在15分类问题中,准确率的最低标准。博主还指出大部分句子长度集中在20-30之间,并讨论了选择长度的影响,以及参数过多可能导致的过拟合问题。
摘要由CSDN通过智能技术生成

开课吧代码实战笔记整理,侵删

为什么要关心表格横轴,纵轴的长度?

因为要把数据送进模型,肯定要把数据向量化,我们需要加速计算的话,我们一次要送进多维向量,那么向量肯定要一样长

为什么要关注数据的方差,平均值?

因为可以利用数据的均值,方差来确定合适的区间来构造多维向量

a=np.where(content['sentence_len']<(np.mean(content['sentence_len'])+1.5*np.std(content['sentence_len'])))[0]

1.5倍的标准差是个经验参数

 这个15分类的问题,准确率至少得多少?

    最差得11.16%

 绝大部分句子长度在20-30之间

 如何选择长度?

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值