机器学习实践 4 朴素贝叶斯

最新推荐文章于 2022-09-06 15:45:02 发布

黑衣骑士兴

最新推荐文章于 2022-09-06 15:45:02 发布

阅读量186

点赞数

分类专栏： troubleshooting 文章标签： RSS源训练集错误率停用词表信息处理

本文链接：https://blog.csdn.net/weixin_52120741/article/details/119708364

版权

troubleshooting 专栏收录该内容

17 篇文章 0 订阅

订阅专栏

解决后发现自己这个问题太傻了，不过为了提醒万一有和我一样犯傻的同学，权当记录。

问题：

numWords = len(array(trainMatrix[0]))

IndexError: index 0 is out of bounds for axis 0 with size 0

尝试：

已经按照网上的尝试，加array，但是怎么都消不掉这个bug，仍报错。

index 0 is out of bounds for axis 0 with size 0

最终找到原因：

因为自己一下子没找到合适的RSS源，就随意用了两个源：

feed0 = feedparser.parse('http://feed.cnblogs.com/blog/u/161528/rss')
feed1 = feedparser.parse('http://feed.cnblogs.com/blog/sitehome/rss')

使得testingSet = 20

而原来的代码中5的地方是20，相当于trainingSet是空呀，所以报了

index 0 is out of bounds for axis 0 with size 0

for i in range(5):              #选择多少个作为测试集，这与前期的trainingSet、minLen有关
        randIndex = int(random.uniform(0,len(trainingSet)))
        testSet.append(trainingSet[randIndex])
        del(trainingSet[randIndex])

还是得找到100长度的源至少。

新找到的源:

可以到这里找：http://www.chinadaily.com.cn/rss/index.html

ga = feedparser.parse('http://www.chinadaily.com.cn/rss/china_rss.xml')
pl = feedparser.parse('http://www.chinadaily.com.cn/rss/entertainment_rss.xml')

对比测试了”删除前30高频词“功能的有无，对error rate和速度的影响

有：40s左右，会有0.5的错分率

无：20s左右，错分率在0.2或者0.3左右

后续：应用停用词表