机器学习实践 4 朴素贝叶斯

解决后发现自己这个问题太傻了,不过为了提醒万一有和我一样犯傻的同学,权当记录。

问题:

numWords = len(array(trainMatrix[0]))

IndexError: index 0 is out of bounds for axis 0 with size 0

尝试:

已经按照网上的尝试,加array,但是怎么都消不掉这个bug,仍报错。

index 0 is out of bounds for axis 0 with size 0

最终找到原因:

因为自己一下子没找到合适的RSS源,就随意用了两个源:

feed0 = feedparser.parse('http://feed.cnblogs.com/blog/u/161528/rss')
feed1 = feedparser.parse('http://feed.cnblogs.com/blog/sitehome/rss')

使得testingSet = 20

而原来的代码中5的地方是20,相当于trainingSet是空呀,所以报了

index 0 is out of bounds for axis 0 with size 0
for i in range(5):              #选择多少个作为测试集,这与前期的trainingSet、minLen有关
        randIndex = int(random.uniform(0,len(trainingSet)))
        testSet.append(trainingSet[randIndex])
        del(trainingSet[randIndex])

还是得找到100长度的源至少。

新找到的源:

可以到这里找:http://www.chinadaily.com.cn/rss/index.html

ga = feedparser.parse('http://www.chinadaily.com.cn/rss/china_rss.xml')
pl = feedparser.parse('http://www.chinadaily.com.cn/rss/entertainment_rss.xml')

对比测试了”删除前30高频词“功能的有无,对error rate和速度的影响

有:40s左右,会有0.5的错分率

无:20s左右,错分率在0.2或者0.3左右

后续:应用停用词表

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值