解决后发现自己这个问题太傻了,不过为了提醒万一有和我一样犯傻的同学,权当记录。
问题:
numWords = len(array(trainMatrix[0]))
IndexError: index 0 is out of bounds for axis 0 with size 0
尝试:
已经按照网上的尝试,加array,但是怎么都消不掉这个bug,仍报错。
index 0 is out of bounds for axis 0 with size 0
最终找到原因:
因为自己一下子没找到合适的RSS源,就随意用了两个源:
feed0 = feedparser.parse('http://feed.cnblogs.com/blog/u/161528/rss')
feed1 = feedparser.parse('http://feed.cnblogs.com/blog/sitehome/rss')
使得testingSet = 20
而原来的代码中5的地方是20,相当于trainingSet是空呀,所以报了
index 0 is out of bounds for axis 0 with size 0
for i in range(5): #选择多少个作为测试集,这与前期的trainingSet、minLen有关
randIndex = int(random.uniform(0,len(trainingSet)))
testSet.append(trainingSet[randIndex])
del(trainingSet[randIndex])
还是得找到100长度的源至少。
新找到的源:
可以到这里找:http://www.chinadaily.com.cn/rss/index.html
ga = feedparser.parse('http://www.chinadaily.com.cn/rss/china_rss.xml')
pl = feedparser.parse('http://www.chinadaily.com.cn/rss/entertainment_rss.xml')
对比测试了”删除前30高频词“功能的有无,对error rate和速度的影响
有:40s左右,会有0.5的错分率
无:20s左右,错分率在0.2或者0.3左右
后续:应用停用词表