weka中arff格式文件 需要给出特征向量才可读取。NLTK中不需要,但是可以把features转成 向量的形式表示出来。
本人代码设计能力实在太弱,折腾了一上午才调试出来可用的script 是在python下完成的。
""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""
import csv
import re
def replaceTwoOrMore(s):
# pattern to look for three or more repetitions of any character, including 改写如 loveeeeeee的词 为 love
# newlines.
pattern = re.compile(r"(.)\1{1,}", re.DOTALL)
return pattern.sub(r"\1\1", s)
inpfile = open("stopwords.txt", "r") #把读入的tweets去掉 stopwords
line1 = inpfile.readline()
stopW