看全网的转libsvm格式的方法,大都使用FormatDataLibsvm.xls这个过程实现。本人觉得麻烦,直接写了一个函数,可以直接在python内使用。输入TXT文本的格式如下
输出dataMat,labelMat两个返回值,就可以作为样本属性和样本标记直接使用libsvm的svm_train函数和svm_predict函数,不再需要使用svm_read_problem函数。代码如下
#普通csv文件转换为libsvm文件
def loadDataSet_libsvm(fileName):
dataMat = []; labelMat = []; L1=[];L2=[]
fr = open(fileName)
for line in fr.readlines():
lineArr = line.strip().split('\t')
m=(len(lineArr))
labelMat.append(float(lineArr[m-1]))
for i in range(m-1):
L1.append(i)
L2.append(float(lineArr[i]))
d1=zip(L1,L2)
d=dict(d1)
dataMat.append(d)
L1=[];L2=[]
return dataMat,labelMat
顺带附使用该代码进行libsvm操作