按照《机器学习实战》这书的内容来,稍微总结一下。
数据格式:
数据中的格式应该是 特征1 特征2 特征3 ...类别,中间是tab键分割
1.读文件。
将文件中的数据,特征读到numpy array数组之中,类似于矩阵。特征读到list当中。先读,然后每一行进行处理,处理包括用\t进行分割,然后加到特征数组
特征加到特征的list当中。
#读文件,将文件读到array里。返回一个属性的array[m,n]和一个标签的list
def file2matrix(filename):
fr=open(filename)
arrayOLines=fr.readlines()
numberOfLines=len(arrayOLines)
returnMat=zeros((numberOfLines,3))
classLabelVector=[]
index=0
for line in arrayOLines:
line=line.strip()
listFromLine=line.split('\t')
returnMat[index,:]=listFromLine[0:3]
classLabelVector.append(int(listFromLine[-1]))
index+=1
return returnMat,classLabelVector
2.数据归一化