本部分延续上一篇的研究,接着2个方法:AddExpression,MathExpression
AddExpression过滤器是通过将一个数学函数应用于数值型属性而生成1个新的属性。
其中,可以支持+、-、*、/、和^,函数log、abs、cos、exp、sqrt、floor、ceil、rint、tan、sin,属性通过索引加前缀a确定,例如a7表示第7个属性;
MathExpression过滤器与AddExpression过滤器类似,该过滤器只是修改现有属性,不创建新属性。所以,该表达式不能引用其他属性的值。
所有AddExpression过滤器的操作符都可以用,还包括属性的最大值、最小值、平均值、和、平方和、标准差。
具体差异看代码:
import java.io.BufferedReader;
import java.io.FileReader;
import java.io.IOException;
import weka.core.Instances;
import weka.filters.unsupervised.attribute.AddExpression;
import weka.filters.unsupervised.attribute.MathExpression;
public class Expression_test {
public static void main(String[] args) throws IOException, Exception {
// 读入数据
Instances data=new Instances(new BufferedReader
(new FileReader("data\\weather.numeric.arff")));
System.out.println("===========原始数据============");
for(int i=0;i<data.numInstances();i++)
System.out.println(data.instance(i));
System.out.println();
System.out.println("=======AddExpression:sqrt(a2^2*a3/log(a2*4.0))===");
// 1,选择AddExpression类,设置实例的参数
AddExpression addexp=new AddExpression();
/*
* AddExpression类是新建属性的
* -E 表示 输入的公式
* -N 表示新建属性的属性名
*/
addexp.setOptions(new String[]{"-E","sqrt(a2^2*a3/log(a2*4.0))","-N","exp"});
addexp.setInputFormat(data);
Instances newdata=weka.filters.Filter.useFilter(data, addexp);
for(int i=0;i<newdata.numInstances();i++)
System.out.println(newdata.instance(i));
System.out.println();
System.out.println("=======AddExpression:(A-MIN)/(MAX-MIN)===");
// 2,选择MathExpression类,设置实例的参数
MathExpression mathexp=new MathExpression();
/*
* MathExpression类是直接改原字段的,全部数值字段都会被转换
* -E 表示 输入的公式
* A 表示当前使用的列
* MAX 表示当前使用的列的最大值
* A2 表示第二列
*/
mathexp.setOptions(new String[]{"-E","(A-MIN)/(MAX-MIN)"});
mathexp.setInputFormat(data);
newdata=weka.filters.Filter.useFilter(data, mathexp);
for(int i=0;i<newdata.numInstances();i++)
System.out.println(newdata.instance(i));
System.out.println();
System.out.println("========MathExpression:A2-MIN=========");
// 3,选择MathExpression类,继续试验公式输入
mathexp.setOptions(new String[]{"-E","A2-MIN"});
/*
* A2 表示第2个字段列
* MIN 表示当前使用的列的最大值(必须大写)
* 含义为:每列都以 A2去减去该列最小值 计算
* 比如:第2列最小值为64,第三列最小值为65,那么第3列计算替换的方法为使用A2-min(A3)
* 注:这个方法只有3.6weka以前版本没有
*/
mathexp.setInputFormat(data);
newdata=weka.filters.Filter.useFilter(data, mathexp);
for(int i=0;i<newdata.numInstances();i++)
System.out.println(newdata.instance(i));
}
}