Azure MachineLearning Studio 调研(1)——数据类型
一、 数据类型
1、 Dataset(Data Table)
(1)Studio内部使用的格式
(2)已经上载到studio的数据(CSV,ARFF,TSV)都转化为Data Table
(3)只要在实验中的模块使用数据,数据就会隐式转为对象
(4)一个DataTable由具有关联元数据的列集合组成
列(Column types)
Column 被理解为一维数组—即向量
numeric dense arrays :Int,double,Boolean
missing values array /nullable object dense array:missing values(Int,double,Boolean)
object dense arrays:String
nulls/ MissingValuesObjectArray:missing values(String)
所有支持的数据集格式
Dataset
DataTableDotNet
GenericCSV
GenericCSVNoHeader ARFF
GenericTSV
GenericTSVNoHeader
2、ITransform接口
存储一个预定义转换,或对数据应用进行预定义转换
(1) 保存由另一个模块的操作产生的转换
(2) 接受一个预定义的转换
(3) 接受一个dataset
(4) 返回包含转换后数据的DataTable
3、IFilter接口
(1)指定要使用的过滤器,其类型、系数等
(2)将过滤器应用于输入数据
(3)DataTable使用该过滤接口形成新的数据
4、ICluster接口
(1)获取或设置特征属性
(2)从数据中训练聚类模型
(3)将模型用于新数据的训练
5、ILearner接口
(1)确认模型是否具有正确格式
(2)应用模型进行训练
(3)得到/设置该模型的参数