介绍一款傻瓜式建模工具沙狐。
沙狐是集数据加载、数据探索、模型建设及发布为一体的数据分析工具。
(一)数据加载
数据加载功能目前支持本地文件、远程数据库文件加载等两种方式。可以设置加载文件的的数量以及加载频率等。下面按照本地文件加载举例:
在设置好文件加载路径后自动生成数据加载引擎,后续可以根据这个加载引擎设置数据的加载频率方式等。
点击新增、加载、保存就可以生成一个数据加载的调度,待调度运行后数据就已经加载至内存中了。
通过双击调度窗口,就可以看到对应调度的数据预览。
(二)数据探索
点击数据探索模块,点击数据加载就可以加载调度中的数据,可以进行后续数据探索、样本抽样、
数据转换、变量分箱、变量衍生、相关分析、特征筛选等。
数据探索支持比较常见的数据探索功能,包括描述性统计、缺失值、异常值以及字符类型转换、目标变量定义等
描述性统计分析可以看到变量维度下的数据集情况,如计数、唯一值,最大最小、中位数等。
异常值识别,可以可视化的展现变量异常值分布的盒形图情况。
字符型转换可以把内存占用较高的变量进行优化存储,提高数据处理效率。
目标值定义,该模块可以直接定义目标变量Y以及0-1映射关系等。
变量分箱,目前支持等频分箱方式,可以进行目标变量交互分箱展现等形式,通过变量分箱可以很好的分析变量分段中target分布情况
相关分析可以自动化的生成各变量相关性报告。有利于分析变量之间的影响关系。
一键处理功能是通过系统自动化处理识别变量类别类型的工具。该工具可以进行自动化的缺失值补充、能够把非数值型的变量通过算法自动化转化成模型需要的特征等。
(三)模型建设
通过以下的设置,可以自动化生成模型以及模型评价等指标的展现。
(四)报表展示
通过模型发布功能,发布已经训练好的模型。
软件下载地址见沙狐官网