本文接上一篇使用时间序列分解模型预测商品销量———数据预处理
发表本博客的目的在于记录笔记,分享经验,无其他任何目的
2.1 数据预处理
这一步将会使用PAI中的四个组件:
“源/目标”–“读数据表”:从MaxCompute读取数据表至PAI;
“工具”–“SQL脚本”:可通过SQL脚本编辑器编写SQL语句;
“数据预处理”–“拆分”:可以对数据按比例或按阀值进行拆分;
“数据预处理”–“缺失值填充”:可以对数据的缺失值进行均值、中位数或按特定规则进行填充。
该实验需要使用的数据:
链接:https://pan.baidu.com/s/1LoDAfH3snlyIxYB6ueaTnA
提取码:37h8
下面我们创建数据源表,在DataWorks开发环境,新建一个ODPS SQL 操作节点
输入名字(自定义),点击“提交”按钮:
输入建表语句,点击运行:
建表语句:
CREATE TABLE transaction_details
(
TRANSACTION_ID string,
TRANS_DT datetime,
STORE_ID string,
CUSTOMER_ID string,
PRODUCT_ID string,
DEP string,
SUBDEP string,
CAT string,
SUBCAT string,
QUANTITY int,
UNIT_COST double,
UNIT_PRICE double,
FEATURE string
);
输入“select * from transaction_details limit 1;”,选中输入语句并执行,如图就表明创建成功
返回DataWorks的“数据开发”菜单,在界面单击“导入”箭头图标:
选择配置刚建的表“transaction_details”,点击“下一步”,配置数据源相关参数:
选择源和目标字段匹配方式,本实验可选择“按名称匹配”点击“导入数据”按钮
检查数据
2.导入实验数据
接下来的实验还需要进入机器学习平台,可以单击左上角菜单,进入“产品与服务”,选择“大数据(数加)”下的“机器学习PAI”,进入机器学习的控制台。