About 产量数据选取问题

11月5日《产量数据选取》讨论小结


Boss Min’s text:

1.根据备注信息判断油井工况 -> 形成报表 ->
2.油井操作 (提前两三天)
3.
背景: 仪器稳定性不够好,气量、含水的值不稳定,数据不可靠。需要进行校正。 问题定义: 计量与含水的选用
输入: 一口油井若干天的观测数据,包括结构化(实型、整型);备注数据 一系列专家规则
输出: 两个布尔值
优化目标:
处理方法:备注数据预处理,支持专家规则

问题的阶段
阶段1:独立数据(每天的数据单独计算)
阶段2:考虑前几天和后几天的情况(以及历史规律),进行调整(有一点时序的味道)
阶段3:把周边的油井一起考虑
分井学习的优势:各个井的情况不一样,所以获得的规则不一样,这种方式有个性。
集中学习的优势:数据量更大,见多识广。
先通过实验对不确定性有一个把握。

预测问题: 计量、含水是否选用?

分析:
1.问题是否可采用机器学习方法解决

  • 若输入数据具有数据完整性, 可直接由备注数据、专家规则等信息, 得到一系列的if-then条件, 则可以直接写成“死程序”.
  • 若输入数据有缺失, 那么就需要对缺失值进行处理. 缺失的数据样本数少的情况下, 可考虑直接删除; 若考虑时序原因, 可根据近几天样本的数据均值进行填补; 或采用机器学习方法对缺失值进行预测, 例如随机森林算法等等.

我们所面临的是第二种情况. 那么在经过填补之后, 输入数据的各种属性都是完整的话, 并且在各种规则和条件都存在的情况下, 是否还需要用机器学习方法对标签进行预测呢? 写成“死程序”固然方便, 但“产量预测”是一个非常实际的问题, 还包含许多未知因素, 用机器学习方法来操作其实也是个不错的手段.
对于一个项目来说的话, 还是得看甲方需求 .

2.问题的三阶段 (考虑用机器学习方法)

  • 阶段1: 单口井, 每一天的数据为一个数据样本, 训练数据得到预测模型. 因为样本数也够多, 可以用简单的深层神经网络 (DNN) 来构建模型.
  • 阶段2: 单口井, 考虑数据的关联性, 把最近几天的数据整合为一个数据样本. 如果10天为一个样本, 那么可以考虑取前10天的数据, 或者前5天以及后5天的数据. 由于时序因素, 可以采用循环神经网络 (RNN) 来构建模型.
  • 阶段3: 一个区域的所有井, 单天或者多天数据为一个样本.

在阶段1和2中, 一口井对应一个模型, 即“分井学习”, 保证了每口井的“特殊性”. 因为训练模型需要多个, 训练的代价也比较大.
在阶段3中, 多口井对应一个模型, 即“集中学习”, 保证同区域所有井的“普遍性”, 取消了同区域内每口井的“特殊性”, 但也保证了不同区域内, 井的“特殊性”.

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值