About 产量数据选取问题

最新推荐文章于 2024-07-25 13:44:23 发布

uodgnez

最新推荐文章于 2024-07-25 13:44:23 发布

阅读量1k

点赞数

分类专栏：其他文章标签：机器学习

本文链接：https://blog.csdn.net/weixin_48320163/article/details/121305819

版权

其他专栏收录该内容

15 篇文章 2 订阅

订阅专栏

11月5日《产量数据选取》讨论小结

Boss Min’s text:

1.根据备注信息判断油井工况 -> 形成报表 ->
2.油井操作 (提前两三天)
3.
背景: 仪器稳定性不够好，气量、含水的值不稳定，数据不可靠。需要进行校正。问题定义: 计量与含水的选用
输入: 一口油井若干天的观测数据，包括结构化（实型、整型）；备注数据一系列专家规则
输出: 两个布尔值
优化目标:
处理方法：备注数据预处理，支持专家规则

问题的阶段
阶段1：独立数据（每天的数据单独计算）
阶段2：考虑前几天和后几天的情况（以及历史规律），进行调整（有一点时序的味道）
阶段3：把周边的油井一起考虑
分井学习的优势：各个井的情况不一样，所以获得的规则不一样，这种方式有个性。
集中学习的优势：数据量更大，见多识广。
先通过实验对不确定性有一个把握。

预测问题: 计量、含水是否选用？

分析:
1.问题是否可采用机器学习方法解决

若输入数据具有数据完整性, 可直接由备注数据、专家规则等信息, 得到一系列的if-then条件, 则可以直接写成“死程序”.
若输入数据有缺失, 那么就需要对缺失值进行处理. 缺失的数据样本数少的情况下, 可考虑直接删除; 若考虑时序原因, 可根据近几天样本的数据均值进行填补; 或采用机器学习方法对缺失值进行预测, 例如随机森林算法等等.

我们所面临的是第二种情况. 那么在经过填补之后, 输入数据的各种属性都是完整的话, 并且在各种规则和条件都存在的情况下, 是否还需要用机器学习方法对标签进行预测呢? 写成“死程序”固然方便, 但“产量预测”是一个非常实际的问题, 还包含许多未知因素, 用机器学习方法来操作其实也是个不错的手段.
对于一个项目来说的话, 还是得看甲方需求 .

2.问题的三阶段 (考虑用机器学习方法)

阶段1: 单口井, 每一天的数据为一个数据样本, 训练数据得到预测模型. 因为样本数也够多, 可以用简单的深层神经网络 (DNN) 来构建模型.
阶段2: 单口井, 考虑数据的关联性, 把最近几天的数据整合为一个数据样本. 如果10天为一个样本, 那么可以考虑取前10天的数据, 或者前5天以及后5天的数据. 由于时序因素, 可以采用循环神经网络 (RNN) 来构建模型.
阶段3: 一个区域的所有井, 单天或者多天数据为一个样本.

在阶段1和2中, 一口井对应一个模型, 即“分井学习”, 保证了每口井的“特殊性”. 因为训练模型需要多个, 训练的代价也比较大.
在阶段3中, 多口井对应一个模型, 即“集中学习”, 保证同区域所有井的“普遍性”, 取消了同区域内每口井的“特殊性”, 但也保证了不同区域内, 井的“特殊性”.

uodgnez

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
About 产量数据选取问题

背景: 仪器稳定性不够好，气量、含水的值不稳定，数据不可靠。需要进行校正。问题定义: 计量与含水的选用输入: 一口油井若干天的观测数据，包括结构化（实型、整型）；备注数据一系列专家规则输出: 两个布尔值优化目标:处理方法：备注数据预处理，支持专家规则问题的阶段阶段1：独立数据（每天的数据单独计算）阶段2：考虑前几天和后几天的情况（
复制链接

扫一扫

专栏目录