数据挖掘基本流程+理论分析+应用场景
内容概述:数据挖掘的流程;数据探索过程;数据的预处理;特征相关性与关联规则;机器学习、深度学习算法。
使用场景:数据挖掘入门
其他说明:理论整理
计量经济学—福建省旅游业发展的影响因素及趋势分析
内容概述:
运用Eviews建立计量经济模型对影响福建省旅游业的因素和发展趋势进行了实证分析。
首先,选取2009-2019年的影响指标对福建省旅游收入进行实证分析,建立多元回归模型,并对模型进行多重共线性检验和修正,且模型通过了异方差和自相关的检验。为防止模型存在伪回归的情况,对模型进行了协整关系分析,确定了最终预测模型。结果表明:福建省游客的人均花费和旅行人数是影响福建省旅游收入的显著因素。
其次,利用1997-2019年的数据建立了指数预测模型和ARMA模型,对福建省旅游收入进行时间序列分析,并对2020年的福建省旅游收入进行外推预测。从预测误差和拟合图可知:实际旅游收入的预测误差和百分比误差都比较小,模型的预测效果相对较好。
最后,基于上述实证分析得出的结论,提出了促进福建省旅游业的发展和提高旅游收入的合理建议与措施,为进一步推动福建省旅游业的发展提供了理论基础和决策依据。
关键词:福建省旅游收入;多元回归模型;ARMA预测模型;Eviews
统计与案例分析:预测油田储层物性的支持向量机模型(SVM)
对收集到测井数据进行去除异常值、插值、标准化、独热编码等数据预处理,分别得到预测储层物性的回归数据及识别储层含油气性的分类数据。
为了预测储层物性孔隙度,本文构建了SVM支持向量机回归模型,并对该网络的BoxConstraint和KernelScale等关键指标进行超参数调整。基于上述模型,采用留一法交叉验证将单个井作为测试集,其余不包含该井的测井数据作为训练集,以此来分析单个井的孔隙度预测结果。
对影响因素数据(除去取值深度)进行主成分分析(PCA),将第一主成分和第二主成分作为SVM支持向量机模型的输入向量序列,以六类流体性质(含油水层、差油层、干层、水层、油层及油水同层)作为标签形成输出向量序列。由于典型的SVM支持向量机只能处理二分类问题,因此本文分别构建了六个SVM分类器。并且利用混淆矩阵、ROC曲线及AUC面积来衡量以上分类模型的性能。
适用方向:统计学及机器学习算法(SVM)的实例应用
关键词:SVM支持向量机;留一法交叉验证;主成分分析;matlab
统计与案例分析:预测油田储层物性的神经网络模型(BP+LSTM)
内容概要:
1、对收集到测井数据进行去除异常值、插值、标准化、独热编码等数据预处理,分别得到预测储层物性的回归数据及识别储层含油气性的分类数据。
2、为了预测储层物性孔隙度,分别构建了BP神经网络和长短期记忆神经网络,并对该网络的隐含层数、学习率衰退因子和RMSE等关键指标进行对比分析及网络拟合度检测。此外,采用留一法交叉验证将单个井作为测试集,其余不包含该井的测井数据作为训练集,以此来分析单个井的孔隙度预测结果。
3、为了识别储层含油气性,分别构建了BP神经网络和循环神经网络(LSTM及Bi-LSTM),并利用混淆矩阵、ROC曲线及AUC面积来衡量以上分类模型的性能。
适用方向:统计学和神经网络方向案例分析
其他说明:附件包含预处理后的数据、BP和LSTM回归模型代码、BP和LSTM和Bi-LSTM分类模型代码,以及所有的分析结果图,并附上完整报告。
测井数据;BP神经网络;循环神经网络;留一法交叉验证;Matlab