数据驱动、AI驱动工业化数据分析应用实践集锦（上）

最新推荐文章于 2024-02-03 10:27:58 发布

肖永威

最新推荐文章于 2024-02-03 10:27:58 发布

阅读量974

点赞数

分类专栏：数据分析人工智能及Python 文章标签：数据挖掘神经网络深度学习机器学习大数据

本文链接：https://blog.csdn.net/xiaoyw71/article/details/113674550

版权

人工智能及Python 同时被 2 个专栏收录

127 篇文章 41 订阅

订阅专栏

数据分析

97 篇文章 30 订阅

订阅专栏

本文整理了本人近5年来关于大数据、人工智能、数据分析等学习与应用实践博客集锦，文档分为初始大数据人工智能、数据采集与处理、特征工程、算法实践与预测分析、数据可视化、大数据分析技术架构等六大类，内容涵盖云计算、大数据、算法应用和数据可视化等，方便“思维逻辑”分享与交流讨论。

预告稍后梳理内容为大数据人工智能数据分析方法论、统计与算法基础、实践中的小经验等内容。

1. 初识大数据人工智能

1.《人工智能与计算机发展史》 2019年7月

作为近几年的一大热词，人工智能一直是科技圈不可忽视的一大风口。随着智能硬件的迭代，智能家居产品逐步走进千家万户，语音识别、图像识别等AI相关技术也经历了阶梯式发展。如何看待人工智能的本质？人工智能的飞速发展又经历了哪些历程？本文就从技术角度为大家介绍人工智能领域经常提到的几大概念与AI发展简史
冯.诺依曼被称为现代计算机之父。
他设计了经典的冯.诺依曼结构，就是将软件命令和数据素材都存在一起，整…

2.《通过可视化体验人工智能神经网络工具——TensorFlow PlayGround来认识神经网络》 2019年2月

对于学习神经网络的初学者，通过可视化体验人工智能神经网络工具——TensorFlow PlayGround来认识神经网络，是比较直观、便捷的。
在这个工具平台上，能任意设计多层神经网络（有限制，但是不影响学习），例如可以通过设计多层、每层多神经元的网络，模拟出过拟合情况；也可以通过调整学习率、激活函数、正则化等神经网络参数，把书本上的知识点形象化出来。

3.《《大数据时代》读书笔记》 2016年6月

摘录《大数据时代》的内容，并结合国家发展规划，以及实际工作，重新认识到大数据时代的转型。

4.《油田大数据与创新之路的探究》 2017年1月

聚焦到采油工身上，从采油机入手，将是构建油田大数据的切入点，走出一条特色的创新之路。

5.《统计数据及其披露的管理思路（1）-现状分析》 2016年7月

本文介绍企业里统计数据及其披露的业务现状，并梳理里部分过程，分享共同探讨规范化管理思路。

6.《通过客户流失预测案例感悟数据分析设计方法思考——数据驱动、AI驱动》 2021年2月

通过客户流失预测案例感悟数据分析设计方法，正如Gartner于2020年给出数据分析领域的技术趋势，更智能、更高速、更负责的AI，凸显新技术引领业务，数据驱动、AI驱动，以站在高纬度上的预测结果为顶层设计，倒逼数据诊断分析、描述性分析，使业务数据分析线条更清晰，目的更明确。对于大数据分析产品设计，可以采用倒推逻辑方法，也就是在业务机理和需求的范围内，基于现有的数据及仿真数据，使用大数据人工智能技术预测出结论。我们可以再基于预测结论及其过程的输出，采样自顶向下，分类、分层方法设计。

2. 数据采集与处理

1.《Python实现连续图片、多图片多维组合既数据增维和调整维度的案例一则》 2021年1月

针对深度学习连续图片、多图片组合既数据增维和调整维度需求，例如我们在处理深度学习、深度强化学习输入数据时，经常需要调整数据维度，一般使用 Numpy中stack、appand、resize增加或改变图片/数据维度。

2.《基于OpenCV拼接及变换图像增加训练样本》 2019年6月

我们在做深度学习的过程中，经常面临图片样本不足、不平衡的情况，在本文中，作者结合实际工作经验，通过图像的移动、拼接、缩放、旋转、增加噪声等图像变换技术，能快速、简便的增加样本数量。

3.《基于Keras框架对抗神经网络DCGAN实践》 2019年6月

本人作为IT从业者，学习对抗神经网络，以IT视角描述GANs，并使用开源代码资源学习GANs，与实际数据不足工作需求结合，基于Keras框架，通过调整DCGAN网络结构和参数，生成可以以假乱真的数据样本图片。并记录了中间过程中遇到的问题和参考资源，欢迎读者朋友反馈帮忙。

4.《 Pandas（数据表）深入应用经验小结（查询、分组、上下行间计算等）》2020年8月

分享以少量代码，站在Pandas肩膀上，实现大批量Mongo数据读取、数据计算处理等实践案例，以及所遇到的坑。

5.《使用Matplotlib图像化分析数据构建训练集的方法及实践》 2019年3月

用计算机模拟人学习分析图像，首先需要收集待学习的图片，并对图片进行分类管理，对于这些分类需要在计算机文件系统上分别建立目录，把对应分类的图片存储到相应的目录下。
对于训练学习的图片，考虑计算资源及响应速度等要求，要求图片尽可量的小，使用有限的像素表述清楚特征供计算机学习就足够了。
本文重点是完成上述需求，在有限图片尺寸上，表述更多图内容，便于识别分析。

6.《通过Pandas批量快速读取MongoDB数据经验一则》 2020年10月

对于处理读取大批量MongoDB数据的需求，一般采用通过游标分批读取数据，逐批按需求处理数据（数据治理）方案，这样过程思维清晰，缺点是大数据量时速度较慢，而且需要调优游标批量处理量（batch_size），例如我处理读取100万条数据时，耗费我大概5天时间，而直接采用Pandas工具一次性读取MongoDB数据，再后续处理数据，仅仅用时了不到5分钟。

3. 特征工程

基于Python实践工业大数据相关分析有什么用，能给出什么样的结论？相关分析是大数据一个最重要的核心思维，本文重点基于Python，以及Pandas工具实践复相关分析算法，并以实际工业大数据场景回答相关分析的用处和结论。

2.《大数据人工智能常用特征工程与数据预处理Python实践（1）》 2020年12月

基于大数据人工智能和Python工具视角，简明介绍常用的特征工程和过程，在数据清洗中重点实践数据离群值及其工具PyOD，在特征预处理中使用SKlearn重点实践数据归一化与标准化，以及One-Hot编码、数据变换实践。

3.《大数据人工智能常用特征工程与数据预处理Python实践（2）》 2020年12月

以大数据人工智能和Python工具视角，基于常用的特征工程和过程，系统的实践特征提取、特征选择的方法和算法。算法涵盖了统计和机器学习技术，特征提取包括时域特征、派生特征等，特征选择包括特征分析和特征选择，体现了特征工程过程就成为机器学习过程。

4.《特征工程与机器学习在加油卡与车辆号牌关系识别业务上的实践》 2020年12月

本文简明阐述特征工程与机器学习在加油卡与车辆号牌关系识别业务上开发全过程，重点介绍周期性波形特征工程、聚类数据标注、机器学习预测模型是怎么做的，以及实践分析结果。涉及到Tensorflow BP神经网络，XGBoost与随机森林算法使用案例。通过此案例尽量回答如下问题：机器学习、深度学习算法是如何在软件开发过程中应用的？大数据人工智能开发过程又是什么样的呢？大数据人工智能技术能为业务带来什么呢？

获得相关系数有什么用呢？简而言之，有了相关系数，就可以根据回归方程，进行A变量到B变量的估算，这就是所谓的回归分析，因此，相关分析是一种完整的统计研究方法，它贯穿于提出假设，数据研究，数据分析，数据研究的始终。本文基于Pandas实现相关系数及其散点图分析。

4. 算法实践与预测分析

4.1. 聚类实践

《无监督学习——聚类（clustering）算法应用初探》 2019年4月

我们在实际工作中，使用当前信息化资产——历史生产数据进行大数据人工智能研发工作，通过深度学习，虽然取得很好的结果，不过还有专家对此有疑虑，例如数据准确性问题，物联网采集的数据“异常”情况、人工分类失误为数据打上错误的标签等等，对于这些问题，我引入了聚类算法，用以区分正常数据、不正常数据。
本文通过实践，重点描述DBSCAN算法的应用，以及效果，对比Birch和K-Means算法。

4.2. 分类实践

1.《应用XGboost实现多分类模型实践》 2019年4月

本文把XGBoost集成算法模型，应用在工业生产中，分析生产过程数据，提高问题诊断及时率和工作效率。实验学习目标采用XGBoost多分类multi:softprob输出概率，在8000个样本条件下，训练模型，达到62%准确率。本文分享了实验中关键点和填过的坑。

2.《TensorFlow CNN卷积神经网络实现工况图分类识别（一）》 2019年3月

参照LeNet-5模型，把CNN用在工业生产中，分析生产过程数据，提高问题诊断及时率和工作效率。实验采用TensorFlow人工智能架构，搭建3层卷积和三层全连接神经网络，在4000个样本条件下，训练模型，达到80%准确率。本文分享了实验中关键点和填过的坑。

3.《 Python sklearn决策树算法实践》 2018年4月

scikit-learn简称sklearn，支持包括分类、回归、降维和聚类四大机器学习算法。还包含了特征提取、数据处理和模型评估三大模块。sklearn是Scipy科学计算库的扩展，建立在NumPy和matplotlib库的基础上。利用这几大模块的优势，可以大大提高机器学习的效率。

4.《学习基于Keras框架的ResNet网络及实践笔记》 2019年6月

首次使用ResNet和Keras，基于网络上的ResNet50代码实践图片分类，过程中初步了解深度残差网络原理、ResNet50网络模型、Keras框架及相关Tensorflow内容安装，并初步总结训练中学习率和Batch等参数等设置，以及记录部分问题及其处理方法。欢迎读者反馈指点。

5.《XGBoost算法应用入门学习实践》

XGBoost的发起人——陈天奇博士说。XGBoost专注于模型的可解释性，而基于人工神经网络的深度学习，则更关注模型的准确度。XGBoost更适用于变量数较少的表格数据，而深度学习则更适用于图像或其他拥有海量变量的数据

6.《深度强化学习之迷宫DQN（NIPS 2015版）实践笔记——入门提升篇》 2021年1月

本文通过2层神经网络、CNN网络实践DQN深度强化学习，以及扩展连续多张图的多维输入实践，深入了解、掌握DQN。

4.3. 趋势预测

1.《基于Keras的LSTM多变量时间序列股票预测》 2020年4月

2.《XGBoost线性回归工控数据分析实践案例（原生篇）》 2020年8月

以XGBoost原生模型，开发实际工控预测场景实践，过程中分析出检测值精度、业务标注不完整、安全报警与生产过程相互印证等一系列情况。本文第一篇先给出分析模型，XGBoost回归线性模型，以及涉及到参数说明。较为完整内容详见下篇。

3.《XGBoost线性回归工控数据分析实践案例（Sklearn接口篇）》 2020年8月

4.《Tensorflow BP神经网络多输出模型在生产管理中应用实践》 2020年9月

本文以某企业组织建设为研究对象，采用大数据神经网络算法中的BP算法，基于该算法建立了企业组织建设评价模型，最后基于Tensorflow的神经网络开发包实现模型并训练。根据评价结果可评价企业组织建设状况，从而采取相应的预防措施，对今后企业管理有着积极的作用。 .

5.《特征工程与机器学习在加油卡与车辆号牌关系识别业务上的实践》 2020年12月

6.《使用Tensorflow卷积神经网络实现数据分析过程实践》 2021年1月

通过使用Tensorflow卷积神经网络实现数据分析过程实践，让我们深入思考深度学习能为我们省去了手动构造高阶特征的工作量，节省专业人事的投入。而且简单的卷积神经网络进行数据分析就能达到较好的效果。

7.《使用强化学习建立下一个最佳活动（或称行动营销）模型【译文初稿】》 2021年1月

本文是译自griddynamics英文博客，讲述了使用强化学习算法进行客户行为预测分析，案例中详细介绍了客户管理业务及业务数据与强化学习算法中的state、action映射关系，以及实际应用经验。

5. 数据可视化

1.《新入手Vue及ECharts、Tornado，基于vue-element-admin构建大数据可视化21天感想》 2020年11月

21天很快过去了，vue前端，特别是经过vue-element-admin整合后的框架，对于我这样的前端了解者，还是比较容易掌握的，剩下就是熟练应用及经验的积累和提升。做为大数据人工智能开发者，是需要一个前端可视化的工具，把咱们自己后台研究成果展现出来，特别是让人能看懂、理解非常重要。

2.《初步整合vue-element-admin和GitDataV两个Vue开源框架方案实现大数据可视化》 2020年11月

初步整合vue-element-admin和GitDataV两个Vue开源框架方案，实现满足大数据可视化业务需求。

3.《vue-element-admin/template+tornado(pyrestful)前后端分离框架实践（3）——ECharts动态绘制图表及异步加载数据》 2020年11月

本项目基于vue-admin-template做二次开发，参照开源作者花裤衩的建议，首先，从迁移vue-admin-admin上组件做集成开始，实践echart动态加载数据，以及界面布局、背景图等修改，并总结了迁移组件过程中遇到的问题。

4.《Python Matplotlib绘制渐变色柱状图（bar）并加边框和配置渐变颜色条（colorbar）》 2020年9月

模仿相关度热力图，使用Python Matplotlib绘制渐变色柱状图（bar）并加边框和配置渐变颜色条（colorbar）。

5.《Python开发数据可视化前端工具pyecharts实践》 2020年9月

对于大数据分析结果前端可视化展示开发，数据分析者可以使用python开发也能实现，这里推荐方案是使用pyecharts工具实现。

6.《Python Matplotlib绘制多子图准备训练数据和GIF动画实践》 2020年8月

我们程序员、设计人员，按需求辛辛苦苦开发出来的统计图形，往往达不到用户的要求，原因一般是表达不全面，也有内容过多而比较乱，真是众口难调。
现如今，如果把多张图拼成一张图并标注出当前图块，或者，使用时序模型，那么效果将会更好。这是因为，我在做油罐液位数据分析时，看连续一个月的单日集成图，不懂业务的我都看出其运行周期及效率（进出斜率/余弦对比）情况。