2015年《大数据》高被引论文Top10文章No.2——大数据时代的数据挖掘 —— 从应用的角度看大数据挖掘（下）...

最新推荐文章于 2022-03-11 19:57:01 发布

唐名威

最新推荐文章于 2022-03-11 19:57:01 发布

阅读量399

点赞数

原文链接：http://www.j-bigdataresearch.com.cn/CN/10.11959/j.issn.2096-0271.2015041

版权

2015年《大数据》高被引论文Top10文章展示

【编者按】本刊将把2015年《大数据》高被引论文Top10的文章陆续发布，欢迎大家关注！本文为高被引Top10论文的No.2，刊登在2015年第4期。引用格式如下：

李涛, 曾春秋, 周武柏, 等. 大数据时代的数据挖掘——从应用的角度看大数据挖掘[J]. 大数据, 2015041.

LI T, ZENG C Q, ZHOU W B, et al. Data mining in the era of big data: from the application perspective[J]. Big Data Research, 2015041.

李涛^1,2，曾春秋^1,2，周武柏^1,2，周绮凤³，郑理^1,2

1. 南京邮电大学计算机学院南京 210023；2. 美国佛罗里达国际大学迈阿密 33199；

3. 厦门大学自动化系厦门 361005

摘要：介绍了大数据时代数据挖掘的特点、任务及难点，分析了大数据挖掘的核心架构，提出大数据的核心和本质，即应用、算法、数据和平台4个要素的有机结合。在此基础上介绍了本团队研究设计的大数据挖掘系统FIU-Miner。该系统是一个用户友好并支持在分布式环境中进行高效率计算和算法快速集成的数据挖掘系统平台，使得数据分析人员能够快速有效地进行各类数据挖掘任务。最后，介绍了基于FIU-Miner的3个典型的成功应用案例：高端制造业数据挖掘、空间数据挖掘和商务智能数据挖掘。

关键词：大数据；数据挖掘；FIU-Miner；高端制造业；空间数据挖掘；商务智能

doi: 10.11959/j.issn.2096-0271.2015041

Data mining in the era of big data: from the application perspective

Li Tao^1,2, Zeng Chunqiu^1,2, Zhou Wubai^1,2, Zhou Qifeng³, Zheng Li^1,2

1. School of Computer Science & Technology, Nanjing University of Posts and Telecommunications, Nanjing 210023, China;

2. School of Computer Science, Florida International University, Miami 33199, USA;

3. Department of Automation, Xiamen University, Xiamen 361005, China

Abstract: The technical characteristics, tasks, and difficulties of data mining in big data era were introduced. The system architecture of large-scale data mining was analyzed. Then, the developed FIU-Miner which is a fast, integrated, and user-friendly system for data mining, was introduced. FIU-Miner supports user-friendly rapid data mining task configuration, flexible cross-language program integration, and effective resource management in heterogeneous environments. Finally three successful real-world applications of FIU-Miner: advanced manufacturing data mining, spatial data mining, and business intelligence data mining, were presented to demonstrate its efficacy and effectiveness.

Key words: big data, data mining, FIU-Miner, advanced manufacturing, spatial data mining, business intelligence

5 FIU-Miner应用实例二：空间数据挖掘

FIU-Miner 已被成功应用于TerraFlyGeocloud^[11]，支持多种在线空间数据分析的平台。

5.1 空间数据挖掘

随着卫星科技的发展及移动设备的普及，获取一个对象实时完整的空间信息变得越来越容易。为了能够从中实时性地获取有用信息，需要有效的方法进行空间数据挖掘。空间数据挖掘是从大型空间数据库里发现有趣的、不知道的但非常有价值的模式的一个过程。但由于空间数据类型和空间关系的复杂性，从空间数据库里挖掘有趣和有价值的模式比从传统数据库里挖掘难度更大。

5.2 TerraFlyGeocloud介绍

空间数据挖掘可以应用在很多领域，包括水资源管理、交通管理、灾难管理、犯罪分析、疾病分析和房地产等。一个典型的空间挖掘系统应支持以下功能：在线的空间数据分析、空间数据可视化和空间数据查询。这里，介绍一个具体的空间数据挖掘系统：美国佛罗里达国际大学（FIU）计算机学院的高性能数据研究中心实验室开发的TerraFlyGeoCloud 系统。TerraFlyGeoCloud是建立在TerraFly系统之上的、支持多种在线空间数据分析的一个平台。图8和图9分别给出了TerraFlyGeoCloud 的系统界面和工作流程。

0?wx_fmt=png

图8 TerraFlyGeoCloud 系统界面

0?wx_fmt=png

图9 分析工作流程

为了方便使用，TerraFlyGeoCloud 还提供了一种支持类SQL语句的空间数据查询语言MapQL。它不但支持类SQL语句，更重要的是可根据用户的不同要求，渲染和画图查询得到空间数据，比如学校周边一定距离内所有的开放住宅、离某条公路一定距离内所有的宾馆、特定地区的交通情况及不同邮政区域的平均收入情况等。MapQL的实现如图10（a）所示，其中MapQL语句是整个过程的输入，如图10（b）所示，输出则是通过MapQL引擎渲染得到的可视化地图，如图10（c）所示。

下面简要讲述一下使用MapQL的具体过程。如图10（a）所示，第一步语法检查，保证语法符合语法规则，不出现关键字拼写错误；第二步语义检查，确保MapQL 将要访问的数据是正确并存在的。接下来，系统会进行语句解析并把包含样式信息的解析结果存入空间数据库中。样式信息包括“渲染什么”及“在哪渲染”。当所有的样式信息保存入库时，系统就会为接下来的渲染创建样式配置对象。最后，从空间数据库里加载样式信息，并根据样式信息为每个对象进行渲染。比如想查询佛罗里达国际大学周围的房价，可通过如图10（b）的MapQL语句查询，结果如图10（c）。

0?wx_fmt=png

图10 MapQL的实现、语句查询及可视化地图

MapQL提供了一个比地理信息系统应用程序编程接口（API）更友好的界面，使得开发人员和终端用户能够便捷自如地使用TerraFly地图，同时能够灵活地创建自己的地图。

除了支持地理信息系统的各种应用外，TerraFly平台还有丰富的GIS数据集，包括美国和加拿大的道路数据、美国人口普查和社会经济数据、1 500万企业的统计和管理记录、200万专业医生的数据、各种公共场所的数据集和全球环境数据等，用户可以通过TerraFlyGeoCloud浏览、使用和挖掘这些数据集。

5.3 TerraFlyGeocloud使用难点

通过对TerraFlyGeoCloud的进一步使用和研究，发现了如下几个问题。这些问题非常典型，普遍存在于这类空间数据挖掘系统中。

（1）写MapQL查询语句的难度。虽然大多数开发人员熟悉SQL语句，可以很快地写MapQL查询。但对不熟悉SQL的用户而言，学习MapQL还是比较困难的。所以，对绝大多数用户而言，利用MapQL来完成空间分析任务仍然比较困难。

（2）空间分析任务的复杂性。一个典型的空间分析任务往往涉及几个子任务。此外，这些子任务之间并不是完全独立的。其中一些子任务的输出往往是其他子任务的输入。根据这种依赖关系，一个空间数据分析任务可以自然地表示为一个工作流。但构造和管理这样一个复杂的工作流程是空间数据分析的一个难点。

（3）顺序执行空间数据分析的工作流的效率往往很低。尽管一个工作流中的子任务并不是互相依赖，但这些子任务只能由最终用户来顺序执行。这种顺序执行的方式没有充分利用分布式计算环境来并行执行独立的子任务和优化系统性能。

这3个问题给空间数据挖掘系统带来了很大的局限，限制了用户对系统的有效使用。将FIU-Miner 与TerraFlyGeocloud结合来解决这些问题。首先，根据序列模式挖掘算法从TerraFlyGeoCloud的MapQL查询日志中发现顺序查询模式^[11]。然后利用这些顺序查询模式，在FIU-Miner里面构建空间数据分析任务的工作流。最后使用FIU-Miner来最大化子任务的并行执行，优化工作流的执行效率。

TerraFlyGeocloud+FIU-Miner系统架构如图11所示。主要有4层：用户界面层、地理空间服务层、计算服务层和空间数据存储和管理层。其中，从MapQL的查询日志中挖掘查询模式是一个关键的步骤，这个步骤发生在地理空间服务层。挖掘出的顺序查询模式可以用来产生查询模板和构造空间分析的工作流。序列模式里面的每个查询对应于工作流里面的一个子任务。FIU-Miner在计算服务层，主要负责工作流的构建、管理、调度和执行。

0?wx_fmt=png

图11 TerraFlyGeocloud+FIU-Miner 系统架构

5.4 应用实例

利用FIU-Miner，系统可以通过构建空间数据分析的工作流来优化分析流程，提高分析效率。下面通过一个详细的房产投资案例来展示^[12]。

房产投资案例的目的是要寻找具有良好升值潜力的房产。如果一栋房产本身价值很低，但它周围的房产却相对来说比其高，那么对此房产进行投资将是一个非常不错的选择。根据历史查询数据，通过序列模式挖掘，发现这个任务一般有下面几个步骤：

● 计算不同地区的平均价格，比较邻近地区的价格，确定感兴趣的地区；

● 对感兴趣的地区进行空间自相关分析，确定候选地区；

● 验证候选地区罪案率和平均收入，确定选择结果；　

● 在地图上对结果进行可视化。

这个任务的工作流如图12所示。工作流里面所有的子任务都是由FIU-Miner来调度并在分布式环境中执行的。

0?wx_fmt=png

图12 房产投资案例的工作流程

5.5 应用亮点评述

上述实际案例中，将FIU-Miner应用于空间数据挖掘，解决了空间数据挖掘中写MapQL查询语句困难、空间分析任务复杂性高及顺序执行空间数据分析工作流效率低这3个主要的难题。用户可以轻松地从TerraFlyGeoCloud的MapQL查询日志中发现顺序查询模式，并利用这些顺序查询模式，在FIU-Miner里面构建空间数据分析任务的工作流。最后使用FIU-Miner强大的分布式处理能力，提高工作流的执行效率。

基于FIU-Miner的TerraFlyGeoCloud 在线空间数据挖掘系统，已成功应用于地理（如国土边界、水位图等）、自然（飓风数据分析）、经济（如房产价格分析、人均收入等数据分析）、医疗（肝癌、关节炎等疾病数据分析）、社会（犯罪数据聚类等分析）等众多领域，受到政府、企业、研究机构及个人的极大重视。

6 FIU-Miner应用实例三：库存管理数据挖掘

FIU-Miner作为库存管理数据挖掘平台已被成功应用于企业，成为商务智能数据挖掘应用中一个典范^[13]。

6.1 库存管理数据挖掘任务

库存管理是指对制造业或服务业生产、经营全过程的各种物品、产品以及其他资源进行管理和控制，使其储备保持在经济合理的水平上。高效、可靠的库存管理可以为制定合理的货物安全库存量和订货量提供可靠的依据，提高企业管理人员的决策质量，从而减小资金的占用和缺货损失，提高企业的经济效益。当今的零售业，供应商往往需要给不同的地区存储大量的货物，且交易活动复杂频繁，必须提前合理规划好库存方案。现有的库存管理系统（如InFlow和Inventoria）仅仅应用传统的统计分析方法分析现存的库存数据，对当前的库存信息分布进行跟踪监控。进行库存决策时仅考虑单一算法模型，而无法根据综合分析历史数据和市场的实际状况快速做出正确决策方案。因此，如何利用大数据挖掘技术开发智能库存管理平台，实现高效可靠的库存预测、库存异常检测及库龄分析等任务，成为当前大型零售企业亟需解决的问题。

6.2 库存管理数据挖掘挑战

随着库存管理数据日益庞大，库存管理系统处理问题的难度也在不断攀升。以国内某大型电子消费产品制造企业的两大类电视产品（液晶和等离子）交易为例，其库存管理数据挖掘面临的主要挑战如下。

（1）交易记录繁多：现代大型零售企业业务规模庞大，产生的交易记录繁多，从2011年1月到2013年12月有将近6 000万条，约50 GB数据。

（2）属性关系复杂：库存数据属性繁多，记录中包含种类众多的属性，有将近200个；数据层次繁多，在不同数据维度上，记录可属于不同的层次；库存数据和属性相关性复杂等。

（3）处理速度缓慢：现有数据分析工具大多基于内存，无法加载庞大数据集，对数据输入格式要求严格，适用性不强，运行速度慢，无法响应大数据的要求。

因此，现代库存管理需要采用大数据挖掘技术开发高效、可靠、能处理大规模数据的智能库存管理系统。

6.3 具体例子

笔者的研究团队开发了基于FIU-Miner 的智能库存管理系统iMiner^[13]，该系统为智能库存管理定制了专门的数据挖掘算法，实现了多个功能模块，开发了大规模的数据分析平台系统。

6.3.1 系统概况

图13展示了iMiner系统整体框架、各功能层次和模块。系统自底向上分为物理资源层、任务和系统管理层、数据分析层、用户界面层。该系统分析平台建立在支持高效数据分析的分布式系统——FIU-Miner中。这一分析平台可提供高效率的数据分析处理工作流，并且可以有效地集成多种数据分析工具和语言，如R、Weka、Python、Hadoop等。数据分析层包括了数据预处理和各类数据挖掘算法，其中关键因素提取算法有助于提取对入库/出库量产生较大影响的因素或者对物料异常情况有决定性影响的因素；分布式K 近邻算法有助于查找入库/出库行为相似的物料；分布式回归分析有助于对大盘及具体物料的入库/出库量进行有效预测。

0?wx_fmt=png

图13 iMiner系统架构

系统主要聚焦于库存预测、库存异常检测、库龄挖掘三大核心功能，通过综合评价和集成各种算法的输出使得分析结果更加稳定和准确。用户界面层囊括了多种库存分析结果的展示，用户可以通过属性选择来查看不同的分析结果，也可以通过对个别参数的修改来更新分析结果，实现实时的人机互动。展示结果不仅有列表显示，还提供了各种直观的图表显示，更有利于用户接收到数据整体分布、趋势和关键信息点。

6.3.2 系统功能模块

iMiner主要包含库存预测（inventory forecasting）、库存异常检测（inventory anomaly detection）及库龄分析（inventory aging analysis）三大功能模块，如图14所示。

0?wx_fmt=png

图14 iMiner主要功能模块

（1）库存预测

库存管理中，精确和可信的库存预测是关键。高效、可靠的预测可以大大减少库存负荷，降低额外的货物维护和损耗。库存数据为标准的时序数据，数据量大、时间跨度长、涵盖面广、规律性差。iMiner 采用一种动态预测模型，首先根据历史数据对出库的基数进行预测，而后结合出库数据的长期趋势、周期性因素及事件性因素对基数进行动态调整，从而得到最终的预测结果。

（2）库存异常检测

对库存指标进行监控而达到异常检测的目的，是库存管理中不可或缺的部分。iMiner提供了多种库存指标的实时监控（如库存周转率、库存周转天数、存销比、周转提升率、库存资金周转率）和不同粒度下的指标查询（如按时间周期包括按周和按月、按指定公司和物料、按指定物料类别和公司、按指定物料类别等）。同时，系统从库存数据多个角度入手，及时、准确地发现库存的波动；采用相关物料的协同异常判定，使得对于异常结果的判定更有意义，系统还能够同时准确判定整体性指标变化和个别指标异常。

（3）库龄分析

库龄挖掘是为了防止货物积压，提前发现潜在积压货物，减小货物积压投资。iMiner系统利用统计回归模型实现库龄分析，并提供了库龄分析的基本工具和高级工具。基本工具允许用户可视化分析给定货物的库龄分布，比较不同货物中当前的和历史的库龄变化，高级工具能够帮助用户找到与积压相关的货物属性。iMiner系统中，库龄挖掘主要包含了库龄相关分类和标准、库龄计算、库龄金额计算以及安全库存的计算等功能模块。

6.4 应用亮点评述

iMiner是一种新的智能库存管理系统，该系统能够帮助大型供应商实现高效的库存管理，着力解决大数据时代现有库存管理面临的两大关键问题。

（1）大规模库存数据分析

iMiner系统分析平台建立在支持高效数据分析的分布式系统——FIU-Miner中。这一分析平台是在分布式环境中管理所有的交易数据，因此，iMiner能够自动配置和执行大规模库存数据预处理和数据分析任务。

（2）复杂库存任务管理

iMiner结合多种先进的数据挖掘算法来分析库存数据。在实践中，系统采用多种回归模型，结合时间序列分析方法来实现库存预测；运用情境感知异常检测算法来识别异常货物；利用统计回归模型来进行库龄分析。从而实现高效、准确的复杂库存任务管理。

基于FIU-Miner的iMiner商务智能库存管理平台已经应用于企业，成功解决了产品出库预测、指标异常检查、库龄挖掘等对企业产品生产和经济效益有重要影响的实际问题。

7 结束语

大数据的复杂特征对数据挖掘在理论和算法研究方面提出了新的要求和挑战。大数据是现象，核心是挖掘数据中蕴含的潜在信息，并使它们发挥价值。数据挖掘是理论技术和实际应用的完美结合。

本文通过目前业界对大数据的理解和认识，结合笔者及其研究团队多年来对大数据挖掘的深入理论研究及广泛的应用研究，综合凝练出大数据的核心架构，即大数据挖掘的本质是应用、算法、数据和平台4个要素的有机结合。在此架构下，从应用的角度重点介绍了研究团队开发的能够快速、有效地进行各类数据挖掘任务的数据挖掘系统FIU-Miner，并具体介绍了基于FIU-M i ner的高端制造业数据挖掘、空间数据挖掘和商务智能数据挖掘3个典型的应用案例。FIU-Miner在这些领域的成功应用也说明了提出的数据挖掘核心架构的效用。

致谢

本文总结介绍了笔者研究团队近几年开展的与大数据相关的部分研究和成果。基于这些研究，给出了对大数据的理解和看法，希望能起到抛砖引玉的目的。在这些相关研究中，笔者研究团队得到了许多人的帮助和机构的资助，在此表示衷心感谢。

首先，要大力感谢长虹集团以及其相关科研人员Bing Duan、Ming Lei、Pengnian Wang、Jun Tang、 Dong Liu。他们不仅为笔者研究团队的科研提供了资助，而且其相关研究人员为笔者研究团队提供了非常多宝贵的专业领域知识指导。

其次，要深深感谢美国佛罗里达国际大学的Knowledge Discovery and Research Group（KDRG）研究组的成员：Dr Lei Li、Dr Yexi Jiang、Mr Wei Xue、Dr Jingxuan Li、Dr Chao Shen、Mr Hongtai Li、Dr Liang Tang、Mr Long Wang和Mr Longhui Zhang。他们在相关的研究及项目中付出了辛勤的劳动，提供了许多宝贵的反馈。

最后，要感谢美国佛罗里达国际大学的Naphtali Rishe教授以及其带领的High Performance Database Research Center （HPDRC）研究组里的成员: Mr Mingjin Zhang、Ms Huibo Wang、Dr Yun Lu、Mr Yudong Guang、Mr Chang Liu和Mr Erik Edrosa。他们在TerrayFlyGeocloud项目上与笔者研究团队开展了非常有成效的合作。

参考文献：

[1] 严霄凤, 张德馨. 大数据研究[J]. 计算机技术与发展, 2013, 23(4): 168~172.

YAN X F, ZHANG D X. Big data research[J]. Computer Technology and Development, 2013, 23(4): 168~172.

[2] 李国杰. 对大数据的再认识[J]. 大数据, 2015001.

LI G J. Further understanding of big data[J]. Big Data Research, 2015001.

[3] 李涛. 数据挖掘的应用与实践: 大数据时代的案例分析[D]. 厦门: 厦门大学出版社, 2013.

LI T. Data Mining Where Theory Meets Practice[D]. Xiamen: Xiamen Press, 2013.

[4] HALL M, FRANK E, HOLMES G, et al. The Weka data mining software: an update[J]. SIGKDD Explorations, 2009, 11(1): 10 ~18.

[5] OWEN S, ANIL R, DUNNING T, et al. Mahout in Action[J]. Shelter Island: Manning Publications, 2011.

[6] PREKOPCSAK Z, MAKRAI G, HENK T, et al. Radoop: analyzing big data with rapid mine rand hadoop[C]//Proceedings of Rapid Miner Community Meetingand Conference, Dublin, Ireland, 2011.

[7] YU L, ZHENG J, WU B, et al. Bc-pdm: data mining, social network analysis and text mining system based on cloud computing[C]// Proceedings of the 18th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD’12 ), Beijing, China, 2012.

[8] ZENG C Q, JIANG Y X, ZHENG L, et al. Fiu-Miner: a fast, integrated, and user-friendly system for data mining in distributed environment[C]//Proceedings of the 19th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD’13), Chicago, Illinois, USA, 2013: 1506~1509.

[9] LEI D, HITT M A, GOLDHAR J D. Advanced manufacturing technology: organizational design and strategic flexibility[J]. Organization Studies, 1996, 17(3): 501~523.

[10] ZHENG L, ZENG C Q, LI L, et al. Applying data mining techniques to address critical process optimization needs in advanced manufacturing[C]//Proceedings of the 20th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD’14), New York, USA, 2014: 1739~1748.

[11] ZHANG M J, WANG H B, LU Y, et al. TerraFly GeoCloud: an online spatial data analysis and visualization system[J]. ACM Transactions on Intelligent Systems and Technology (TIST), 2015, 6(3).

[12] ZENG C Q, LI H T, WANG H B, et al. Optimizing online spatial data analysis with sequential query patterns[C]//Proceedings of the 15th IEEE International Conference on Information Reuse and Integration, San Francisco, CA, USA, 2014.

[13] LI L, SHEN C, WANG L, et al. iMiner: mining inventory data for intelligent management[C]//Proceedings of the 23rd ACM International Conference on Information and Knowledge Management, Shanghai, China, 2014.

李涛，男，南京邮电大学计算机学院、软件学院院长，南京邮电大学大数据研究院院长。2004年7月获美国罗彻斯特大学（University of Rochester）计算机科学博士学位，2004-2014年先后任美国佛罗里达国际大学（Florida International University）计算机学院助理教授、副教授（终身教授）、教授（full professor）、研究生主管（graduate program director）。由于在数据挖掘及应用领域成效显著的研究工作，曾多次获得各种荣誉和奖励，其中包括2006年美国国家自然科学基金委颁发的杰出青年教授奖，2010年IBM大规模数据分析创新奖，并于2009年获得佛罗里达国际大学最高学术研究奖。

曾春秋，男，美国佛罗里达国际大学计算机科学博士生，南京邮电大学计算机学院大数据项目组成员。2009年7月—2012年1月为阿里巴巴（中国）网络技术有限公司高级数据工程师。主要研究兴趣包括大规模分布式数据挖掘和系统管理，发表多篇顶级数据挖掘国际期刊和会议论文，参与多本数据挖掘相关应用领域书籍的编写工作。

周武柏，男，美国佛罗里达国际大学计算机科学博士生，南京邮电大学计算机学院大数据项目组成员。主要研究兴趣包括数据挖掘和计算机系统管理，发表多篇顶级数据挖掘国际期刊和会议论文，参与多本数据挖掘相关应用领域书籍的编写工作。

周绮凤，女，博士，厦门大学自动化系副教授。2002年起从事数据挖掘及智能系统方面的研究工作，2014—2015年在美国佛罗里达国际大学访学，主要研究兴趣包括机器学习、数据挖掘及其在可持续发展等领域的应用。

郑理，男，2014年在美国佛罗里达国际大学获得计算机科学博士学位，南京邮电大学计算机学院项目研究员。主要研究兴趣包括信息检索、推荐系统及灾难信息管理，发表多篇顶级数据挖掘国际期刊和会议论文，参与多本数据挖掘相关应用领域书籍编写。

0?wx_fmt=jpeg

唐名威

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
2015年《大数据》高被引论文Top10文章No.2——大数据时代的数据挖掘 —— 从应用的角度看大数据挖掘（下）...

2015年《大数据》高被引论文Top10文章展示【编者按】本刊将把2015年《大数据》高被引论文Top10的文章陆续发布，欢迎大家关注！本文为高被引Top10论文的No....
复制链接

扫一扫