2015年《大数据》高被引论文Top10文章No.2——大数据时代的数据挖掘 —— 从应用的角度看大数据挖掘(下)...

2015年《大数据》高被引论文Top10文章展示


【编者按】本刊将把2015年《大数据》高被引论文Top10的文章陆续发布,欢迎大家关注!本文为高被引Top10论文的No.2,刊登在2015年第4期。引用格式如下:

李涛, 曾春秋, 周武柏, 等. 大数据时代的数据挖掘——从应用的角度看大数据挖掘[J]. 大数据, 2015041.

LI T, ZENG C Q, ZHOU W B, et al. Data mining in the era of big data: from the application perspective[J]. Big Data Research, 2015041.

李 涛1,2,曾春秋1,2,周武柏1,2,周绮凤3,郑 理1,2

1. 南京邮电大学计算机学院 南京 210023;2. 美国佛罗里达国际大学 迈阿密 33199;

3. 厦门大学自动化系 厦门 361005

摘要:介绍了大数据时代数据挖掘的特点、任务及难点,分析了大数据挖掘的核心架构,提出大数据的核心和本质,即应用、算法、数据和平台4个要素的有机结合。在此基础上介绍了本团队研究设计的大数据挖掘系统FIU-Miner。该系统是一个用户友好并支持在分布式环境中进行高效率计算和算法快速集成的数据挖掘系统平台,使得数据分析人员能够快速有效地进行各类数据挖掘任务。最后,介绍了基于FIU-Miner的3个典型的成功应用案例:高端制造业数据挖掘、空间数据挖掘和商务智能数据挖掘。

关键词:大数据;数据挖掘;FIU-Miner;高端制造业;空间数据挖掘;商务智能

doi: 10.11959/j.issn.2096-0271.2015041

Data mining in the era of big data: from the application perspective

Li Tao1,2, Zeng Chunqiu1,2, Zhou Wubai1,2, Zhou Qifeng3, Zheng Li1,2

1. School of Computer Science & Technology, Nanjing University of Posts and Telecommunications, Nanjing 210023, China;

2. School of Computer Science, Florida International University, Miami 33199, USA;

3. Department of Automation, Xiamen University, Xiamen 361005, China

Abstract: The technical characteristics, tasks, and difficulties of data mining in big data era were introduced. The system architecture of large-scale data mining was analyzed. Then, the developed FIU-Miner which is a fast, integrated, and user-friendly system for data mining, was introduced. FIU-Miner supports user-friendly rapid data mining task configuration, flexible cross-language program integration, and effective resource management in heterogeneous environments. Finally three successful real-world applications of FIU-Miner: advanced manufacturing data mining, spatial data mining, and business intelligence data mining, were presented to demonstrate its efficacy and effectiveness.

Key words: big data, data mining, FIU-Miner, advanced manufacturing, spatial data mining, business intelligence

5  FIU-Miner应用实例二:空间数据挖掘

FIU-Miner 已被成功应用于TerraFlyGeocloud[11],支持多种在线空间数据分析的平台。

5.1  空间数据挖掘

随着卫星科技的发展及移动设备的普及,获取一个对象实时完整的空间信息变得越来越容易。为了能够从中实时性地获取有用信息,需要有效的方法进行空间数据挖掘。空间数据挖掘是从大型空间数据库里发现有趣的、不知道的但非常有价值的模式的一个过程。但由于空间数据类型和空间关系的复杂性,从空间数据库里挖掘有趣和有价值的模式比从传统数据库里挖掘难度更大。

5.2  TerraFlyGeocloud介绍

空间数据挖掘可以应用在很多领域, 包括水资源管理、交通管理、灾难管理、犯罪分析、疾病分析和房地产等。一个典型的空间挖掘系统应支持以下功能:在线的空间数据分析、空间数据可视化和空间数据查询。这里,介绍一个具体的空间数据挖掘系统:美国佛罗里达国际大学(FIU) 计算机学院的高性能数据研究中心实验室开发的TerraFlyGeoCloud 系统。TerraFlyGeoCloud是建立在TerraFly系统之上的、支持多种在线空间数据分析的一个平台。图8和图9分别给出了TerraFlyGeoCloud 的系统界面和工作流程。

0?wx_fmt=png

图8  TerraFlyGeoCloud 系统界面

0?wx_fmt=png

图9  分析工作流程

为了方便使用,TerraFlyGeoCloud 还提供了一种支持类SQL语句的空间数据查询语言MapQL。它不但支持类SQL语句,更重要的是可根据用户的不同要求,渲染和画图查询得到空间数据,比如学校周边一定距离内所有的开放住宅、离某条公路一定距离内所有的宾馆、特定地区的交通情况及不同邮政区域的平均收入情况等。MapQL的实现如图10(a)所示,其中MapQL语句是整个过程的输入,如图10(b)所示,输出则是通过MapQL引擎渲染得到的可视化地图,如图10(c)所示。

下面简要讲述一下使用MapQL的具体过程。如图10(a)所示,第一步语法检查,保证语法符合语法规则,不出现关键字拼写错误;第二步语义检查,确保MapQL 将要访问的数据是正确并存在的。接下来,系统会进行语句解析并把包含样式信息的解析结果存入空间数据库中。样式信息包括“渲染什么”及“在哪渲染”。当所有的样式信息保存入库时, 系统就会为接下来的渲染创建样式配置对象。最后,从空间数据库里加载样式信息,并根据样式信息为每个对象进行渲染。比如想查询佛罗里达国际大学周围的房价,可通过如图10(b)的MapQL语句查询,结果如图10(c)。

0?wx_fmt=png

图10  MapQL的实现、语句查询及可视化地图

MapQL提供了一个比地理信息系统应用程序编程接口(API)更友好的界面,使得开发人员和终端用户能够便捷自如地使用TerraFly地图,同时能够灵活地创建自己的地图。

除了支持地理信息系统的各种应用外,TerraFly平台还有丰富的GIS数据集, 包括美国和加拿大的道路数据、美国人口普查和社会经济数据、1 500万企业的统计和管理记录、200万专业医生的数据、各种公共场所的数据集和全球环境数据等, 用户可以通过TerraFlyGeoCloud浏览、使用和挖掘这些数据集。

5.3 TerraFlyGeocloud使用难点

通过对TerraFlyGeoCloud的进一步使用和研究,发现了如下几个问题。这些问题非常典型,普遍存在于这类空间数据挖掘系统中。

(1)写MapQL查询语句的难度。虽然大多数开发人员熟悉SQL语句,可以很快地写MapQL查询。但对不熟悉SQL的用户而言,学习MapQL还是比较困难的。所以, 对绝大多数用户而言,利用MapQL来完成空间分析任务仍然比较困难。

(2)空间分析任务的复杂性。一个典型的空间分析任务往往涉及几个子任务。此外,这些子任务之间并不是完全独立的。其中一些子任务的输出往往是其他子任务的输入。根据这种依赖关系,一个空间数据分析任务可以自然地表示为一个工作流。但构造和管理这样一个复杂的工作流程是空间数据分析的一个难点。

(3)顺序执行空间数据分析的工作流的效率往往很低。尽管一个工作流中的子任务并不是互相依赖,但这些子任务只能由最终用户来顺序执行。这种顺序执行的方式没有充分利用分布式计算环境来并行执行独立的子任务和优化系统性能。

这3个问题给空间数据挖掘系统带来了很大的局限,限制了用户对系统的有效使用。将FIU-Miner 与TerraFlyGeocloud结合来解决这些问题。首先,根据序列模式挖掘算法从TerraFlyGeoCloud的MapQL查询日志中发现顺序查询模式[11]。然后利用这些顺序查询模式,在FIU-Miner里面构建空间数据分析任务的工作流。最后使用FIU-Miner来最大化子任务的并行执行, 优化工作流的执行效率。

TerraFlyGeocloud+FIU-Miner系统架构如图11所示。主要有4层:用户界面层、地理空间服务层、计算服务层和空间数据存储和管理层。其中,从MapQL的查询日志中挖掘查询模式是一个关键的步骤,这个步骤发生在地理空间服务层。挖掘出的顺序查询模式可以用来产生查询模板和构造空间分析的工作流。序列模式里面的每个查询对应于工作流里面的一个子任务。FIU-Miner在计算服务层,主要负责工作流的构建、管理、调度和执行。

0?wx_fmt=png

图11  TerraFlyGeocloud+FIU-Miner 系统架构

5.4 应用实例

利用FIU-Miner,系统可以通过构建空间数据分析的工作流来优化分析流程, 提高分析效率。下面通过一个详细的房产投资案例来展示[12]

房产投资案例的目的是要寻找具有良好升值潜力的房产。如果一栋房产本身价值很低,但它周围的房产却相对来说比其高,那么对此房产进行投资将是一个非常不错的选择。根据历史查询数据,通过序列模式挖掘,发现这个任务一般有下面几个步骤:

● 计算不同地区的平均价格,比较邻近地区的价格,确定感兴趣的地区;

● 对感兴趣的地区进行空间自相关分析,确定候选地区;

●  验证候选地区罪案率和平均收入, 确定选择结果; 

●  在地图上对结果进行可视化。

这个任务的工作流如图12所示。工作流里面所有的子任务都是由FIU-Miner来调度并在分布式环境中执行的。

0?wx_fmt=png

图12  房产投资案例的工作流程

5.5 应用亮点评述

上述实际案例中,将FIU-Miner应用于空间数据挖掘,解决了空间数据挖掘中写MapQL查询语句困难、空间分析任务复杂性高及顺序执行空间数据分析工作流效率低这3个主要的难题。用户可以轻松地从TerraFlyGeoCloud的MapQL查询日志中发现顺序查询模式,并利用这些顺序查询模式,在FIU-Miner里面构建空间数据分析任务的工作流。最后使用FIU-Miner强大的分布式处理能力,提高工作流的执行效率。

基于FIU-Miner的TerraFlyGeoCloud 在线空间数据挖掘系统,已成功应用于地理(如国土边界、水位图等)、自然(飓风数据分析)、经济(如房产价格分析、人均收入等数据分析)、医疗(肝癌、关节炎等疾病数据分析)、社会(犯罪数据聚类等分析)等众多领域,受到政府、企业、研究机构及个人的极大重视。


6  FIU-Miner应用实例三:库存管理数据挖掘

FIU-Miner作为库存管理数据挖掘平台已被成功应用于企业,成为商务智能数据挖掘应用中一个典范[13]

6.1 库存管理数据挖掘任务

库存管理是指对制造业或服务业生产、经营全过程的各种物品、产品以及其他资源进行管理和控制,使其储备保持在经济合理的水平上。高效、可靠的库存管理可以为制定合理的货物安全库存量和订货量提供可靠的依据,提高企业管理人员的决策质量,从而减小资金的占用和缺货损失,提高企业的经济效益。当今的零售业, 供应商往往需要给不同的地区存储大量的货物,且交易活动复杂频繁,必须提前合理规划好库存方案。现有的库存管理系统(如InFlow和Inventoria)仅仅应用传统的统计分析方法分析现存的库存数据,对当前的库存信息分布进行跟踪监控。进行库存决策时仅考虑单一算法模型,而无法根据综合分析历史数据和市场的实际状况快速做出正确决策方案。因此,如何利用大数据挖掘技术开发智能库存管理平台, 实现高效可靠的库存预测、库存异常检测及库龄分析等任务,成为当前大型零售企业亟需解决的问题。

6.2 库存管理数据挖掘挑战

随着库存管理数据日益庞大,库存管理系统处理问题的难度也在不断攀升。以国内某大型电子消费产品制造企业的两大类电视产品(液晶和等离子)交易为例,其库存管理数据挖掘面临的主要挑战如下。

(1)交易记录繁多:现代大型零售企业业务规模庞大,产生的交易记录繁多,从2011年1月到2013年12月有将近6 000万条,约50 GB数据。

(2)属性关系复杂:库存数据属性繁多,记录中包含种类众多的属性,有将近200个;数据层次繁多,在不同数据维度上,记录可属于不同的层次;库存数据和属性相关性复杂等。

(3)处理速度缓慢:现有数据分析工具大多基于内存,无法加载庞大数据集, 对数据输入格式要求严格,适用性不强, 运行速度慢,无法响应大数据的要求。

因此,现代库存管理需要采用大数据挖掘技术开发高效、可靠、能处理大规模数据的智能库存管理系统。

6.3 具体例子

笔者的研究团队开发了基于FIU-Miner 的智能库存管理系统iMiner[13],该系统为智能库存管理定制了专门的数据挖掘算法,实现了多个功能模块,开发了大规模的数据分析平台系统。

6.3.1 系统概况

图13展示了iMiner系统整体框架、各功能层次和模块。系统自底向上分为物理资源层、任务和系统管理层、数据分析层、用户界面层。该系统分析平台建立在支持高效数据分析的分布式系统——FIU-Miner中。这一分析平台可提供高效率的数据分析处理工作流,并且可以有效地集成多种数据分析工具和语言,如R、Weka、Python、Hadoop等。数据分析层包括了数据预处理和各类数据挖掘算法,其中关键因素提取算法有助于提取对入库/出库量产生较大影响的因素或者对物料异常情况有决定性影响的因素;分布式K 近邻算法有助于查找入库/出库行为相似的物料;分布式回归分析有助于对大盘及具体物料的入库/出库量进行有效预测。

0?wx_fmt=png

图13  iMiner系统架构

系统主要聚焦于库存预测、库存异常检测、库龄挖掘三大核心功能,通过综合评价和集成各种算法的输出使得分析结果更加稳定和准确。用户界面层囊括了多种库存分析结果的展示,用户可以通过属性选择来查看不同的分析结果,也可以通过对个别参数的修改来更新分析结果,实现实时的人机互动。展示结果不仅有列表显示,还提供了各种直观的图表显示,更有利于用户接收到数据整体分布、趋势和关键信息点。

6.3.2 系统功能模块

iMiner主要包含库存预测(inventory forecasting)、库存异常检测(inventory anomaly detection)及库龄分析(inventory aging analysis)三大功能模块,如图14所示。

0?wx_fmt=png

图14  iMiner主要功能模块

(1)库存预测

库存管理中,精确和可信的库存预测是关键。高效、可靠的预测可以大大减少库存负荷,降低额外的货物维护和损耗。库存数据为标准的时序数据,数据量大、时间跨度长、涵盖面广、规律性差。iMiner 采用一种动态预测模型,首先根据历史数据对出库的基数进行预测,而后结合出库数据的长期趋势、周期性因素及事件性因素对基数进行动态调整,从而得到最终的预测结果。

   (2)库存异常检测

对库存指标进行监控而达到异常检测的目的,是库存管理中不可或缺的部分。iMiner提供了多种库存指标的实时监控(如库存周转率、库存周转天数、存销比、周转提升率、库存资金周转率)和不同粒度下的指标查询(如按时间周期包括按周和按月、按指定公司和物料、按指定物料类别和公司、按指定物料类别等)。同时, 系统从库存数据多个角度入手,及时、准确地发现库存的波动;采用相关物料的协同异常判定,使得对于异常结果的判定更有意义,系统还能够同时准确判定整体性指标变化和个别指标异常。

(3)库龄分析

库龄挖掘是为了防止货物积压,提前发现潜在积压货物,减小货物积压投资。iMiner系统利用统计回归模型实现库龄分析,并提供了库龄分析的基本工具和高级工具。基本工具允许用户可视化分析给定货物的库龄分布,比较不同货物中当前的和历史的库龄变化,高级工具能够帮助用户找到与积压相关的货物属性。iMiner系统中,库龄挖掘主要包含了库龄相关分类和标准、库龄计算、库龄金额计算以及安全库存的计算等功能模块。

6.4 应用亮点评述

iMiner是一种新的智能库存管理系统,该系统能够帮助大型供应商实现高效的库存管理,着力解决大数据时代现有库存管理面临的两大关键问题。

(1)大规模库存数据分析

iMiner系统分析平台建立在支持高效数据分析的分布式系统——FIU-Miner中。这一分析平台是在分布式环境中管理所有的交易数据,因此,iMiner能够自动配置和执行大规模库存数据预处理和数据分析任务。

(2)复杂库存任务管理

iMiner结合多种先进的数据挖掘算法来分析库存数据。在实践中,系统采用多种回归模型,结合时间序列分析方法来实现库存预测;运用情境感知异常检测算法来识别异常货物;利用统计回归模型来进行库龄分析。从而实现高效、准确的复杂库存任务管理。

基于FIU-Miner的iMiner商务智能库存管理平台已经应用于企业,成功解决了产品出库预测、指标异常检查、库龄挖掘等对企业产品生产和经济效益有重要影响的实际问题。

7   结束语

大数据的复杂特征对数据挖掘在理论和算法研究方面提出了新的要求和挑战。大数据是现象,核心是挖掘数据中蕴含的潜在信息,并使它们发挥价值。数据挖掘是理论技术和实际应用的完美结合。

本文通过目前业界对大数据的理解和认识,结合笔者及其研究团队多年来对大数据挖掘的深入理论研究及广泛的应用研究,综合凝练出大数据的核心架构, 即大数据挖掘的本质是应用、算法、数据和平台4个要素的有机结合。在此架构下, 从应用的角度重点介绍了研究团队开发的能够快速、有效地进行各类数据挖掘任务的数据挖掘系统FIU-Miner,并具体介绍了基于FIU-M i ner的高端制造业数据挖掘、空间数据挖掘和商务智能数据挖掘3个典型的应用案例。FIU-Miner在这些领域的成功应用也说明了提出的数据挖掘核心架构的效用。


致谢

本文总结介绍了笔者研究团队近几年开展的与大数据相关的部分研究和成果。基于这些研究,给出了对大数据的理解和看法,希望能起到抛砖引玉的目的。在这些相关研究中,笔者研究团队得到了许多人的帮助和机构的资助,在此表示衷心感谢。

首先,要大力感谢长虹集团以及其相关科研人员Bing Duan、Ming Lei、Pengnian Wang、Jun Tang、 Dong Liu。他们不仅为笔者研究团队的科研提供了资助,而且其相关研究人员为笔者研究团队提供了非常多宝贵的专业领域知识指导。

其次,要深深感谢美国佛罗里达国际大学的Knowledge Discovery and Research Group(KDRG)研究组的成员:Dr Lei Li、Dr Yexi Jiang、Mr Wei Xue、Dr Jingxuan Li、Dr Chao Shen、Mr Hongtai Li、Dr Liang Tang、Mr Long Wang和Mr Longhui Zhang。他们在相关的研究及项目中付出了辛勤的劳动,提供了许多宝贵的反馈。

最后,要感谢美国佛罗里达国际大学的Naphtali Rishe教授以及其带领的High Performance Database Research Center (HPDRC)研究组里的成员: Mr Mingjin Zhang、Ms Huibo Wang、Dr Yun Lu、Mr Yudong Guang、Mr Chang Liu和Mr Erik Edrosa。他们在TerrayFlyGeocloud项目上与笔者研究团队开展了非常有成效的合作。

考文献:

[1] 严霄凤, 张德馨. 大数据研究[J]. 计算机技术与发展, 2013, 23(4): 168~172.

YAN X F, ZHANG D X. Big data research[J]. Computer Technology and Development, 2013, 23(4): 168~172.

[2] 李国杰. 对大数据的再认识[J]. 大数据, 2015001.

LI G J. Further understanding of big data[J]. Big Data Research, 2015001.

[3] 李涛. 数据挖掘的应用与实践: 大数据时代的案例分析[D]. 厦门: 厦门大学出版社, 2013.

LI T. Data Mining Where Theory Meets Practice[D]. Xiamen: Xiamen Press, 2013.

[4] HALL M, FRANK E, HOLMES G, et al. The Weka data mining software: an update[J]. SIGKDD Explorations, 2009, 11(1): 10 ~18.

[5] OWEN S, ANIL R, DUNNING T, et al. Mahout in Action[J]. Shelter Island: Manning Publications, 2011.

[6] PREKOPCSAK Z, MAKRAI G, HENK T, et al. Radoop: analyzing big data with rapid mine rand hadoop[C]//Proceedings of Rapid Miner Community Meetingand Conference, Dublin, Ireland, 2011.

[7] YU L, ZHENG J, WU B, et al. Bc-pdm: data mining, social network analysis and text mining system based on cloud computing[C]// Proceedings of the 18th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD’12 ), Beijing, China, 2012.

[8] ZENG C Q, JIANG Y X, ZHENG L, et al. Fiu-Miner: a fast, integrated, and user-friendly system for data mining in distributed environment[C]//Proceedings of the 19th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD’13), Chicago, Illinois, USA, 2013: 1506~1509.

[9] LEI D, HITT M A, GOLDHAR J D. Advanced manufacturing technology: organizational design and strategic flexibility[J]. Organization Studies, 1996, 17(3): 501~523.

[10] ZHENG L, ZENG C Q, LI L, et al. Applying data mining techniques to address critical process optimization needs in advanced manufacturing[C]//Proceedings of the 20th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD’14), New York, USA, 2014: 1739~1748.

[11] ZHANG M J, WANG H B, LU Y, et al. TerraFly GeoCloud: an online spatial data analysis and visualization system[J]. ACM Transactions on Intelligent Systems and Technology (TIST), 2015, 6(3).

[12] ZENG C Q, LI H T, WANG H B, et al. Optimizing online spatial data analysis with sequential query patterns[C]//Proceedings of the 15th IEEE International Conference on Information Reuse and Integration, San Francisco, CA, USA, 2014.

[13] LI L, SHEN C, WANG L, et al. iMiner: mining inventory data for intelligent management[C]//Proceedings of the 23rd ACM International Conference on Information and Knowledge Management, Shanghai, China, 2014.

李涛,男,南京邮电大学计算机学院、软件学院院长,南京邮电大学大数据研究院院长。2004年7月获美国罗彻斯特大学(University of Rochester)计算机科学博士学位,2004-2014年先后任美国佛罗里达国际大学(Florida International University)计算机学院助理教授、副教授(终身教授)、教授(full professor)、研究生主管(graduate program director)。由于在数据挖掘及应用领域成效显著的研究工作,曾多次获得各种荣誉和奖励,其中包括2006年美国国家自然科学基金委颁发的杰出青年教授奖,2010年IBM大规模数据分析创新奖,并于2009年获得佛罗里达国际大学最高学术研究奖。

曾春秋,男,美国佛罗里达国际大学计算机科学博士生,南京邮电大学计算机学院大数据项目组成员。2009年7月—2012年1月为阿里巴巴(中国)网络技术有限公司高级数据工程师。主要研究兴趣包括大规模分布式数据挖掘和系统管理,发表多篇顶级数据挖掘国际期刊和会议论文,参与多本数据挖掘相关应用领域书籍的编写工作。

周武柏,男,美国佛罗里达国际大学计算机科学博士生,南京邮电大学计算机学院大数据项目组成员。主要研究兴趣包括数据挖掘和计算机系统管理,发表多篇顶级数据挖掘国际期刊和会议论文,参与多本数据挖掘相关应用领域书籍的编写工作。

周绮凤,女,博士,厦门大学自动化系副教授。2002年起从事数据挖掘及智能系统方面的研究工作,2014—2015年在美国佛罗里达国际大学访学,主要研究兴趣包括机器学习、数据挖掘及其在可持续发展等领域的应用。

郑理,男,2014年在美国佛罗里达国际大学获得计算机科学博士学位,南京邮电大学计算机学院项目研究员。主要研究兴趣包括信息检索、推荐系统及灾难信息管理,发表多篇顶级数据挖掘国际期刊和会议论文,参与多本数据挖掘相关应用领域书籍编写。

0?wx_fmt=jpeg

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
大数据时代数据挖掘技术(1)全文共4页,当前为第1页。大数据时代数据挖掘技术(1)全文共4页,当前为第1页。大数据时代数据挖掘技术 大数据时代数据挖掘技术(1)全文共4页,当前为第1页。 大数据时代数据挖掘技术(1)全文共4页,当前为第1页。 【摘要】随着大数据时代的到来,在大数据观念不断提出的今天,加强数据大数据挖掘及时的应用已成为大势所趋。那么在这一过程中,我们必须掌握大数据数据挖掘的内涵,并对数据挖掘技术进行分析,从而明确大数据时代数据挖掘技术的应用领域,促进各项数据的处理,提大数据处理能力。 【关键词】大数据时代数据挖掘技术;应用 大数据时代下的数据处理技术要求更,所以要想确保数据处理成效得到提升,就必须切实加强数据挖掘技术的应用,才能更好地促进数据处理职能的转变,提数据处理效率,以下就大数据时代下的数据挖掘技术做出如下分析。 1.大数据数据挖掘的内涵分析 近来,随着云计算和物联网概念的提出,信息技术得到了前所未有的发展,而大数据则是在此基础上对现代信息技术革命的又一次颠覆,所以大数据技术主要是从多种巨量的数据中快速的挖掘和获取有价值的信息技术,因而在云时代的今天,大数据技术已经被我们所关注,所以数据挖掘技术成为最为关键的技术。尤其是在当前在日常信息关联和处理中越来越离不开数据挖掘技术和信息技术的支持。大数据,而主要是对全球的数据量较大的一个概括,且每的数据增长速度较快。而数据挖掘,主要是从多种模糊而又随机、大量而又复杂且不规则的数据中,获得有用的信息知识,从数据库中抽丝剥茧、转换分析,从而掌握其潜在价值与规律[1]。 2.大数据时代数据挖掘技术的核心-分析方法 数据挖掘的过程实际就是对数据进行分析和处理,所以其核心就在于数据的分析方法。要想确保分析方法的科学性,就必须确保所采用算法的科学性和可靠性,获取数据潜在规律,并采取多元化的分析方法促进问题的解决和优化。以下就几种常见的数据分析方法做出简要的说明。 一是归类法,主要是将没有指向和不确定且抽象的数据信息予以集中,并对集中后的 据实施分类整理和编辑处理,从而确保所形成的数据源具有特征一致、表现相同的特点,从而为加强对其的研究提供便利。所以这一分析方法能有效的满足各种数据信息处理。 二是关联法,由于不同数据间存在的关联性较为隐蔽,采取人力往往难以找出其信息特征,所以需要预先结合信息关联的表现,对数据关联管理方案进行制定,从而完成基于某种目的的前提下对信息进行处理,所以其主要是在一些信息处理要求和任务较为复杂的信息处理工作之中。 大数据时代数据挖掘技术(1)全文共4页,当前为第2页。大数据时代数据挖掘技术(1)全文共4页,当前为第2页。三是特征法,由于数据资源的应用范围较广,所以需要对其特征进行挖掘。也就是采用某一种技术,将具有相同特征的数据进行集中。例如采用人工神经网络技术时,主要是对大批量复杂的数据分析,对非常复杂的模式进行抽取或者对其趋势进行分析。而采取遗传算法,则主要是对其他评估算法的适合度进行评估,并结合生物进化的原理,对信息数据的成长过程进行虚拟和假设,从而组建出半虚拟、半真实的信息资源。再如可视化技术则是为数据挖掘提供辅助,采取多种方式对数据的挖掘进行指导和表达[3]。 大数据时代数据挖掘技术(1)全文共4页,当前为第2页。 大数据时代数据挖掘技术(1)全文共4页,当前为第2页。 3.大数据时代数据挖掘技术要点的分析 3.1数据挖掘技术流程分析 在数据挖掘过程中,其技术流程主要是以下几点:首先做好数据准备工作,主要是在挖掘数据之前,就需要对目标数据进行准确的定位,在寻找和挖掘数据之前,必须知道自身所需的数据类型,才能避免数据挖掘的盲目性,在数据准备时,应根据系统的提示进行操作,在数据库中输入检索条件和目标,对数据信息资源进行分类和清理,以及编辑和预处理。其次是在数据挖掘过程中,由于目标数据信息已经被预处理,所以就需要在挖掘处理过程中将其效正确的应用到管理机制之中,因而数据挖掘的过程十分重要,所以必须加强对其的处理。例如在数据挖掘中,我们可以结合数据挖掘目标要求,针对性的选取科学而又合适的计算和分析方法,对数据信息特征与应用价值等进行寻找和归纳。当然,也可以结合程序应用的需要,对数据区域进行固定,并在固定的数据区域内分类的挖掘数据,从而得到更具深度和内涵以及价值的数据信息资源,并就挖掘到的数据结果进行分析和解释,从结果中将具有使用价值和意义的规律进行提取,并还原成便于理解的数据语言。最后是切实加强管理和计算等专业知识的应用,将数据挖掘技术实施中进行的总结和提取所获得的数据信息与评估结果在现实之中应用,从而对某个思想、决策是否正确和科学进行判断,最终体现出数据挖掘及时的应用价值。 3.2挖掘后的数据信息资源分析 若仅仅
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值