基于Apriori算法的高职大学生就业能力的研究

最新推荐文章于 2024-11-29 15:31:07 发布

原创

最新推荐文章于 2024-11-29 15:31:07 发布 · 6.9k 阅读

43 ·

CC 4.0 BY-SA版权

文章标签：

#Apriori #大学生就业

本文研究了基于Apriori算法的高职大学生就业能力分析系统，探讨了数据挖掘技术在解决高校毕业生就业问题中的作用。通过对高职院校学生就业数据的挖掘，发现学生就业能力与产业结构之间的关联规则，揭示了专业设置与就业产业的紧密联系，尤其指出第三产业是毕业生的主要就业方向。通过对数据的深入分析，为高校就业指导提供决策依据，有助于提升高职院校毕业生的就业率和就业质量。

引言

最近在写关于Apriori算法的研究论文，这一部分分享出来给大家研究。

摘要

近几年来,随着高校扩招规模不断地扩大,每年都有大量的应届毕业生面临就业问题,高校就业指导工作就显得尤为重要。对于高校而言,毕业生的就业率成为评估高校办学水平和学校社会声誉的重要指标,就业率低下将成为影响高校生存发展的制约因素。在高校就业指导部门的就业管理信息系统中积累了大量的、重要的学生就业信息资源，虽然大多数就业管理系统具有管理和分析功能,但是这些就业管理系统大多是面向业务操作而设计的,不能对这些数据所包含的内在信息和规律、趋势进行提取和分析,更不能提供重要的决策信息。随着学生数量、就业行业、影响就业因素的多元化和就业管理的提高,高校管理者对毕业生就业趋势的预测以及学生培养模式的改进越来越多的依赖于毕业生就业信息分析的结果。随着近十几年高校大规模扩招，大学生的就业问题在我国已经成为非常严峻的社会热点问题，同时也成为教育工作者比较关注的现实问题。如果我们想要缓解大学生的就业问题，那么首先要解决关于大学生的就业能力方面的培养问题，通过对国内外大学生就业能力问题的考察，探索大学生就业能力问题的最佳解决方案，从而找出束缚大学生就业的真正原因。

关键词：大学生就业;产业结构;关联规则;Apriori算法；支持度

第一章绪论

1.1背景

本节将从高职院校学生的特点、就业状况、研究技术等方面来介绍高职学生就业的研究背景。

1.1.1 高职院校学生特点

随着经济技术的发展，我国高等教育也处于大众化发展时期，人们开始对高等教育有了更多的关注和更进一步的认识。从1999年开始，我国高校连续五年进行了大规模的扩招，在高等教育的各个层次中，高职教育也得到了迅速发展，其中包括专科和本科两个学历教育层次。相对于普通高等教育培养学术型人才而言，高等职业教育偏重于培养高等技术应用型人才。

1.1.2 高职院校学生就业状况

高等教育的大众化发展使得全国大部分高等学校均根据自身情况进行了不同程度的扩招，再加上要面临每年倍增的劳动与技术密集型就业大军的竞争，因而造成了如今高校毕业生的就业形势愈来愈严峻。大学毕业生就业难正逐渐成为一个不可忽视的社会难题，但总体来说我国的人才需求总量却是匮乏的。据人力资源和社会保障部与教育部数据统计显示，目前每年（2006-2012）社会新增就业机会大约1100万至1200万个，而每年（2006-2012）大学生毕业人数则大约在600万左右,2012年更是超过了680万［１］。
针对上述数据比较而言，大学毕业生应当还是有比较大的就业空间。但我国在疏通渠道和就业服务上有明显不足，也有很大拓展空间。对高校而言，各高校在大学生就业指导方面，尽管逐年累月积累的就业指导模式已比较全面,但都显得比较形式化与固定化，依旧很难满足高校对就业指导内容的需求。《国家中长期教育改革和发展规划纲要》［２］（2010-2020年）中提到：“适应国家和区域经济社会发展需要……重点扩大应用型、复合型、技能型人才培养规模……”。
《重庆市中长期城乡教育改革和发展规划纲要（2010—2020）》［３］也同时指出，要加强就业指导和职业生涯规划教育，引导毕业生树立正确的就业择业观念。拓宽就业渠道，促进毕业生充分就业，提高就业质量……国家和重庆市对于大学生就业工作提出了指导意见，根据这些政策的导向，如何改进现有就业指导模式是亟须解决的一个问题。

1.1.3 数据挖掘技术与高职院校学生就业

数据库技术的快速发展与数据库管理系统的广泛应用使得数据库中存储的数据急剧增加，如此庞大的数据背后肯定蕴藏着很多有用的信息，人们期望能够进行更加深入的分析，以便更加充分地运用这些数据。尽管当前的数据库管理系统通过其查询、排序与统计等功能可以获得数据的部分表面信息，然而却无法将隐藏在这些数据背后的更加重要的、更深层次的信息与知识挖掘出来并加以利用，无法从已有的数据中预测出发展趋势，进而达到为决策建议提供服务的目的，因此导致了“数据庞大但知识匮乏”的现象。如何有效地利用和处理大量的数据成为当今世界共同关心的话题。随着数据库管理技术、统计技术、人工智能与并行计算等技术的发展和融合，数据挖掘技术应时而生，数据挖掘技术是从大量数据中挖掘出隐藏在数据背后的有价值的信息和知识，它被广泛地应用于许多领域，并取得了不错的效果，给人们的正确决策也带来了莫大的帮助。
（KnowledgeDiscoveryinDatabase，KDD）［４］,是在1989年8月举行的第11届美国人工智能协会（AmericanAssociationforArtificialIntelligence,AAAI）学术会议上首次提出的。数据挖掘综合了机器学习、模式识别、数据库管理、人工智能与数理统计等多个学科的理论、技术与方法，已经在金融业、市场业、零售业、科研及体育等多个领域中取得了广泛的应用［５］。我国高等教育由精英化向大众化的转变使得全国高等学校的招生规模逐年扩大，为了方便日常的教学与就业等管理工作，各高校均运用计算机与数据库技术建立了相应的信息系统，然而，随着高等学校招生人数的不断增加，其信息系统数据库中存储的数据量也逐渐增大。
面对庞大的数据集，传统的数据分析方法已难以满足管理者的真正需求，因为现有的信息系统主要是基于查询的，数据库可以高效地实现对数据的存储、查询、统计与排序等功能，但是这些功能只能获取数据表面的信息，即不能获得隐藏在这些数据背后的更深层次与更加重要的信息，无法发现数据中隐含的有价值的规则，无法从已有的数据中预测出发展趋势。为了充分地利用这些数据，提高信息的利用率，就需要利用数据挖掘技术智能地、快速地和自动地分析处理数据。
因此，本文以大量实际的毕业生就业信息数据为研究对象，利用决策树分类技术，对其进行数据挖掘，挖掘出其中对就业工作具有指导价值的信息，然后将数据挖掘结果应用于大学生就业指导中，为就业指导提供决策依据。

1.2国内外研究现状

美国麻省理工学院的《科技评论》（TechnologyReview）杂志曾于2001年1月提出，“数据挖掘”为未来5年对人类产生重大影响的10大新兴技术之一，且位列第三［６］。数据挖掘技术的应用相当广泛，只要某领域拥有具分析价值与业务需求的数据库或数据仓库等挖掘对象，皆可利用数据挖掘工具对其进行有目的的数据挖掘。目前，数据挖掘已经被广泛地应用于金融、保险、电信、销售、电子商务以及交通等众多领域。但总体来说，将数据挖掘技术应用于大学生的就业指导分析国内外研究都比较少，相比之下，国内外学者将数据挖掘相关技术应用于教育教学领域的研究比较丰富。
与数据挖掘 (Data Mining) 极为相似的术语――从数据库中发现知识 (KDD) 一词，首次出现在 1989 年 8 月在美国底特律召开的第 11 届国际人工智能联合会议的专题讨论会上。1993 年以后，美国计算机协会 (ACM) 每年都举行了专门的会议研究探讨数据挖掘技术，会议名称为ACM SIGKDD International Conference on Knowledge Discovery and Data Mining，简称 KDD 会议。KDD 会议［７］的规模由原来的专题讨论会发展到国际学术大会，研究重点也逐渐从发现方法转向系统应用，并且注重多种发现策略和技术的集成，以及多种学科之间的相互渗透。
与国外相比，国内对 DMKD( 数据挖掘和知识发现 ) 的研究稍晚，没有形成整体力量。1993 年国家自然科学基金首次支持中科院合肥分院对该领域的研究项目，目前从事数据挖掘研究的人员主要在大学，也有部分在研究所或公司。研究领域一般集中于学习算法的研究、数据挖掘的实际应用以及有关数据挖掘理论方面的研究。目前进行的大多数研究项目是由政府资助进行的，如国家自然科学基金、 863 计划、 " 九五 " 计划等。国内的许多科研单位和高等院校也竞相开展知识发现的基础理论及其应用研究，其中，北京系统工程研究所对模糊方法在知识发现中的应用进行了较深入的研究，北京大学也在开展对数据立方体代数的研究，华中理工大学、复旦大学等单位开展了对关联规则开采算法的优化和改造；南京大学、四川联合大学等单位探讨、研究了非结构化数据的知识发现以及Web数据挖掘。
国内对数据挖掘的研究起步稍晚且不成熟，目前正处于发展阶段。最新发展：分类技术研究中，试图建立其集合理论体系，实现海量数据处理；将粗糙集和模糊集理论二者融合用于知识发现；构造模糊系统辨识方法与模糊系统知识模型；构造智能专家系统；研究中文文本挖掘的理论模型与实现技术；利用概念进行文本挖掘。我国也有不少新兴的数据挖掘软件：

MSMiner：由中科院计算技术研究所智能信息处理重点实验室开发的多策略通用数据挖掘平台［８］。该平台对数据和挖掘策略的组织有很好的灵活性。
DMiner：由上海复旦德门软件公司开发的具有自主知识产权的数据挖掘系统。该系统提供了丰富的数据可视化控件来展示分析结果，实现了数据查询结果可视化、数据层次结构可视化、多维数据结构可视化、复杂数据可视化。
Scope Miner：由东北大学开发的面向先进制造业的综合数据挖掘系统。
iDMiner：由海尔青大公司研发的具有自主知识产权的数据挖掘平台。该平台大胆采用了国际通用业界标准，对该软件今后的发展有很大的促进作用，同时也为国内同类软件的开发提供了一条新的思路［９］。
除此之外，还有复旦德门公司开发的CIAS和AR Miner、东北大学软件中心开发的基于SAS的Open Miner以及南京大学开发的一个原型系统Knight等。
目前，国内数据挖掘软件产业还不成熟，从事此方面研究的人员主要集中在高校，只有少部分分布在研究所或公司，且大多数研究项目都是由政府资助，主要的研究方向集中在数据挖掘的学习算法、理论方面以及实际应用。研究的产品尚未得到国际市场的认可，在国际上的使用更是为数甚少。

1.2.1数据挖掘的研究现状

多年来，国内外广大学者已经对数据挖掘系统与数据挖掘过程进行了丰富的研究。早在1996年，美国人工智能协会的Bachman和Anand首先提出了强调以用户为中心的挖掘过程模型［１０］，之后Reinartz在文章中进一步强调了数据挖掘过程中以用户为中心的重要性［１１］，Williams［１２］则从理论上对整个挖掘过程进行了形式化的描述，以便于对不同的挖掘方法进行比较和区分。
Grossman［１３］于1998年提出了第四代数据挖掘系统的概念，Goeble［１４］等通过对已有的43个数据挖掘系统进行比较与分析，在KDD1999会议上提出了一种数据挖掘系统的分类方法，PiatetskyShaprio［１５］在KDD2000会议上总结了数据挖掘系统发展的三个阶段。
目前，数据挖掘的研究主要围绕着理论、技术与应用三个方面展开，如数据挖掘语言的标准化研究，数据挖掘过程中可视化方法的研究以及针对特定应用领域的数据挖掘系统的开发研究等等［１６］。研究热点主要有Web数据挖掘、文本数据挖掘以及生物基因数据挖掘等。
当前，国外数据挖掘研究的最新发展趋势主要体现在对数据挖掘方法的进一步研究，如近年来注重对Boosting方法［１７］以及Bayes(贝叶斯)方法［１８］的研究和改进、传统的数理统计学回归方法在KDD中的应用、KDD与数据库的紧密结合，在应用方面则主要包括：从着力于建立解决问题的整体系统而不是孤立的过程出发，不断产生和完善KDD商业软件工具，主要用户有保险公司、大型银行、电信公司以及销售业等。国外许多计算机软件公司都非常重视数据挖掘的开发应用，IBM和微软均成立了相应的研究中心以进行这方面的研究工作。
此外，其中一些公司的数据挖掘软件产品也开始出现在国内销售市场，如Platinum，BO以及IBM等，还有一些开源数据挖掘软件也被广泛地运用[11]，如新西兰怀卡托大学计算机科学系开发的weka软件［１９］与A.LCALÁ-FDEZ、A.FERNÁNDEZ等研究开发的KEEL(KnowledgeExtractionbasedonEvolutionaryLearning)数据挖掘软件工具等［２０］。
相比于国外，国内在数据挖掘方面的研究起步比较晚，开始于20世纪90年代中期，比国外晚几年，到了90年代后期，初步形成了数据挖掘与知识发现理论的基本架构。国内对数据挖掘的研究主要有：对面向属性的归纳方法进行研究，提出改进方法，以提高算法效率并自动生成概念层次；结合粗糙集、模糊集、神经网络等其他学科的先进理论对数据挖掘方法进行研究；Web数据挖掘方法的探讨［２１］；中文文本数据挖掘的理论研究与实现技术探讨；构造相应领域的智能专家系统。国内对数据挖掘的研究主要集中在众多科研单位与各大高校，也有一些研究所或公司参与其中，他们主要分别对数据挖掘的基础理论与其在相关领域的应用进行研究［２２］。
虽然我国数据挖掘软件产业不够成熟，但我国也有一些新兴的数据挖掘软件，如上海复旦德门软件公司开发的DBMiner,东北大学开发的面向先进制造业的数据挖掘系统ScopeMiner以及海尔青研发的iDMiner等［２３］。1998年在美国纽约举行的第四届知识发现与数据挖掘国际学术会议上有30多家软件公司展示了数据挖掘软件产品，不少软件已经在北美和欧洲的国家得到了广泛的应用，并收到明显的效益。
随着信息技术的迅猛发展，许多行业如商业、企业、科研机构和政府部门等都积累了海量的、不同形式存储的数据资料［２４］。这些海量数据中往往隐含着各种各样有用的信息，仅仅依靠数据库的查询检索机制和统计学方法很难获得这些信息，数据和信息之间的鸿沟要求系统地开发数据挖掘工具，将数据坟墓转换成知识金砖，从而达到为决策服务的目的。在这种情况下，一个新的技术——数据挖掘(Data Mining，DM)［２５］［２６］技术应运而生。数据挖掘正是为了迎合这种需要而产生并迅速发展起来的、用于开发信息资源的、一种新的数据处理技术。
数据挖掘通常又称数据库中的知识发现（Knowledge Discovery in Databases）［２７］，是一个多学科领域，它融合了数据库技术、人工智能、机器学习、统计学、知识工程、信息检索等最新技术的研究成果，其应用非常广泛。只要是有分析价值的数据库，都可以利用数据挖掘工具来挖掘有用的信息。数据挖掘典型的应用领域包括市场、工业生产、金融、医学、科学研究、工程诊断等。本文主要介绍数据挖掘的主要算法及其各自的优缺点，并对国内外的研究现状及研究热点进行了详细的总结，最后指出其发展趋势及问题所在。

1.2.2 数据挖掘技术在教育教学以及就业方面的研究现状

随着计算机的不断普及和多媒体技术的快速发展，教育教学早已不再只是简单的传统课堂教学方式，基于网络的课程教育和远程教育层出不穷［２８］。因而，各式各样的教育系统和教育信息数据库中积累了大量的数据，此外，各类高校为了方便数字化管理，日常管理工作中所使用的学生管理系统、教学教务系统以及就业系统中也存储了大量的数据。因此，国内外不少学者将数据挖掘技术应用于教育教学领域，以便从这些数据中挖掘出大量有价值的知识与信息来指导和发展教育，从而促进教育教学决策的科学化。然而，对于就业指导方面的数据挖掘分析比较少也不够系统，只是相对简单和零星的分析。
相比国内而言，国外对于教育教学领域的数据挖掘研究则比较全面，也比较深入，而且更多的侧重于网络教育教学。Buldu和Ucgun ［２９］利用Apriori算法［３０］对伊斯坦布尔埃尤普商务职业高中（IstanbulEyupI.M.K.B.VocationalCommerceHighSchool）中的学生数据进行挖掘，形成了一些规则，并得到了学生成绩不理想的课程之间的关系［３１］。García等［３２］提出了一种基于关联规则的合作教育数据挖掘工具，它可以不间断地改善网络课程，而且能够帮助那些拥有相似课程资料的老师一起分享挖掘到的有用信息。Chen等［３３］综合灰关联理论（GRA）、K-means聚类算法、模糊关联规则和模糊推理四种计算智能理论，提出了基于数据挖掘的学习绩效评估系统。
通过该系统，老师可以知道是什么原因影响了网络教育环境中的学习者的学习成绩。Talavera和Gaudioso［３４］利用聚类算法挖掘学生信息以发现反映用户行为的模式，他们基于协同管理方案提出了模型，能够在非结构化的合作空间中描述相似行为群体的特征。Wang等［３５］通过对学生个人信息使用决策树算法研究而提出了一种自适应分析系统，它能帮助用户优化学习顺序，为每一个特定的教学内容制定出最合适的学习顺序。Hamalainen［３６］等提出了一个贝叶斯网络模型来描述学生的学习过程，它可以根据学生的技能和其他特征对学生进行分类并进行针对性地引导。
Romero等［３７］利用Web挖掘技术提出了一个先进的个性化系统架构，他们开发出了一种特定的Web挖掘工具，并把它和一种推荐搜索引擎一同整合进了AHA！网络教育系统，该系统能够提供非常个性化的服务，引导学生点击最合适的链接，方便学生学习。Tane,Schmitz和Stumme［３８］提出了一种基于本体论的工具，以便能充分利用Web上的有效资源，他们根据Web文档内容的相似性和主题，利用文本挖掘和文本聚类技术对这些文档进行分组，从而方便用户更好地查询和组织网络资源，提高学习效率。然而，国外对于就业指导方面的数据挖掘研究相当少，基于高校毕业生就业指导方面的更是几乎没有，这可能是因为国外的就业指导模式跟我国的不一样造成的。CristinaIoanaMuntean,DarieMoldovanandOvidiuVeres［３９］从专