数据挖掘与知识发现领域研修建议


(2008 年 12 月,2009 年 5、12 月,2010 年 3、6、8 月修改,铁人版) 
 
 
整个研修分两个阶段进行。其中第一阶段为课程学习阶段;主要进行数据挖
掘基础理论、应用软件使用及程序设计两部分内容的学习。第二阶段为专题理论
及应用研究阶段;是在第一阶段基础理论学习的基础上,选定数据挖掘与知识发
现的某一领域进行深入研修,主要进行科学研究和实际应用训练。 
 
大约需要花费两至三年的时间完成研修。可以根据学生的具体情况穿插滚动
式进行。由于预计学生需要补习的数学等方面的知识较多且时间有限,因此采用
非常规的研修方式——直接切入数据挖掘技术主题,对于所需数学知识采取缺什
么补什么的方式来弥补。 
 
第一阶段主要是以下几门(组)课程的学习: 
 
一、数据挖掘导论 
 
大约需要 4 个月时间。 
 
1.学习《数据挖掘导论》课程,完成习题若干。 
2.学习使用 Weka【注】或其他应用软件完成至少 4 个课程项目。 
 
部分参考书目 
 
◆ Jiawei Han, M. Kamber, Data Mining: Concepts and Techniques, 2nd Edition 
◇ Max Bramer, Principles of Data Mining 
◇ D. J. Hand, H. Mannila, P. Smyth, Principles of Data Mining 
◇ D. T. Larose, Discovering Knowledge in Data: An Introduction to Data Mining 
◆ Pang-Ning Tan, Michael Steinbach, Vipin Kumar, Introduction to Data Mining 
◆ Data Mining: Practical Machine Learning Tools and Techniques, 2nd Edition 
◇ Soumen Chakrabarti, Earl Cox, et al., Data Mining: Know It All 
◇ S. Sumathi, S.N. Sivanandam, 
Introduction to Data Mining and its Applications 
 
二、数据挖掘技术数学基础 
 
大约需要6个月时间(基础为Set Theory, Linear Algebra, and Probability Theory)。 
 
1.学习《模式识别》和研读《Pattern Classification》。 
2.研读《Cluster Analysis》第4版。 
3.学习 PCA、FA、LDA和ICA 等多元统计分析知识。 
4.完成《模式识别》全部习题以及CA、ICA等至少 4 个课程项目。  2
 
部分参考书目 
 
◆ Duda R. O., Hart P. E., Stork D. G., Pattern Classification, 2nd Edition 
◆ Theodoridis S., Koutroumbas K., Pattern Recognition, 4th Edition 
◇ S. Theodoridis, A. Pikrakis, K. Koutroumbas, D. Cavouras 
Introduction to Pattern Recognition: A MATLAB® Approach 
◇ K. Fukunaga, Introduction to Statistical Pattern Recognition, 2nd Edition 
◇ A. R. Webb, Statistical Pattern Recognition, 2nd Edition 
◇ J. P. Marques de Sá, Pattern Recognition: Concepts, Methods and Applications 
◇ Neil H. Timm, 
Applied Multivariate Analysis 
◇ Wolfgang Härdle and Léopold Simar, 
Applied Multivariate Statistical Analysis, 2nd Edition 
◇ Narayan C. Giri, 
Multivariate Statistical Analysis, 2nd Edition, Revised and Expanded 
◆ Aapo Hyvärinen, Juha Karhunen, Erkki Oja, Independent Component Analysis 
◇ I. T. Jolliffe, Principal Component Analysis, 2nd Edition 
◇ Brian S. Everitt, Cluster Analysis, 4th Edition 
 
三、数据挖掘技术高级课程 
 
大约需要4 个月时间。 
 
1.学习《The Top Ten Algorithms in Data Mining》。 
2.研读《Machine Learning》。 
3.完成《Machine Learning》课程项目4 个。 
 
部分参考书目 
 
◆ Vapnik V. N., Statistical Learning Theory 
◆ Vapnik V. N., The Nature of Statistical Learning Theory, 2nd Edition 
◇ Christopher M. Bishop, Pattern Recognition and Machine Learning 
◆ Trevor Hastie, Robert Tibshirani, Jerome Friedman, 2nd Edition 
The Elements of Statistical Learning: Data Mining, Inference and Prediction 
◇ Ethem Alpaydm, Introduction to Machine Learning, 2nd Edition 
 
四、专题(任选) 
 
大约需要 3~4个月时间。 
 
学习有关 DM 理论与技术的发展趋势以及在相关领域的应用。例如文本挖掘、
Web挖掘、图像挖掘和视频挖掘、地理数据挖掘、可视化数据挖掘等;同时继续
研读 SVM、EM 以及 GA、GP 等专题内容的若干本英文原著与学术论文,深入
理解和掌握相关理论与技术。  3
 
部分参考书目 
 
◇ Geoffrey J. McLachlan, David Peel, Finite Mixture Models 
◇ McLachlan G. J., Krishnan T., The EM Algorithm and Extensions, 2nd Edition 
◇ Teuvo Kohonen, Self-Organizing Maps, 3rd Edition 
◇ Harvey J. Mille, Jiawei Han, 
Geographic Data Mining and Knowledge Discovery, 2nd Edition 
◇ Antonio Mucherino, Petraq J. Papajorgji, Panos M. Pardalos, 
Data Mining in Agriculture 
◇ Yee Leung, Knowledge Discovery in Spatial Data 
◇ Ingo Steinwart and Andreas Christmann, Support Vector Machines 
◆ Nello Cristianini and John Shawe-Taylor, 
An Introduction to Support Vector Machines and 
Other Kernel-based Learning Methods 
◇ Sholom M. Weiss, Nitin Indurkhya, Tong Zhang, Fred J. Damerau, 
Text Mining: Predictive Methods for Analyzing Unstructured Information 
◇ Michael W. Berry and Jacob Kogan, 
Text Mining: Applications and Theory 
◇ Ashok N. Srivastava and Mehran Sahami, 
Text Mining: Classification, Clustering, and Applications 
 
第二阶段研修任务主要有以下几项内容: 
 
一、选择并确定数据挖掘及其应用的某个领域为主攻方向; 
二、阅读文献、撰写综述、制作演示文稿并在一定范围内作研究开题报告; 
三、撰写论文(基本要求为能在国内核心刊物上公开发表); 
四、申请相应的研究课题或报考博士研究生。 
 
 
这份建议比较适合数学基础较好,特别是对概率论与数理统计、集合论、模
糊理论、粗糙集、矩阵分析、最优化方法等相关数学分支,以及计算智能感兴趣
的学生。 
 
标记为◆的参考书可能有影印版或中文翻译版。 
 
 
 
【注】 Weka软件用 Java编写,也可以采用其他语言的类似软件乃至一些商用软件。 
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值