一、名词解释
测试集
自助采样法
机器学习
最大似然
KNN
二、综合题
三个工厂生产瓶子,分别占产量的20%,30%,50%,每个工厂的次品率分别为0.7%,0.9%,0.5%(不记得了,随便编的数字),现以为调研人员发现一个有缺陷的瓶子,求该瓶子由工厂1生产的概率。(朴素贝叶斯)
boosting和bagging的基本思想,并比较二者的区别(集成学习)
k-means的算法步骤和优缺点(聚类);简述bp的原理(神经网络)
写出信息增益的表达式,描述ID3建立决策树有什么优点和问题
三、SVM
写出svm基本型,并说明其背后原理,可用公式表示
对于线性不可分的问题,svm如何解决
关于对偶问题的推导(完全没看推导的本人^_^)
回忆的有些晚了可能不太细节,复习可参考
复习结构:贝叶斯、神经网络、决策树、集成学习、SVM、聚类