(2021级,老师是ll,考前讲重点,考试无出其外,纯纯贝多芬的课,50分钟出考场,这种课考试的最高境界:考试如抄书)
一、填空题(30 * 1)
1、爬虫可以通过_____判重。
2、给出一个开源的HTML解析器_____。
3、_____是快速、高层次的屏幕抓取和web抓取框架。
4、Robot协议、 ____ 、____、浏览器动态渲染等都是常见的反爬虫障碍。
5、单记录文档型页面的数据抽取方法包括 ____和 ____。
6、CSV文件是一种 ________结构化文本文件。
7、 ____、CSV、 ____、 ____等都是结构化的文件。
8、白化主要用于去除特征之间的 ____,白化的一个主要实现方式是 ____。
9、文本向量化的两种表示方法为 ____和 ____。
10、文本预处理的结果分为 ____和 ____。
11、LSA全称 ____,LDA全称 ____。
12、 ____是使用神经网络来对n-gram中概率估计的模型,可以解决当n取得较大时存在的 ____问题。
13、Skip-gram模型的两种优化策略是 ____和 ____。
14、word2vec的输出不仅能计算 ____,而且能够比较单词之间的 _____(women - man)。
15、FastText是一个 ____和 ____工具,使用 ____技术来进行词向量的构造。
16、包装器有两种抽取规则 ____和 ____。
二、名词解释(5 * 8)
1、正则表达式
2、Web数据抽取
3、Bag of words
4、统计语言模型
5、HMM
三、简答题(3 * 10)
1、包装器的定义以及两种抽取规则方法的比较。
2、CBOW模型的结构描述、基本思想、训练过程以及应用场景。
3、给出常用的几种Web图像局部特征及其主要思想。