山东大学软件学院Web数据管理期末回忆版

(2021级,老师是ll,考前讲重点,考试无出其外,纯纯贝多芬的课,50分钟出考场,这种课考试的最高境界:考试如抄书)

一、填空题(30 * 1)

1、爬虫可以通过_____判重。
2、给出一个开源的HTML解析器_____。
3、_____是快速、高层次的屏幕抓取和web抓取框架。
4、Robot协议、 ____ 、____、浏览器动态渲染等都是常见的反爬虫障碍。
5、单记录文档型页面的数据抽取方法包括 ____和 ____。
6、CSV文件是一种 ________结构化文本文件。
7、 ____、CSV、 ____、 ____等都是结构化的文件。
8、白化主要用于去除特征之间的 ____,白化的一个主要实现方式是 ____。
9、文本向量化的两种表示方法为 ____和 ____。
10、文本预处理的结果分为 ____和 ____。
11、LSA全称 ____,LDA全称 ____。
12、 ____是使用神经网络来对n-gram中概率估计的模型,可以解决当n取得较大时存在的 ____问题。
13、Skip-gram模型的两种优化策略是 ____和 ____。
14、word2vec的输出不仅能计算 ____,而且能够比较单词之间的 _____(women - man)。
15、FastText是一个 ____和 ____工具,使用 ____技术来进行词向量的构造。
16、包装器有两种抽取规则 ____和 ____。

二、名词解释(5 * 8)

1、正则表达式
2、Web数据抽取
3、Bag of words
4、统计语言模型
5、HMM

三、简答题(3 * 10)

1、包装器的定义以及两种抽取规则方法的比较。
2、CBOW模型的结构描述、基本思想、训练过程以及应用场景。
3、给出常用的几种Web图像局部特征及其主要思想。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值