山东大学2020-2021春季web数据管理期末考试
一、填空题(30空,只记得这些了)
DFS比BFS好处在于
爬虫礼貌性
BM25三个参数
词项处理——文档解析、词条化、词项归一化、次干还原、词型归并
三种分词算法
统计语言模型的定义
LBP定义
tamura的特征
颜色矩
二、简答题
1、RE
2、web数据抽取
3、TF/IDF
4、倒排索引的定义
5、忘记了
三、论述题
1、网站和爬虫的博弈
2、基于HMM的分词算法
3、网页排序算法PageRank、HITS、HillTop
4、比较pLSA与LSA的异同
...
原创
2021-06-24 10:53:06 ·
941 阅读 ·
0 评论