山东大学软件学院2024年web数据管理A卷

考试时间:2024/6/14

连莉老师人很好,不会查考勤,实验也不是很难,实验老师不严格

考试就是“背多分”,但是不能完全依赖往年的复习重点,因为老师每年讲课内容多少有点差异,但最后一节课老师会讲考试范围(很细致,哪里要背,哪里不用背),所以最后一节课一定认真听!然后就背ppt就行了,内容很多,但老师给分很值得

填空题需要细节记忆,多看看ppt,可能会出一些小字部分

非常推荐!!!!!!!!!!!

一、填空

爬虫采用(    )判重

word2vec是计算(    ),和(    )(king-man+woman)

fasttext是(    )和(    )工具,提出了(    )技术

(    )是python的快速、高层次的屏幕抓取和web抓取

文本与处理的结果是文档(    )和文档(    )

PLSA的全称是(    ),根据已知的都文档-词项模型训练出(    )和(    )

LDA的全称是(    )

html解析器(    )

csv是(    )结构化文本文件

结构化数据可以存储为(    ),(    ),(    ),和csv文件

(    )模型直接通过神经网络对其建模求解,可以解决n-gram模型当n过大时的(    )问题

(    )是将给定的字序列拆分成子序列的过程

反爬策略有robot协议,(    ),(    ),javascript渲染

单记录文档型页面的抽取方法有基于_的抽取方法和基于(    )的抽取方法

白化是为了消除不同特征之间的(    ),使用(    )方法实现

文本表示分为离散表示和(    )表示

skip-gram的改进方法有(    )和(    )

二、名词解释

(要把思想、公式等都写上)

1、正则表达式

2、web数据抽取

3、HMM

4、词袋模型

5、统计语言模型

三、简答

1、包装器是什么,比较包装器的两种抽取规则

2、CBOW的结构,思想,训练过程和应用场景

3、简述常用的局部特征及其思想

  • 6
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

社恐的西蓝花

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值