前言
一面过了,今天就二面了
加粗的就是答不上来的
面试方式:电话面试
项目
说我经历很丰富,疯狂问项目的idea和细节,问得我有点害怕
- 跨域课题: 这个课题主题是什么,怎么做,槽描述是怎么样的;
- 我的paper解决了什么问题;创新点在哪里
- idea细节问问问
- 联合学习的一些方式,有哪些联合学习
- 依然对于四作问得很少,面试官似乎都比较喜欢深究一作
- 想让我现场提出论文目前的一个提升想法,我要是能现场想出来早发了
比赛
- 比赛的主要贡献是什么?
不就是清洗数据、数据增强、调参这些琐事不停的做吗 - 数据清洗有用过哪些方式;
- 不同的bert预训练模型的特别之处;还了解过哪些预训练模型
这次大概能说出一些了:roberta就动态mask;wwm就整个中文词mask;还有ELMO和GPT讲了一通 - 中文NER如何加入词语信息
可惜我lattce-lstm和Ma的论文只粗略看了一下,但还是大概了解的 - 又问了NER大小实体覆盖怎么解决?
比赛遇到过,直接加规则,把大的或者小的删掉 - 追问:还有别的吗
或者用每一种实体单独预测边界,遇到多重预测就删大或者删小(其实也差不多)
其他
- python的内存管理机制和进程管理
没复习,依然不会 - 操作系统中的进程与线程的区别
讲了一点点,但是忘了好多 - OOM问题如何解决:
减小batch_size;换大机器;单机多卡(他就是想问这个,但我不会) - bert模型中的自注意力机制,分词机制(wordpiece)
终于问到我喜欢的了,哭了
数据结构
- 链表是否存在环
- 字符串的最大不重复子串
都不太熟,稍微说了一些,毕竟我没刷题没复习
实际应用
- 教育软件的问题分类,按照知识点分
肯定有关键词,直接上注意力,不如直接上BERT,BERT forever,yyds - 如果是多级分类呢,先分大类,再分大类中的小类
粗暴就直接三次分类,改进一点就把大类的概率×各个小类的概率 - 又问了一次错误传播问题,大类分错了怎么办
又回答了一次联合学习,大类小类一起分 - 说我联合学习也是一种解决方式,但如果想加一些限制呢,比如一类分到了函数这个大类,但是二级分类时分到了几何那边
粗暴就直接加规则,但我说出了一个精妙的方法,用CRF的标签转移矩阵,设置一个类别转移,学习一个大类转移到一个小类的概率。
不得不说我觉得我最后提出的这个解决方案我觉得还是挺精妙的,完美ending。
最后
二面面了一个小时,聊的还是挺愉快的,也有所收获,了解了这个公司的大概一些落地场景。