1.写出LR的目标函数及求解方法https://www.jianshu.com/p/e8dca5613da6
2.一实数序列,求和最小的连续子序列
3.写出快排代码并分析其复杂度
4.50个人编号1-50,第一个人随机坐,以后每个人直接坐到自己对应的座位,若该座位被占则随机从余下座位里挑选座位。求第49个人坐到自己座位的概率。
5.评价一个机器学习方法好坏的指标都有什么
6.SVM常考题,见https://blog.csdn.net/szlcw1/article/details/52259668
https://blog.csdn.net/cppjava_/article/details/68060439
7.解释SVM,朴素贝叶斯,CNN的基本思想
下面是滴滴面试
8.写出二叉树的先序遍历,非递归形式,和层次遍历
面对海量数据的时候,由于递归算法需要创建很多对象,需要占用大量内存,使得空间复杂度极大,也容易造成堆栈的溢出
先序遍历:https://leetcode.com/problems/binary-tree-preorder-traversal/description/
中序遍历:https://leetcode.com/problems/binary-tree-inorder-traversal/solution/
9.有一组不等面值的硬币,求出组成指定面额所用的最少硬币个数。https://leetcode.com/problems/coin-change/description/
10.写出复杂度为Logn的查找方法
11.数据库的关键字都有什么,什么叫聚合函数。多个学生,多门课程,查出所有课程大于80分的学生姓名。
聚合函数对一组值执行计算并返回单一的值
12.文件1里有三个键值对 ,k1,v1;k2,v2;k3,v3; 文件2里有三个键值对,k3,v6;k4,v4;k5,v5; 用spark把两个文件中相同键的值合并起来,k3:v3,v6。
13. 自己怎么做分词。
14.为什么idf要加log:1.因为文档数量一般很大,可以缩小数据的范围。当一个词在所有文档都出现的时候,此时的idf = 0,说明该词语没有意义
工商银行数据中心:简述svm,朴素贝叶斯,CNN的思想。什么叫池化,有什么作用。