以下是参加百度实习机器学习方向的考试题,做题期间遇到的部分问题,只是作为一个提纲汇总放在这里,方便指导以后的学习。
ID3算法
ID3算法要求特征必须离散化
信息增益可以用熵,而不是GINI系数来计算
选取信息增益最大特征作为树的根节点
关键词抽取方法
基于图的无监督方法
基于分类的有监督方法
NLP中机械分词方法
最大匹配方法,最佳匹配方法,最少切分方法
主动学习
它适合数据丰富,但类标号稀缺或难以获得的情况
学习算法可以主动向用户询问类标号
主动学习的目标是使用尽可能少的有标号的实例来获得高准确率
特征选择
容易提取的特征;对区分不同类别的模式有效的特征;对不相关变形保持不变的特征
特征选择的方法
Filter方法:卡方检验,信息增益,相关系数。
Wrapper方法:启发式搜索:SFS(Sequential Forward Selection)序列前向选择,SBS(Sequential Backward Selection)序列后向选择,BDS(Bidirectional Search)双向搜索,DTM,序列浮动选择,PSO粒子群算法,ABC人工蜂群算法,GA(Genetic Algorithm)算法,DE(Differential Evolution)差分进化算法
完全搜索:
广度优先搜索(Breadth First Search)广度优先遍历特征子空间,枚举所有的特征组合,时间复杂度O(2n)。
分支限界搜索(Branch and Bound)在穷举搜索的基础上加入分支限界。若断定某些分支不可能搜索出比当前找到的最优解更有的解,可以剪掉这些分支。
定向搜索(Beam Search)首先选择N个得分最高的特征作为特征子集,将其加入一个限制最大长度的优先队列,每次从队列中取出得分最高的子集,然后穷举向该子集加入1个特征后产生的所有特征集,并加入队列
最优优先搜索(Best First Search)。与BS类似,不限制优先队列长度
参考:
特征选择-常见的搜索算法
svm核函数
线性核函数,多项式核函数,高斯径向基函数,sigmoid函数。
mysql操作命令
grant授权,revoke回收权限
user表,列出可以连接服务器的用户以及口令,并且指定他们有哪些全局权限。user表启用的任何权限均是全局权限,适用于所有数据库
db表,列出数据库,
Host表,该表不受GRANT和REVOKE语句的影响
tables_priv表,指定表记权限。适用于一个表的所有列
columns_priv表,只当列级权限。适用于一个表的特定列
参考:
mysql操作命令梳理
自顶向下语法分析
递归子程序法;LL(1)分析法
CPI(Cycle per Instruction)
每条指令执行所花费的平均时钟周期数
DHCP(Dynamic Host Configuration Protocol)动态主机配置协议
信噪比SNR 或者 S/N(Signal-Noise Ratio)
信噪比单位dB,分贝数=10*log(S/N)S平均信号功率,N平均噪声功率
信道(Information Channels)传输速率
单位时间内信道上能传输的数据量。单位bps(bit per second)
香农定理给出了信道信息传送速率的上线和信道信噪比以及带宽的关系
Rmax(信道最大传输速率)=W(带宽)*log2(1+S/N(信噪比))
子串个数
串中任意个连续的字符组成的子序列称为该串的子串
字符串的长度为n,子串的个数是n*(n+1)/2+1个(包含空子串)
文本相似度算法
基于空间向量的余弦算法,算法步骤:预处理-文本特征选择-加权-生成向量空间模型后计算余弦。
快速排序,归并排序,堆排序,shell排序,冒泡排序,交换排序,选择排序,插入排序,基数排序。稳定?时间复杂度?
Hadoop集群
hadoop集群中有三种作业调度算法,分别为FIFO,公平调度算法,计算能力调度算法。
FIFO(先来先服务)为默认的调度器,优点是简单、易于实现,缺点是对所有的作业都一视同仁,没有考虑作业的紧迫程度,对小作业的运行不利。
参考:
Hadoop集群三种作业调度算法