薄弱点在机器学习。
1、交叉熵中的熵是指什么?
‘熵’就是混乱度,是衡量事物混乱程度的一个指标。
信息熵公式:
信息熵:对信息的度量。一个具体的事件发生了所带来的信息。也指信息的混乱程度。
信息增益:在划分数据集前后信息发生的变化。
信息的大小与随机事件的概率有关,越小概率事情的发生,产生的信息量越大;越大概率事情的发生,产生的信息量越小。
因此,一个具体时间下信息量是随着发生的概率而递减,且不能为负。
公式推导:
如果有两个不相关的时间x和y,两个事件共同发生同时获得的信息量应该为各自发生时获得的信息之和,即:
h(x,y)=h(x)+h(y)
由于两个事件不相关,则p(x,y)=p(x)*p(y)
所以和h(x)与p(x)相关:
h(x)=-log2(p(x))
H(x)=-sum(p(x)log2(p(x)))
转换一下就是:
2、一维卷积有什么作用
1、在不改变特征图尺寸的前提下去改变通道数(升维降维)。
2、增强网络局部模块的抽象表达能力(即构造更复杂的卷积核进行卷积)。
1×1的卷积除了为了保持特征图的尺寸使用外,他也把各通道的输入特征图进行线性加权,起到综合各个通道信息图的作用。最终提取的特征会更加抽象。
3、1×1卷积可以实现跨通道融合和通道升维降维。
3、还了解什么机器学习算法
1)KNN(K-近邻)
精度高,对异常值不敏感,无数据输入假定
计算复杂度高,空间复杂度高
2)决策树
用来处理分类问题,是最常使用的数据挖掘算法之一。
离散的输入数据
计算复杂度不高,输出结果易于理解,对中间值的缺失不敏感,可以处理不相关的特征数据。
3)朴素贝叶斯
主要应用于文档的自动分类
算法特点:
1、输入数据需要数值型或者布尔型
2、在数据较少的情况下依然有效,可以处理多类别问题
4)随机森林
利用多棵树对样本进行训练并预测的一种分类器。
训练算法:
通过数据随机化和特征随机化,进行多实例的分类评估。
算法特点:
几乎无需输入准备,可实现隐式特征选择,训练速度非常快。
缺点就是可解释性不强,黑盒
4、堆和栈的区别
1)申请方式不同
栈由系统自动分配,堆是人为申请
2)申请大小不同
栈获得的空间较小,堆获得的空间较大
3)申请的效率不同
栈由系统自动分配,速度较快,而堆速度一般比较慢
4)底层不同
栈是连续的内存空间,而堆是不连续的空间
5、线程和进程的区别
一个程序至少有一个进程,一个进程至少有一个线程
线程不能独立执行。
多线程的意义在于一个应用程序中,有多个执行部分可以同时执行。
但是操作系统没有将多个线程看作多个独立的应用,来实现进程的调度和管理以及资源分配。这就是线程和进程的重要区别
线程是进程的一个实体,是CPU调度和分派的基本单位。
一个线程可以创建和撤销另一个线程,同一个进程中的多个线程之间可以并发执行。
线程和进程的最主要差别在于它们是不同操作系统的资源管理方式。
进程由独立的地址空间,一个进程崩溃后,在保护模式下不会堆其他进程产生影响。而线程只是进程中的一个不同的执行路径。
线程由自己的堆栈和局部变量,但线程之间没有单独的地址空间,一个线程崩溃就整个进程崩溃。
所以多进程的程序比多线程更强壮