![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据挖掘
文章平均质量分 80
Better Bench
CS博士;研究领域:类脑计算、深度学习、机器学习、数据挖掘、自然语言处理、数学建模、量化金融,兼职网球教练4.0
展开
-
【数据挖掘】2022年2023届秋招爱玩特智能量化研究员岗 笔试题
公司:爱玩特智能岗位:量化研究员时间:2022年10月17号,线下开卷笔试。原创 2022-10-18 23:22:25 · 901 阅读 · 0 评论 -
【数据挖掘】2022年2023届秋招Kanaries雾角科技算法岗 笔试题
Kanaries雾角科技算法岗位笔试笔试时间:2022年10月13号时长:120分钟几乎是刷过的算法题,最后一题是难度题,其他都是中等题目。原创 2022-10-13 23:15:33 · 1260 阅读 · 2 评论 -
【数据挖掘】2022年2023届秋招奇虎360机器学习算法工程师 笔试题
公司:奇虎360岗位:机器学习算法工程师笔试时间:2022年10月9号。原创 2022-10-10 22:32:46 · 3345 阅读 · 0 评论 -
【数据挖掘】2022年2023届秋招宏瓴科技公司机器学习算法工程师 笔试题
答:(1)是指在现有特征集上,任何可以基于特征输入进行随机输出的分类器所能达到的最小误差。(2)贝叶斯最优分类器为最小化总体风险,只需在每个样本上选择某个条件使得条件风险最小的类别标记时的判定准则。原创 2022-09-29 16:06:48 · 568 阅读 · 4 评论 -
【数据挖掘】2022年2023届秋招知能科技公司机器学习算法工程师 笔试题
知能科技有限公司,岗位:高级机器学习算法工程师,笔试时间:2022-9-28。原创 2022-09-29 15:55:30 · 1144 阅读 · 0 评论 -
【机器学习】面试问答:PCA算法介绍?PCA算法过程?PCA为什么要中心化处理?PCA为什么要做正交变化?PCA与线性判别分析LDA降维的区别?
(1)简单介绍一下PCA主成分分析(Principal componet analysis,PCA) 是一种无监督学习方法,利用正交变换把线性相关变量表示的观测数据转换为几个由线性无关变量表示的数据,线性无关的变量成为主成分。主成分的个数通常小于原始变量的个数,属于降维方法。根据分解协方差矩阵的策略,分为两种PCA方法,第一种是基于特征值分解协方差矩阵实现PCA算法,第二种是基于奇异值分解法(SVD)分解协方差矩阵实现PCA算法。(2)PCA的算法过程对样本数据中心化处理求样本协方差矩阵。原创 2022-09-27 09:33:05 · 1904 阅读 · 2 评论 -
【机器学习】面试问答:决策树如何进行剪枝?剪枝的方法有哪些?
后剪枝的思想是让算法生成一颗完全生长的决策树,然背后从最底层向上计算是否剪枝。剪枝过程将子树删除,用一个叶子结点替代。相比于预剪枝,后剪枝方法通常可以得到泛化能力更强的决策树,但时间开销更大。预剪枝的思想是在树中结点进行扩展之前,先计算当前的划分是否带来模型泛化能力的提升,如果不能,则不再继续生长子树。预剪枝对何时停止决策树的生长有几种方法。分为预剪枝和后剪枝。原创 2022-09-27 09:07:08 · 345 阅读 · 0 评论 -
【机器学习】SVM面试题:简单介绍一下SVM?支持向量机SVM、逻辑回归LR、决策树DT的直观对比和理论对比,该如何选择?SVM为什么采用间隔最大化?为什么要将求解SVM的原始问题转换为其对偶问题?
SVM支持向量机(support vector machines,SVM)是一种二分类模型。分为线性可分支持向量机:训练数据线性可分,通过硬间隔最大化学习一个线性的分类器,又称为硬间隔支持向量机。线性支持向量机:训练数据近似线性可分,通过软间隔最大化学习一个线性的分类器,又称为软间隔支持向量机。非线性支持向量机:训练数据线性不可分,通过核技巧及软间隔最大化,学习非线性支持向量机。原创 2022-09-25 20:56:56 · 431 阅读 · 0 评论 -
【深度学习】Pytorch面试题:什么是 PyTorch?PyTorch 的基本要素是什么?Conv1d、Conv2d 和 Conv3d 有什么区别?
PyTorch 是基于 Torch 库的计算机软件的一部分,它是 Python 的开源机器学习库。它是由 Facebook 人工智能研究小组开发的深度学习框架。它用于。原创 2022-09-25 20:54:32 · 4320 阅读 · 0 评论 -
【深度学习】TensorFlow面试题:什么是TensorFlow?你对张量了解多少?TensorFlow有什么优势?TensorFlow比PyTorch有什么不同?该如何选择?
TensorFlow是一个基于Python的库, 用于创建机器学习应用程序。它是执行复杂数学的低级工具包。它为用户提供了可定制性选项, 以构建实验性学习体系结构。它还可以帮助用户与他们合作, 并将他们转变为正在运行的软件。它最初由Google Brain团队的研究人员和工程师创建, 并于2015年成为开源。TensorFlow由两个词Tensor和Flow组成;张量被称为多维数组的数据表示, 流意味着对张量执行的一系列操作。原创 2022-09-25 20:52:54 · 2515 阅读 · 0 评论 -
【机器学习】K-Means聚类的执行过程?优缺点?有哪些改进的模型?
ISODATA算法也是在K值上面改进,它在k-means算法的基础上增加了两个操作,第一是分裂操作,增加聚类中心数,即当属于某个类别的样本数过多时、分散程度较大时,把该类别分为两个子类别。第二是合并操作,对应着减少聚类中心数,即当属于某个类别的样本数过少时,把该类别去除。假设已经选取了n个初始聚类中心,则在选择n+1个聚类中心时,距离当前n个聚类中心越远的点会有更好的概率被选择为第n+1类聚类的中心。聚类中心当然是互相隔离的越远越好,之后的算法步骤同于k-means。数据预处理,如归一化、离散点处理即可。原创 2022-09-25 20:50:42 · 538 阅读 · 0 评论 -
【机器学习】面试题:LSTM长短期记忆网络的理解?LSTM是怎么解决梯度消失的问题的?还有哪些其它的解决梯度消失或梯度爆炸的方法?
通过增加输入门限,遗忘门限和输出门限,使得自循环的权重是变化的,这样一来在模型参数固定的情况下,不同时刻的积分尺度可以动态改变,从而避免了梯度消失或者梯度膨胀的问题。传统的神经网络层数一多,就会有梯度消逝和爆炸的现象,因为导数的链式法则导致了连乘的形式。造成梯度指数级的消失,lstm使用CEC(constant error carousel)机制,使得远处的梯度传到近处没有改变、但这样又会造成输入输出权重矛盾,所以又使用了门限单元来解决。LSTM的三个门的作用:输入门决定何时让输入进入细胞单元;原创 2022-09-25 20:49:53 · 1406 阅读 · 0 评论 -
【数据挖掘】恒生金融有限公司2023届秋招数据ETL工程师笔试题解析
恒生金融公司,笔试时间:2022年9月24号,岗位:数据ETL工程师,时间:120分钟。原创 2022-09-25 10:51:19 · 2549 阅读 · 0 评论 -
【数据挖掘】XGBoost面试题:与GBDT的区别?为什么使用泰勒二阶展开?为什么可以并行训练?为什么快?防止过拟合的方法?如何处理缺失值?
是一种基于boosting增强策略的加法模型,训练的时候采用前向分布算法进行贪婪的学习,每次迭代都学习一棵CART树来拟合之前 t-1 棵树的预测结果与训练样本真实值的残差。XGB对GBDT进行了一系列优化,比如损失函数进行了二阶泰勒展开、目标函数加入正则项、支持并行和默认缺失值处理等,在可扩展性和训练速度上有了巨大的提升,但其核心思想没有大的变化。XGB模型的一个优点就是允许特征存在缺失值。原创 2022-09-19 20:39:58 · 1261 阅读 · 0 评论 -
【数据挖掘】 GBDT面试题:其中基分类器CART回归树,节点的分裂标准是什么?与RF的区别?与XGB的区别?
GBDT(Gradient Boosting Decision Tree)梯度提升决策树,理解为梯度提升+决策树。利用最速下降的近似方法,利用损失函数的负梯度拟合基学习器。利用损失函数的负梯度,替代提升树算法中的残差,去拟合一个回归树。回归和分类基学习器都是CART回归树,区别在于分类问题使用softmax进行映射。其中CART回归树是以损失函数作为评价指标,又引入了剪枝过程的生成树算法。GBDT如何构建特征:将样本输入到GBDT中,按照所有CART树的叶结点进行编码,得到该样本的组合特征。原创 2022-09-19 20:37:15 · 818 阅读 · 0 评论 -
【数据挖掘】百度机器学习-数据挖掘-自然语言处理工程师 2023届校招笔试详解
笔试时间;2022年9月13日。百度机器学习-数据挖掘-自然语言处理工程师 2022年秋招笔试详解。2023届校招笔试题原创 2022-09-14 11:47:51 · 2304 阅读 · 0 评论 -
【数据挖掘】百度机器学习-数据挖掘-自然语言处理工程师 历史笔试详解
基于规则的理性主义方法:主张建立符号处理系统,由人工整理和编写初始的语言知识表示体系(通常为规则),构造相应的推理程序,系统根据规则和程序,将自然语言理解为符号结构——该结构的意义可以从结构中的符号的意义推导出来。(4)对小规模的数据表现很好,能处理多分类任务,适合增量式训练,当数据量超出内存时,我们可以一批批的去增量训练(朴素贝叶斯在训练过程中只需要计算各个类的概率和各个属性的类条件概率,这些概率值可以快速地根据增量数据进行更新,无需重新全量计算)。,y),则样本的信息熵最大值为( ) C。原创 2022-09-13 17:54:49 · 1669 阅读 · 0 评论 -
【数据挖掘】百度2015大数据云计算研发笔试卷
特点:Hadoop是离线计算,基于磁盘,每次运算之后的结果需要存储在HDFS里面,下次再用的话,还需要读出来进行一次计算,磁盘IO开销比较大。如果灯是灭的,按过开关之后灯会亮。3、给定一个整数的数组,相邻的数不能同时选,求从该数组选取若干整数,使得他们的和最大,要求只能使用o(1)的空间复杂度。适用场景:适用于多次迭代的计算模型,诸如各种机器学习算法 ,数据过于繁杂,并且需要让计算通过迭代,并在内存中,极大地提高效率的场景。结果为,10盏,1,4,9,16,25,36,49,64,81,100。原创 2022-09-13 11:28:55 · 183 阅读 · 0 评论 -
【数据挖掘】顺丰科技2022年秋招大数据挖掘与分析工程师笔试题
顺丰科技2022年秋招大数据挖掘与分析工程师笔试题,笔试时间:2022-9-7。原创 2022-09-08 11:34:38 · 1229 阅读 · 0 评论 -
【数据挖掘】2022年京东算法工程师笔试题(23届)
2022年京东算法工程师笔试题(2023届)原创 2022-09-04 15:55:28 · 2822 阅读 · 0 评论 -
【数据挖掘】2022年昆仑万维 算法工程师笔试题
2022年昆仑万维算法工程师笔试题原创 2022-08-28 18:30:29 · 350 阅读 · 0 评论 -
【机器学习】如何判断函数凸或非凸?(面试回答)
1)凸函数(Convex function)和非凸函数(Convave function)通常把函数分为凸函数和非凸函数。凸函数的几何意义在于,定义域中任意两点连线组成的线段都在这两点的函数曲线(面)上方。如图所示。凸函数是有且只有全局最优解的,而非凸函数可能有多个局部最优解。...原创 2022-08-16 12:02:35 · 3632 阅读 · 0 评论 -
【数据挖掘】笔试题之图形推理方法汇总,附思维导图
在IT行业的笔试综合测试中,包含大量的行测图形推理题,这是总结的推理题规律,并附有思维导图原创 2022-08-16 11:09:55 · 579 阅读 · 0 评论 -
【数据挖掘】2022年联想公司数据挖掘工程师笔试题
1、顺序表存储的特点解析:2、16、9、49、7、1、45、23、13,增量为4,第一轮希尔排序后,前四位数字3、满足约束条件x≤xy≤yx+y≥2x \leq x \\y \leq y \\x+y \geq 2x≤xy≤yx+y≥2求z = x+2y的取值范围解析:4、根据以下有向图,Dijkstra算法路径是[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-3qqX3TK1-1660302420894)(C:\Users\Mgege\Downloads\节点关系(原创 2022-08-12 19:09:43 · 1842 阅读 · 0 评论 -
【机器学习】随机森林、AdaBoost、GBDT、XGBoost从零开始理解
包含了信息熵、条件熵、信息增益、基尼指数、随机森林、AdaBoost、GBDT、XGBoost的概念及相关理论原创 2022-08-09 21:33:29 · 717 阅读 · 0 评论 -
【机器学习】回归树生成过程及举例理解
回归树(Regression Tree),就是用树模型做回归问题,每片叶子都输出一个预测值。预测值一般时叶子节点所含训练集元素输出的均值。(除了使用均值可以作为预测值,也可以使用其他方法,例如线性回归)举例理解,以下是一个打高尔夫球的时间表。根据天气、适度、温度、风来预测打高尔夫的时间长短。右边的回归树叶子节点值,就是取样本数的均值。......原创 2022-08-09 10:49:00 · 2145 阅读 · 1 评论 -
【数据挖掘】金山办公2020校招大数据和机器学习算法笔试题
金山办公2020校招大数据和机器学习算法笔试题,范围包括了数据结构、java程序设计、自然语言处理、机器学习、数据结构、正则表达式原创 2022-08-08 17:20:34 · 1665 阅读 · 0 评论 -
【数据挖掘】滴滴公司数据挖掘工程师笔试题
来自牛客网的滴滴公司,数据挖掘工程师笔试题目,包括20个选择题和两个编程题原创 2022-08-07 13:09:49 · 1015 阅读 · 0 评论 -
【数据挖掘】顺丰公司数据挖掘笔试题
这是来自牛客网上的顺丰公司数据挖掘工程师笔试题,包含了java 、c++、sql、hive、oracle、数据结构、机器学习、编译原理、计算机网络等计算机相关知识原创 2022-08-05 11:34:08 · 5076 阅读 · 0 评论 -
【数据挖掘】搜狐公司数据挖掘工程师笔试题
搜狐公司数据挖掘工程师的笔试题目及详细答案解析原创 2022-08-04 12:13:33 · 1532 阅读 · 0 评论 -
【数据挖掘工程师-笔试】2022年大华股份
2022年大华股份,数据挖掘工程师提前批的笔试题原创 2022-07-28 17:01:27 · 543 阅读 · 0 评论 -
【数据挖掘】生成模型和判别模型的区别及优缺点
1)判别模型学习P(x|y)。是用一个模型或函数直接拟合概率分布P(y|x),拟合P(x|y),是拟合从果到因的关系,即在Y发生的条件下,X发生的概率,对应实际训练中,是根据label来训练模型,再来判断类别,这种拟合出来的模型叫判别模型。(2)生成模型学习P(y|x)。公式拆解为三个部分P(y∣x)=P(x)P(x∣y)P(y)。...原创 2022-07-25 16:46:47 · 1403 阅读 · 0 评论 -
【钉钉杯大学生大数据挑战赛】初赛B 航班数据分析与预测 Python代码实现Baseline
机场_y’,‘iata_y’,‘airport_y’,‘city_y’,‘state_y’,‘country_y’,‘lat_y’,‘long_y’,‘到达气温’,‘航班性质’],dtype=‘object’,length=237)‘飞机起飞时滑行时间’,‘飞机降落时滑行时间’,‘起飞日期’,‘出发机场’,‘到达机场’,‘航班编号’,‘航班尾号’,‘起飞延误时间’,‘到达延误时间’,‘计划起飞日期’,‘计划到达日期’],............原创 2022-07-24 09:44:25 · 2837 阅读 · 13 评论 -
【数据挖掘工程师-笔试】2022年海尔 公司
数据挖掘工程师。原创 2022-07-23 11:56:16 · 9734 阅读 · 1 评论 -
【数据挖掘工程师-笔试】2022年SHEIN 公司
2022年SHEIN 公司提前批,数据挖掘工程师笔试题,包括10个选择、2个问答题,2个编程题原创 2022-07-21 17:48:51 · 1151 阅读 · 0 评论 -
【数据挖掘】PCA 主成分分析算法过程及原理讲解
主成分分析(Principalcomponetanalysis,PCA)是一种无监督学习方法,利用正交变换把线性相关变量表示的观测数据转换为几个由线性无关变量表示的数据,线性无关的变量成为主成分。主成分的个数通常小于原始变量的个数,属于降维方法。根据分解协方差矩阵的策略,分为两种PCA方法,第一种是基于特征值分解协方差矩阵实现PCA算法,第二种是基于奇异值分解法(SVD)分解协方差矩阵实现PCA算法。......原创 2022-07-19 16:21:02 · 9419 阅读 · 0 评论 -
【数据挖掘】十大算法之AdaBoost提升算法
(1)第一种定义AdaBoost(Adaptive Boosting)是将多个弱分类器合成一个强分类器。通过提高被前一轮弱分类器错误分类样本的权值,而降低被分类正确的样本的权值,实现在每一轮改变训练数据的权值或概率分布,从而把当前轮没有得到正确分类的数据,通过权值的加大而在后一轮的弱分类器中得到更大的关注。弱分类器的组合,采用加权多数表决的方法。(2)第二种定义AdaBoost算法是模型为加法模型、损失函数为指数函数、学习算法为前向分布算法的二分类学习方法。假设给定一个二分类的训练数据集T={(x1,y1原创 2022-06-07 15:20:49 · 278 阅读 · 1 评论 -
【数据挖掘】十大算法之SVM支持向量机分类算法
支持向量机(support vector machines,SVM)是一种二分类模型。分为给定线性可分训练数据集,通过间隔最大化或等价地求解相应的凸二次规划问题学习得到的分离超平面为w∗⋅x+b∗=0(1)w^* \cdot x + b^* = 0\tag{1}w∗⋅x+b∗=0(1)以及相应的分类决策函数f(x)=sign(w∗⋅x+b∗)(2)f(x) = sign(w^* \cdot x +b^*)\tag{2}f(x)=sign(w∗⋅x+b∗)(2)称为线性可分支持向量机。(1)函原创 2022-06-03 16:56:36 · 2198 阅读 · 0 评论 -
【数据挖掘】十大算法之ID3决策树生成算法和CART分类回归树算法
目录1 基本概念1.1 CART 基本概念1.2 熵1.3 条件熵1.4 信息增益1.3 信息增益比2 ID3算法3 C4.5算法4 CART 算法4.1 CART 生成4.1.1 回归树的生成(最小二乘回归树生成算法)4.1.2 分类树的生成4.2 CART剪枝4.2.1 简介4.2.2 算法过程1 基本概念1.1 CART 基本概念CART (classification and regression tree,CART)分类回归树算法,是应用广泛的决策树学习方法,CART同样由特征选择、树的原创 2022-05-23 17:06:56 · 705 阅读 · 0 评论 -
【数据挖掘】十大算法之PageRank连接分析算法
1 基本概念(1)简介Pagerank算法是基本想法是互联网网页重要度的计算方法。PageRank可以定义在任意有向图上,后来被应用到社会影响力分析、文本摘要等多个问题。PageRank算法的基本思想是在有向图上定义一个随机游走模型,即一阶马尔科夫链,描述随机游走者沿着有向图随机访问各个节点的行为。在一定的条件下,基线情况访问每个节点的概率收敛到平稳分布,这时各个节点的平稳概率值就是其PageRank值,表示节点的重要度。(2)随机游走模型给定一个含有n个结点的有向图,在有向图上定义随机游走模型,原创 2022-05-22 17:38:04 · 773 阅读 · 0 评论