2020年04月_zyuPp

原创【机器学习】【最大熵模型】

最大熵模型最大熵模型是运用了最大熵思想的多分类模型，那就先理解什么叫最大熵！熵熵代表随机变量的不确定性，熵越大代表随便变量越不确定。最大熵的思想当我们猜测一个概率分布，如果对其分布一无所知，则选择熵最大的均匀分布，如果有一定的先验知识，那么就选择满足这些条件的熵最大的分布.核心思想：保留全部不确定性，将风险降到最小模型的推导从训练集T中抽取特征，然后求这些特征在训练集中的经验分布P...

2020-04-28 16:51:38 285

原创【SQL】【关于COUNT的用法和细节】

COUNT的定义官方定义：COUNT() 函数返回匹配指定条件的行数。count的三种用法count(列名) 函数返回指定列的值的数目【不计入NULL值】SELECT COUNT(id) FROM tableX;count(*) 函数返回表中的记录数。【可以理解为表格的行数】【计入NULL值】SELECT COUNT(*) FROM tableX;count(DIST...

2020-04-24 10:39:20 6097

原创【SQL性能优化】【范式设计与反范式设计】

范式设计数据库的设计范式关系型数据库总共有6种范式，按照范式级别从低到高有：第一范式（1NF）第二范式（2NF）第三范式（3NF）巴斯-科德范式（BCNF）第四范式（4NF）第五范式（5NF, 完美范式）特点：高阶范式一定符合低阶范式的要求。越高阶，冗余度越低设计数据表时，通常尽量满足3NF足矣，甚至有时我们会为了提高一些查询性能，选择破坏范式规则，这叫反规范化。数据表的...

2020-04-22 22:29:55 637

原创【机器学习】【关联分析】【Apriori】

关联分析关联规则（association rules）是常用的无监督学习算法，目标是发掘数据内在结构特征之间的关联性\color{red}{发掘数据内在结构特征之间的关联性}发掘数据内在结构特征之间的关联性一句话简介：找到特征之间有意义的关系，构建有用的特征和对应的应用。关联规则通常分两类：一是简单关联（事物之间的普通关系），二是序列关联（考虑事物普通关系同时关注时间先后顺序）简单关联规则...

2020-04-21 21:39:54 897

原创【面试复习】【数据库与SQL的常考知识点】

借鉴的文章：数据分析面试必备SQL语句1、从表中选取数据select id from table2、多张表取多个字段（表连接）table1有id和name和table2有id和age，取出id，name，age，以id为主键连接select a.id,a.name,b.age from (select id,name from table1) as a --将select之后的内...

2020-04-21 15:23:42 608

原创【SQL性能优化】【数据库调优】【概览】

数据库调优目标简单的目的：运行更快，响应更快，吞吐量更大不过目标太泛，不够具体，所以我们需要根据精细的问题定位去调优。通常是以下几种：用户反馈根据用户的问题反馈，找到和数据相关的问题日志分析查看数据库日志和操作系统日志找到异常情况服务器资源监控监控server的CPU、内存、I/O等情况，实时了解服务器性能使用数据库内部状况监控活动会话（active session）监控是其...

2020-04-20 15:41:21 275

原创【机器学习】【朴素贝叶斯】

基于贝叶斯定理与特征条件独立假设给定训练集，基于特征条件独立假设学习输入、输入出的联合概率分布基于此模型，对给定输入x，用贝叶斯定理求出后验概率最大的输出y...

2020-04-19 15:42:16 217

原创【XGBoost、LightGBM、CatBoost】

XGBoost为什么会有XGBoost？Boosting方法需要不断迭代来生成模型，每次迭代都有新树出现，如果数据集比较复杂，那么计算量会很大，XGBoost就是为了解决这个问题而出现的。陈天奇用C++实现，多线程方式实现回归树并行构建，再改进一下算法，提升训练速度和预测精度。XGBoost和GBDT的区别基分类器：GBDT用CART作为基分类器，而XGB支持线性分类器，还自带正则化...

2020-04-10 16:22:59 765

原创【leetcode169】【求众数】

leetcode 169 多数元素给定一个大小为 n 的数组，找到其中的多数元素。多数元素是指在数组中出现次数大于 ⌊ n/2 ⌋ 的元素。你可以假设数组是非空的，并且给定的数组总是存在多数元素。示例：输入: [3,2,3]输出: 3输入: [2,2,1,1,1,2,2]输出: 2解题思路：暴力法写两个循环，第一个循环所有数，第二个循环计算这个数出现的次数，count&gt...

2020-04-09 22:32:43 192

原创【集成学习】【随机森林】【AdaBoost、GBDT】

随机森林、AdaBoost、GBDT、XGBoost、LightGBM、CatBoost组合分类器思想：将多个分类器的结果进行多票表决或取平均值，以此作为最终的结果。好处：提升模型精度，整合各个分类器结果，得到更合理的决策边界，减少整体错误处理较大数据集，可以划分多个子集，对子集构建分类器；处理较小数据集，通过自助采样boostrap产生多个数据集，构建分类器当决策边界比较复杂...

2020-04-06 17:29:24 1158

原创【面试复习】【决策树】

决策树系列本文将会总结一下决策树相关的算法，包括ID3、C4.5、CART决策树决策树是有监督分类模型，本质是选择一个最大信息增益的特征值进行分割，直到达到结束条件或叶子结点纯度达到阈值怎样才算一个好的决策树？\color{red}怎样才算一个好的决策树？怎样才算一个好的决策树？与训练数据矛盾较小的决策树，同时又具有很好的泛化能力决策树学习过程三步走：特征选择、决策树的生成以及决策...

2020-04-06 15:11:47 406 1

原创【leetcode50】【Pow(x, n)幂函数】

leetcode 50 Pow(x, n)实现 pow(x, n) ，即计算 x 的 n 次幂函数。示例：输入: 2.00000, 10输出: 1024.00000输入: 2.00000, -2输出: 0.25000解释: 2−2=1/222^{-2} =1/2^{2}2−2=1/22 = 1/4 = 0.25解题思路：暴力法：写个循环，循环n次乘以一个x，O（N）分治...

2020-04-02 21:48:13 294

原创【面试复习】【数据结构】【递归和分治】

递归recursion通过函数体来进行的循环例子理解盗梦空间，可以进入一层梦之后，进入下一层梦，不断循环。。计算n！def Factorial(n): if n<=1: return 1 return n*Factorial(n-1)递归的伪代码：def recursion(level,param1,param2,..): #递归结束条件 if level...

2020-04-02 20:44:33 160

原创【机器学习】【SVM】

支持向量机Support Vector Machine缘由（与感知机的区别）当train data线性可分时，存在多个分离超平面可以把两类数据正确分开，感知机利用的是误分类最小的策略，求得分离超平面。但是这是有无穷多个解，而线性svm利用了间隔最大化求分离超平面，解是唯一的，优点是不仅把正负样本点分开，还对最难分的点（即离超平面最近的点）也有足够大的确信度将它们分开核心思想希望用一个平面去...

2020-04-01 16:48:58 276

zyuPp的博客