脑子不够用的笨比-CSDN博客

原创【数据挖掘】GBDT，XGBoost

小白学数据，只为记录学习进程，对每个问题有新的理解会及时更正。两个模型都是基于Boosting的思想，采用串联的方法来提升预测的精度一、GBDTGBDT采用的弱学习器是CART回归决策树，所以，首先学习一下CART回归决策树的知识假设有 N 个样本，每个样本有 J 个属性1.对每个样本的y值进行从小到大的排序，然后取相邻两个值的均值作为分割点2.计算分割后，左右两个叶子的误差之和：其中c1是左边叶子节点的y的预测值的均值，c2是右边叶子节点的y的预测值的均值，计算出每个划分点的均方误差的值，

2020-10-16 22:51:11 397

原创【数据挖掘】Bagging，Boosting，AdaBoost

一、BaggingBagging用于将多个基学习器集成一个相对较强的集成学习器。拿决策树当作基学习器来说，一颗树的预测能力有限，常常存在偏差和误差，使得预测不准确。这时候可以选择构造多颗决策树，通过多颗决策树的结果来判断最终的分类结果。在构建决策树的时候，我们要尽可能使得每棵决策树之间的差异较大，如果两棵树是一样的，则没有意义了。Bagging算法在随机森林上采用两种方法来保证树与树之间差异较大：1、采用Boostrap方法来取样本，当给我们的样本的容量是m时候，通过有放回的随机抽样，抽取k组样本，通

2020-10-12 12:01:23 444

原创【数据挖掘】C3.0、C4.5、CART算法

小白学数据，只为记录学习进程，对每个问题有新的理解会及时更正。1.引入熵的概念：计算集合中，所有数据的熵D表示整个集合，pk表示第k类分类的数据所占的比例，熵越大，表示集合D越混乱，越小表示集合越纯。一般熵介于0，1之间。2、引入条件熵p(xi)表示属性x，是xi属性的数据所占比列，Entropy（Y|xi）表示在属性是xi的前提下，Y的信息熵3、信息增益信息增益 = 集合D的信息熵 - 属性X下的条件信息熵表示决策树在属性X下的信息熵减少的程度4、C3.0算法选择信息增益最大的属

2020-10-10 23:48:53 701

原创【统计知识】 2

小白学数据，只为记录学习进程，对每个问题有新的理解会及时更正。一、ROC曲线TPR = TP / (TP+FN):召回率(Recall)FPR = FP / (FP+TN)TP / (TP+FN):精确度(Percision)(TP+TN) / (TP+FP+TN+FN)：正确率二、等深划分，等宽划分等深划分：保证每个划分区间的长度一样等宽划分：保证每个区间里面的数据数量一样三、数据的属性类型1、标注属性2、二元属性：只有两个状态，0和1，比如性别属性（对称二元属性：属性的两个状态的

2020-10-09 10:32:26 3157 2

原创【剑指offer】Python题解 4

小白学数据，只为记录学习进程，对每个问题有新的理解会及时更正。一、剑指 Offer 38. 字符串的排列class Solution: def permutation(self, s: str) -> List[str]: res = [] def dfs(s,path): if not s:res.append(path) seen = set() for i in range(len(s)): if s[i] in seen:con

2020-10-02 15:23:46 115

原创【剑指offer】Python题解 3

一、剑指 Offer 14- I. 剪绳子class Solution: def cuttingRope(self, n: int) -> int: dp = [1] * (n-1) for i in range(2,n+1): for j in range(1,(i+1)//2): tmp = max(j,dp[j])*max(i-j,dp[i-j]) dp[i] = max(dp[i],tmp) return dp[

2020-10-01 09:45:27 75

原创【数据挖掘】KNN K-means

小白学数据，只为记录学习进程，对每个问题有新的理解会及时更正。一、KNNKNN（K临近算法），是有监督的分类算法，用于把未知分类的样本点，通过计算附近K个，最近的，已分类的样本点，通过这K个样本点的投票决定，将未知样本点分类到哪一类的样本群中。步骤：1.选择合适的距离（欧氏距离，曼哈顿距离）2.计算未分类样本点到其他已分类样本点的距离（当样本量较小，可以计算出距离，当样本点过大，可以使用K-d树来选择需要计算的样本点）3.针对计算出来的距离，将样本点升序排列4.选择最近的K个点当K过分小时

2020-09-30 14:22:39 245

原创【剑指offer】Python题解 2

小白学数据，只为记录学习进程，对每个问题有新的理解会及时更正。一、剑指 Offer 34. 二叉树中和为某一值的路径第一想法：深度遍历，遍历每一条路径，找到正确答案class Solution: def pathSum(self, root: TreeNode, sum: int) -> List[List[int]]: res, path = [], [] def dfs(root,tar): if not root:retur

2020-09-26 17:16:59 79

原创【业务相关】4 游戏数据分析

小白学数据，只为记录学习进程，对每个问题有新的理解会及时更正。一、若游戏的收入在下降，该怎么分析1、确定边界首先明确，是某一个市场收入下降还是全盘的收入都下降；是某个平台的收入下降还是所有平台都下降；是某个渠道下降还是所有渠道到下降2、明确下降用户类型明确是PC端下降还是手机端下降，还是全部下降。如果是PC端，看是哪些操作系统；如果是手机端，看是IOS还是安卓3、明确最近游戏产品有没有改动明确了以上三个方面，我们针对具体的范围，来从内部和外部来分析4、公司外部其他公司是否有竞品上线，

2020-09-22 22:01:56 426 1

原创【业务相关】3 游戏数据分析

小白学数据，只为记录学习进程，对每个问题有新的理解会及时更正。一、如何判断影响平衡性我们分为MOBA游戏和RPG游戏来讨论1、MOBA游戏最直接的数据：英雄胜率英雄胜率一定程度上反映了英雄强度，胜率越高，强度越高；但不同段位玩家的操作水平不同，所以有可能某些英雄操作难度高，但是上限较高，导致在低段位的胜率低，高段位胜率高，此时可以稍微允许这个英雄的胜率在不同段位的偏差，计算加权胜率来判断。其次数据：英雄登场率，BAN率，击杀数据，连续击杀数据，伤害量等等一般高强度英雄都伴随着较高的BAN率，登

2020-09-22 12:48:11 457

原创【业务相关】2 游戏相关指标

小白学数据，只为记录学习进程，对每个问题有新的理解会及时更正。从标准的AARRR模型入手：用户获取—>用户激活—>用户留存—>用户付费一、用户获取，激活用户获取必定伴随着广告，宣传等投放花费CPC(cost per click)：每个点击用户的成本，CPC=投放宣传的总成本/带来的点击用户量CPA(cost per action)：每个激活用户的成本，CPA=投放宣传的总成本/带来的激活用户量CPR(cost per regester)：每个注册用户的成本，CPA=投放宣传的总

2020-09-21 21:03:34 516

原创【大数据】基础知识 6

小白学数据，只为记录学习进程，对每个问题有新的理解会及时更正。一、Spark shuffle于MR shuffle的区别1、内存方面：Spark shuffle是多进程多线程模式，中间的结果不会落地，减少了IO流操作，提高了执行速度；MR shuffle当任务复杂的时候，存在多个MR Job串联的情况，每两个MR job之间都有数据读写到磁盘，这样便存在对磁盘的IO操作，影响性能2、容错方面：Spark shuffle存在RDD（弹性分布式数据集）模式，当数据处理错误，可以通过计算流程实现重建；MR

2020-09-19 12:05:55 63

原创【大数据】基础知识 5

小白学数据，只为记录学习进程，对每个问题有新的理解会及时更正。一、Hive原理Hive是一个部署在Hadoop上的一个数据仓库基础工具，可以将类SQL语言转化成MR任务，并运行。是的大数据的存储，查询更加方便运行步骤：1.解析器：把SQL语法转换成抽象书AST，对AST进行语法分析，查看是是否存在语法错误2.编译器：把AST转换成逻辑执行计划3.优化器：对逻辑执行计划进行优化4.执行器：把逻辑执行计划转换成物理计划，即MR任务二、spark运行流程1、启动Resource manager

2020-09-17 21:55:56 83

原创【大数据】基础知识 4

小白学数据，只为记录学习进程，对每个问题有新的理解会及时更正。一、Hive数据倾斜解决方案数据倾斜原因是有的key对应了太多的数据，这些数据都集中到一个reducer上处理，表现出来是，其他reduce都处理完了，但这个reduce一直没结束任务解决方法：1、设置hive.map.aggr = true：先在map端对数据进行整合，把Key相同的放在一起，减少数据量，这样可以减少进入reduce的数据量，可以一定程度优化数据倾斜的问题。2、设置均衡负载器，hive.groupby.skewinda

2020-09-17 13:24:02 81

weixin_44042304的博客

原创【数据挖掘】GBDT，XGBoost

原创【数据挖掘】Bagging，Boosting，AdaBoost

原创【数据挖掘】C3.0、C4.5、CART算法

原创【统计知识】 2

原创【剑指offer】Python题解 4

原创【剑指offer】Python题解 3

原创【数据挖掘】KNN K-means

原创【剑指offer】Python题解 2

原创【业务相关】4 游戏数据分析

原创【业务相关】3 游戏数据分析

原创【业务相关】2 游戏相关指标

原创【大数据】基础知识 6

原创【大数据】基础知识 5

原创【大数据】基础知识 4

原创【大数据】基础知识 3

原创【剑指offer】Python题解 1

原创【统计知识】 1

原创【大数据】基础知识2

原创【数据结构与算法】排序算法（python）2

原创【数据结构与算法】排序算法（python）1

原创【业务相关】1

原创【数据挖掘】Log

原创【大数据】基础知识1

空空如也

空空如也