杬豆枷-CSDN博客

原创 GBDT、XGboost

1.GBDT的基本原理是什么？采用决策树作为弱分类器的Gradient Boosting算法被称为GBDT梯度提升决策树（Gradient Boosting Decision Tree，GBDT）其基本思想是根据当前模型损失函数的负梯度信息来训练新加入的弱分类器，然后将训练好的弱分类器以累加的形式结合到现有模型中。开始训练第一棵树，训练的过程跟传统决策树相同，训练好第一棵树后，求得每个样本预测值与真实值之间的残差。用每个样本的残差训练下一棵树，直到残差收敛到某个阈值以下，或者树的总数达到某个上限为止

2021-03-25 21:02:20 175

原创百面A/B测试

1.在对模型进行过充分的离线评估之后，为什么还要进行在线A/B测试？（1）离线评估无法完全消除模型过拟合的影响，因此，得出的离线评估结果无法完全替代线上评估结果。（2）离线评估无法完全还原线上的工程环境。一般来讲，离线评估往往不考虑线上环境的延迟、数据丢失、标签数据缺失等情况。因此，离线评估的结果是理想工程环境下的结果。（3）线上系统的某些商业指标在离线评估中无法计算。离线评估一般是针对模型本身进行评估，而与模型相关的其他指标，特别是商业指标，往往无法直接获得。比如，上线了新的推荐算法，离线评估往往关

2021-03-25 15:31:48 124

原创百面3距离

1为什么在一些场景中要使用余弦相似度而不是欧氏距离？对于两个向量A和B，其余弦相似度定义为即两个向量夹角的余弦，关注的是向量之间的角度关系，并不关心它们的绝对大小，其取值范围是[−1,1]。当一对文本相似度的长度差距很大、但内容相近时，如果使用词频或词向量作为特征，它们在特征空间中的的欧氏距离通常很大；而如果使用余弦相似度的话，它们之间的夹角可能很小，因而相似度高。此外，在文本、图像、视频等领域，研究的对象的特征维度往往很高，余弦相似度在高维情况下依然保持“相同时为1，正交时为0，相反时为−1”的性质，

2021-03-25 15:16:00 140

原创百面2模型评估

1，准确率的局限性。准确率是分类问题中最简单也是最直观的评价指标，但存在明显的缺陷。比如，当负样本占99%时，分类器把所有样本都预测为负样本也可以获得99%的准确率。所以，当不同类别的样本比例非常不均衡时，占比大的类别往往成为影响准确率的最主要因素。奢侈品广告主们希望把广告定向投放给奢侈品用户，虽然模型的整体分类准确率高，但是不代表对奢侈品用户的分类准确率也很高。为了解决这个问题，可以使用更为有效的平均准确率（每个类别下的样本准确率的算术平均）作为模型评估的指标。2，精确率与召回率的权衡。p42搜索

2021-03-25 14:57:21 86

原创百面1特征工程

1为什么需要对数值类型的特征做归一化？线性函数归一化（ Min-Max Scaling ）零均值归一化（ Z-Score Normalization）在学习速率相同的情况下，x1的更新速度会大于x2，需要较多的迭代才能找到最优解。如果将x1和x2归一化到相同的数值区间后，优化目标的等值图会变成圆形，x1和x2的更新速度变得更为一致，容易更快地通过梯度下降找到最优解。在实际应用中，通过梯度下降法求解的模型通常是需要归一化的，包括线性回归、逻辑回归、支持向量机、神经网络等模型。但对于决策树模型则并不适

2021-03-25 13:58:15 142

原创数据库基础01

1.新建查询选择删除数据库create database kkb;show database;show create database kkb;use nkkb;drop database kkb;2,mysql 数据类型2.1整数类型整数类型字节TINYINT 1SMALLINT 2MEDIUMINT 3INT/INTEGER 4BIGINT 82.2浮点数位类型浮点数类型字节FLOAT 4DOU

2021-03-24 21:28:33 183

原创 sql面试01

1,各种连接方式的区别？inner join：内连接，根据两个表共有的列来匹配其中的行left join/right join/all join :以left join 为例，无论右表对应行是否包含满足连接条件的数据，左表的数据都会提取出来，则结果会将右表的这些值以空值的形式匹配进来。cross join：交叉连接，结果是笛卡尔积，就是第一个表符合查询条件的行数乘以第二个表符合查询条件的行数。2,索引的作用？索引是为了提高数据库查询数据的速度而增加的标志符号（通过创建唯一性索引，可以保证表中每一行

2021-03-24 19:53:43 54

原创集成学习 Bagging和Boosting的区别与联系

1，BaggingBagging即套袋法，其算法过程如下：1，从原始样本集中抽取训练集。每轮从原始样本集中使用Bootstraping的方法(有放回)抽取n个训练样本（在训练集中，有些样本可能被多次抽取到，而有些样本可能一次都没有被抽中）。共进行k轮抽取，得到k个训练集。（k个训练集之间是相互独立的）2，每次使用一个训练集得到一个模型，k个训练集共得到k个模型。（注：这里并没有具体的分类算法或回归方法，我们可以根据具体问题采用不同的分类或回归方法，如决策树、感知器等）3，对分类问题：将上步得到的k个

2021-03-22 21:45:49 1269

原创案例1（RFM）

1，数据概况：变量（4个）：·USERID：用户ID·ORDERDATE：订单日期，格式为YYYY-MM-DD，例如2016-01-01。·ORDERID：订单ID，每个订单的ID唯一，由纯数字组成。·AMOUNTINFO：订单金额，浮点型数据2实现import time # 导入时间库import numpy as np # 导入numpy库import pandas as pd # 导入pandas库import mysql.connector # 导入mysql连接库dtypes

2021-03-19 16:26:49 148

原创会员数据化运营分析小技巧（留存分析+AARRR+）

1.使用留存分析新用户质量用户留存指的是新会员/用户在经过一定时间之后，仍然具有访问、登录、使用或转化等特定属性和行为，留存率：留存用户占当时新用户的比例留存率按照不同的周期分为三类，以登录行为认定的留存为例：（1）日留存，细分：·次日留存率：（当天新增的用户中，第2天还登录的用户数）/第一天新增总用户数·第3日留存率：（第一天新增用户中，第3天还有登录的用户数）/第一天新增总用户数·第7日留存率：（第一天新增用户中，第7天还有登录的用户数）/第一天新增总用户数·第14日留存率：（第一天新增

2021-03-19 14:58:25 2330

原创会员流失预测模型+会员特征分析模型+营销响应预测模型

会员流失预测模型常见的属于流失的状态定义示例：·会员已经退订公司的促销活动；·会员打电话要求将自己的信息加入通知黑名单；·会员已经连续6个月没有登录过网站；·针对会员发送的关怀激励活动中没有任何有效反馈和互动；·会员最近1年内没有任何订单。上述流失状态可以归为两类：一类是会员有明确的表达，不再希望接收到公司的相关信息；另一类是会员没有明确的表示，但是在业务关注的主要领域内，没有得到有效反馈。**算法：**会员流失预测模型的实现方法属于分类算法，常用算法包括逻辑回归、支持向量机、随机森林等

2021-03-19 13:43:16 1889

原创会员数据化运营

会员数据化运营·会员的生命周期状态是什么；·会员的核心诉求是什么；·会员的转化习惯和路径是什么；·会员的价值如何；·如何扩大市场覆盖、获得更多的新会员；·如何更好地维系老会员；·应该在什么时间、采取何种措施、针对哪些会员做哪些运营活动；·在特定运营目标下，应该如何制定会员管理策略，包括行为管理、体验管理、增值服务、信息管理、营销管理、客户关怀等。应用场景会员营销·以信息化的方式建立基于会员的客户关系管理系统，促进所有会员数据的信息化；·通过特定方法将普通用户拓展企业会员，并提高新

2021-03-19 13:15:46 232

原创 RFM RFE

会员价值度模型RFM1，定义RFM模型是根据会员最近一次购买时间R（Recency）、购买频率F（Frequency）、购买金额M（Monetary）计算得出RFM得分，通过这三个维度来评估客户的订单活跃价值，常用来做客户分群或价值区分。该模型常用于电子商务（即交易类）企业的会员分析。基本实现过程：步骤1 设置要做计算时的截止时间节点（例如2017-5-30），用来做基于该时间的数据选取和计算。步骤2 在会员数据库中，以今天为时间界限向前推固定周期（例如1年），得到包含每个会员的会员ID、订单时

2021-03-19 00:55:34 605

原创算法整理模板01

STEP1：整体概况决策树是一种对样本进行分类的树形结构，也能够进行回归预测。决策树主要包含3种结点：根节点——初始结点；叶节点——最终分类结果结点；内结点——树内部进行判断的条件结点-即特征，在决策树中，每一个样本都只会被一条路径覆盖。STEP2：生成原理决策树常见的生成算法有三种，ID3，C4.5以及Cart。以ID3算法为例介绍一下决策树的生成原理。第一步，计算信息增益。ID3算法是利用信息增益进行特征选择的。信息增益是指，已知某一特征xi后，使得样本整体特征不确定性减少的程度。第二步，在每

2021-03-18 12:36:27 93

原创指标01

面试准备任务：提前准备好所有行业的指标体系（电商、内容、游戏、风控…），参考人人都是产品经理或者《精益数据分析》的文章内容自行思考。问题：如果让你构建指标体系，监控知乎每天的数据，你会怎么做？第一，互联网公司的运作离不开用户和商业变现：【基础】指标定义成了流量和收入。第二，因为互联网公司行业五花八门，电商、短视频、新闻、游戏等等需要关注的东西各不相同，各具特色，所以【附加】指标则是根据产品的具体特征来回答的，就像知乎作为一个问答社区，我选择的【附加指标】就是内容和互动。综上从用户流量、收入、内容、互

2021-03-18 12:10:58 80

原创业务面试01

分析GMV/日活/转化率/客单价/跳转率/CPC/毛利率……等各种指标的波动问题“如果告诉你GMV同比下降了20%，你要怎么分析？”“日活跃人数周环比下降了15%，怎么用数据分析得到原因？”“转化率同比下降15%，会从哪些角度进行考虑”1，分析电商平台GMV同比下降20%,【提出问题】——>【作出假设】——>【验证假设】——>【得到结论】第一步：验证数据的准确性。很多时候会由于底表数据质量问题导致数据失误，不需要上升到分析阶段。第二步：在排除数据自身错误的前提下，展开多维度

2021-03-18 11:34:21 225

原创费米估算问题

1，全中国一年要消费多少猪肉（需求端）公式1：全中国一年的猪肉消费量=每天消费猪肉量全国人数一年的天数**公式2：**每天消费的猪肉量=每天消耗的肉量猪肉在肉类食材中的占比联想自己：一份辣椒炒肉能够干掉一餐米饭，结合买菜经验，我一餐的肉量（注意，是肉量，不是猪肉量）约100G。在这里联想一下在西餐店吃牛排，一块牛排的重量约100G-120G。那么可以更加确信的得到：每天消耗的肉量=100G2餐=200G再仔细思考：肉类=猪肉+牛羊+鸡鸭+水产+……，而猪肉是大部分最常食用的肉类，那大胆的给出估算：

2021-03-18 10:56:28 658

原创 AB测试

1，假设检验假设检验是用统计数据来判断命题真伪的方式。我们常常会假设两个命题：H0：备受质疑的命题H1：有待验证的问题P值就是在H0假设成立的情况下，得到样本观察结果或更极端的观察结果出现的概率。简单的理解成P代表了对H0命题的支持程度。所以P值越小，H0命题正确的概率就越小，H1命题正确的概率越大。我们有常常会指定显著性水平α=0.05，当P<α时，H0命题成立的概率<0.05，这是一个受到统计学支持的假命题。2，置信区间和置信度在假设检验的过程中，我们往往采用样本数据特征来估计整

2021-03-18 10:21:58 234

原创 hive01

rootsu - hadoopstart-all.shjpscd /opt/module/apache-hive-3.1.1-bin/bin/hivecd …ll[]$bin/hive一、进入hive安装目录关闭hive，关闭 hadoop，jps查看进程确定正常关闭hadoop不启动，hive不会启动

2021-03-14 14:01:33 54

原创 hive01_hadoop

第一步node100 login: root —>密码为root第二步切换用户:[root@node100~]# su -hadoop第三步启动hadoop （无空格）start-all,sh注 Linux 可以按Tab键补全判断是否正常执行jps ，一共6个则正常如果少一个重启集群stop-all.sh停掉查看Linux本地文件的几种方法vim stu_messages.txtless stu_messages.txtmore stu_messages

2021-03-13 22:02:30 101

原创 Linux基础01

cd/etc/ 进入/etc这个目录cd … / 返回上级目录cd 进入当前用户家目录su - 用户名切换用户ls 列出目录下的文件ll 列出目录下的文件ifconfig 查看网卡配置信息mkdir 新建一个目录/文件夹touch 新建一个文件rm -rf 文件删除文件/目录vim 文件编辑器 1一般模式 2插入模式 3命令模式...

2021-03-13 18:02:31 67

原创 Linux基础1

su 命令用户切换语法 su - 用户名 #完全的环境变量用户切换logout退出当前系统用户cd命令change directory更改目录语法：cd 可选的参数文件夹几个特殊目录：. 当前工作目录… 上一级的工作目录上一次的工作目录~ 当前系统登录的用户家目录ls命令list列出文件夹中的内容语法: ls 可选参数可选文件夹对象-a all的意思，显示出所有的文件内容（含隐藏文件）ls -l 详细的弹出文件夹内容ls -h 输出文件大小ls -l -.

2021-03-11 15:33:57 58

转载特征选择

版权声明：本文为CSDN博主「happy1yao」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。原文链接：https://blog.csdn.net/weixin_41940752/article/details/98469595————————————————1，特征工程又包含了Feature Selection（特征选择）、Feature Extraction（特征提取）和Feature construction（特征构造）等子问题。2.特征选择的目的在实际

2021-03-09 23:52:02 1377

weixin_48365923的博客