2020.05.18
- 堡垒机:堡垒机,即在一个特定的网络环境下,为了保障网络和数据不受来自外部和内部用户的入侵和破坏,而运用各种技术手段监控和记录运维人员对网络内的服务器、网络设备、安全设备、数据库等设备的操作行为,以便集中报警、及时处理及审计定责。
- DQC:Data Quality Campaign,从英文翻译而来-数据质量运动是一个无党派,非营利性的倡导组织,成立于2005年,旨在提高教育数据的质量,可访问性和使用率。
- ETL:萃取、转置、加载
- XT系统:书写ETL代码的平台
- 强 、弱依赖:当一个依赖调用出现问题,可以暂时屏蔽或者可以调用备用依赖来提供有损服务的就是弱依赖,反之则是强依赖。
- UDF:User Defined Function,用户自定义函数
- 魔数:SQL查询
- kylin:Apache Kylin是一个开源的分布式分析引擎,旨在提供SQL接口以及对支持超大型数据集的Hadoop和Alluxio的多维分析。大数据分析型数据仓库
- OLAP:联机分析处理
- MPP:Massive Parallel Processing
- BG/BU:BG指事业群,包含BD; BD指事业部,包含BU; BU指业务线,产品线。 他们的关系:BU<BD<BG。
2020.05.19
- SLA:Service Level Agreement,服务级别协议也称服务等级协议、服务水平协议,是服务提供商与客户之间定义的正式承诺。
- SPARK:
- HOPE:
- ZEPPELIN:
- SCALA:
- KS值:ks(洛伦兹曲线)指标。KS(Kolmogorov-Smirnov)值越大,表示模型能够将正、负客户区分开的程度越大。KS值的取值范围是[0,1] 。KS曲线是两条线,其横轴是阈值,纵轴是TPR(上面那条)与FPR(下面那条)的值,值范围[0,1] 。两条曲线之间之间相距最远的地方对应的阈值,就是最能划分模型的阈值。
参考地址
2020.05.20
- HIVE分区表:hive分区表:是指在创建表时指定的partition的分区空间,若需要创建有分区的表,需要在create表的时候调用可选参数partitioned by,详见表创建的语法结构。
参考地址 - concat_ws:它是一个特殊形式的 CONCAT()。第一个参数剩余参数间的分隔符。分隔符可以是与剩余参数一样的字符串。如果分隔符是 NULL,返回值也将为 NULL。这个函数会跳过分隔符参数后的任何 NULL 和空字符串。分隔符将被加到被连接的字符串之间
- partition by
- row_number:参考地址
2020.05.21
- etl代码:ETL 提取、转换、加载。程序逻辑(实时作业、离线托管任务)、SQL (XT的ETL任务)
- left semi join:LEFT SEMI JOIN (左半连接)是 IN/EXISTS 子查询的一种更高效的实现。且保留左表
参考地址 - sequence-AAE
- AAE:对抗自编码器
- GAN:生成式对抗网络
- Auto-encoder:自编码
- KDL:Kinematics and Dynamics Library
2020.05.22
- 边权选择
2020.05.25
- 今天主要是完成上周没完成的事情,具体的问题不是很多
- row_numer可以用来去重,并且多处推荐用这个
- 按月的分区表,取上个月的数据,可以利用date_add(concat(substr(time, 1, 7), ‘-01’), -1)
2020.05.26
- 今天做了分析3,溪溪姐提了很多建议。(亲测,都减少了不少的时间)
- 对表的过滤可以在各自的子查询里用where条件先过滤,减少join时的数据量
- 尽量避免在on条件里写不等号的匹配,可以join完再用where条件过滤
- 有时候有些变量为空也代表了一种特征,有其存在的意义。结合背景来看特征。
2020.05.27
- iv值:IV值(Information Value),主要用来对输入变量进行编码和预测能力评估。特征变量IV值的大小即表示该变量预测能力的强弱。
参考地址 - woe值:WOE的全称是“weight of evidence”,即证据权重。直观上讲,WOE是对原始变量的一种编码形式,要对一个变量进行WOE编码,首先需要把这个变量进行分组处理,即分箱或者离散化,常用离散化的方法有等宽分组,等高分组,或者利用决策树来分组。参考同上。
- 特征选择流程:
- 【算法-粗筛】特征iv值、稳定性分析,对海量特征进行初筛,剔除稳定性不高或者iv值极低的特征(区分力、稳定性)。
- 【业务】与业务沟通,先行剔除业务上认为不建议使用的变量(业务)。
- 【算法-细筛】基于LASSO+CMIM对剩余特征进行细筛,获取待选特征池(区分力、增益)。
- 【业务-精筛】基于业务理解对变量分类,补全缺少的类别特征,删除类别过多的变量,保证数据维度的多样性(类别)
- 【算法】显著性检验,多重共线性检验,完成模型构建。(共线性、显著性)
- LASSO:Lasso算法(英语:least absolute shrinkage and selection operator,又译最小绝对值收敛和选择算子、套索算法)是一种同时进行特征选择和正则化(数学)的回归分析方法,旨在增强统计模型的预测准确性和可解释性
参考地址 - CMIM:学城找了篇文章。
- 显著性检验:因为我们想要判断样本与我们对总体所做的假设之间的差异是纯属机会变异,还是由我们所做的假设与总体真实情况之间不一致所引起的。 在我们的例子中,差异就是H的均值要高于Z的均值,但是最终的结论p>0.05证明,这个差异纯属机会变异(H均值>Z均值是偶然的,当H和Z的采样点数趋于无穷多时,H的均值会趋近等于Z的均值)而不是假设与真实情况不一致。如果p值<0.05,那么也就意味着我们的假设(H集合和Z集合没差别)与真实情况不一致,这就使得假设不成立,即H集合和Z集合有差别
参考地址 - 多重共线性检验:多重共线性是指线性回归模型中的解释变量之间由于存在精确相关关系或高度相关关系而使模型估计失真或难以估计准确。
一般来说,由于经济数据的限制使得模型设计不当,导致设计矩阵中解释变量间存在普遍的相关关系。完全共线性的情况并不多见,一般出现的是在一定程度上的共线性,即近似共线性。
参考地址 - PSI(模型分布稳定性):稳定度指标(population stability index ,PSI)可衡量测试样本及模型开发样本评分的的分布差异,为最常见的模型稳定度评估指针。其实PSI表示的就是按分数分档后,针对不同样本,或者不同时间的样本,population分布是否有变化,就是看各个分数区间内人数占总人数的占比是否有显著变化。
参考地址 - Lorenz:洛伦兹曲线最先用来描述社会收入不均衡的现象。迁移到风控领域中,则纵坐标表示的是累计坏样本占比,横坐标表示累计样本占比。
参考地址 - DPD(Days Past Due):【风险】逾期天数,自还款日次日起到实还日期间的天数。举例:DPD7+/30+,大于7天和30天的历史逾期。
- MOB(Month on book): 账龄。举例:MOB0,放款日至当月月底。MOB1,放款后第二个完整月份
- 表现期:表现期是对观察点上账户/客户表现进行监控的时间周期。这些账户根据截止到表现点的表现被分类成“好”和“坏”。表现期需要有足够的长度,不能够太短,从而保证样本群体分类的稳定性,使账户/客户的行为充分表现出来。但也不能够过于长,即使可获得很长时间的历史数据,还需要在完整性和数据质量之间保持平衡。
参考地址 - bad rate:坏样本率,分档内坏样本数 / 分档内全部样本数
- odds:好坏样本比,分档内坏样本数 / 分档内好样本数
- lift:提升度,分档内Bad Rate / 整体样本Bad Rate
参考地址 - 放量:?
- 拒绝率:分类问题中,若两个样本为同类(同一个人),却被系统误认为异类(非同一个人),则为错误拒绝案例(即本不该拒绝的但拒绝了)。举个例子,用你的指纹解锁你自己的手机时,无法认证通过,则称为错误拒绝,错误拒绝率高则系统安全性高。错误拒绝率(FRR)为错误拒绝案例在所有同类匹配案例中占的比例。
参考地址
2020.05.28
- B端:来主要指的是企业端用户,即这里的B端就是说的是B2B(Business-to-Business)中的企业之间的网络营销源。
- C端:C代表的是consumer (消费者)的英百文缩写,所以度C端用户指的是消费者,即产品的最终使用者。
- fine-tuning:fine-tuning是微调的意思,是用别人训练好的模型(即pre-trained model),加上我们自己的数据,来训练新的模型。fine tune相当于使用别人的模型的前几层,来提取浅层特征,然后在最后再落入我们自己的分类中。
2020.05.29
- Vanilla LSTM:原始lstm。vanilla类似于naive的意思
2020.06.01
- lda:关于LDA有两种含义,一种是线性判别分析(Linear Discriminant Analysis),一种是概率主题模型:隐含狄利克雷分布(Latent Dirichlet Allocation,简称LDA)。
2020.06.02
- alias method:参考地址
2020.06.14
- 多分类的处理方式
- 缺失值的处理方式:使用xgboost,可以对含有去缺失值的数据进行预测
2020.06.18
- 各项指标:precision、recall、accuracy、f1、auc、ks。更多关注的是auc、ks
2020.08.03
- 监督学习:有label学习
- 半监督学习:一般认为半监督学习包含纯半监督学习(pure semi-supervised learning)和直推学习(transductive learning)。
- 无监督学习:没有label的学习
- 主动学习:大多数情况下,有类标的数据比较稀少而没有类标的数据是相当丰富的,但是对数据进行人工标注又非常昂贵,此时学习算法可以主动地提出一些标注请求,将一些经过筛选的数据提交给专家进行标注,因此需要一个外在的能够对其进行标注的实体(通常是相关人员),即主动学习是交互进行的。这个筛选过程是主动学习主要研究点。
- 直推学习:而transductive指先等待未来测试点的到来,然后根据这些测试点加上原来的训练样本来建立分类器。因为多了这些测试点的信息(尽管是unlabeled),transductive的方法一般比inductive效果要好。
- 归纳学习:inductive指根据原有样本建立适用于任何未来可能的测试点的分类器。