自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(189)
  • 收藏
  • 关注

原创 学习

学习方式

2020-10-31 18:21:07 31

原创 Python办公自动化

问题1TypeError: expected <class 'str'>已解决openpyxl版本问题换成2.5.0版本以下(2.4.9)就可以帮助链接

2021-06-15 15:47:27 141

原创 ab实验

1. 简介1.1 定义在工作和互联网大厂中经常被用来验证一个功能最终是否会被上线的重要手段1.2 原理来源于假设检验比如,现在有两个同质的样本组,对其中一个组做出某种改动观测这个改动对于我们关注的核心指标是否有显著的影响这个实验中原假设就是这项改动并不会对我们所关注的核心指标有显著的影响如果做完这个实验后发现p值足够小,则推翻原假设,证明这项改动会对多关注的核心指标产生显著影响1.3 本质同质样本组的对照实验2. 辛普森悖论2.1 定义在某种条件下所关注的两组数据分别

2021-01-06 23:12:44 458

原创 欠拟合和过拟合

1. 简介1.1 定义以线性回归为例不划分数据集一阶线性方程import numpy as npimport matplotlib.pyplot as plt# 设置随机种子,使得随机的数都一样(可以不设)np.random.seed(666)# 1. 获取特征值x = np.random.uniform(-3, 3, size = 100)x# 2. 获取目标值# 定义表达式, 加了扰动,# normal:表示正态分布上的点y = 0.5 * x**2 + x

2021-01-02 20:24:42 38

原创 Pandas高级处理

1. 缺失值1.1 简介1.2 处理1. 判断是否包含NaN判断数据中是否包含NaN:pd.isnull(df)pd.notnull(df)获取缺失值的标记方式(NaN或者其他标记方式)2. 如果缺失值的标记方式是NaN存在缺失值nan:1、删除存在缺失值的:dropna(axis=‘rows’)注:不会修改原数据,需要接受返回值2、替换缺失值:fillna(value, inplace=True)value:替换成的值inplace:True:会修改原数

2020-12-26 21:56:07 69

原创 递归算法

定义自己调用自己终止条件拆解参数应用场景电影院座位山,庙,和尚,故事盗梦空间示例菲波那切数列 :f(n) = f(n-1) + f(n-2),f(0) = 0, f(1) = 1试题力扣

2020-12-25 13:15:59 57

原创 滑动窗口Sliding Window

目的:减少while循环解决数组中的定长问题力扣209,1456

2020-12-25 13:15:31 26

原创 分治算法

顾名思义,就是分而治之用到了递归编程技巧和归并排序力扣169,53,215

2020-12-25 11:43:22 26

原创 Spark SQL

1. Spark SQL1.1 定义Spark SQL是Spark中用于处理结构化数据的一个模块1.2 特性可以在Spark程序中无缝加入SQL查询使用相同的方式连接不同的数据源在已有的数据仓库中执行SQL或者 HiveQL 查询提供了 JDBC or ODBC的数据接口1.3 优势写更少的代码(Write Less Code)性能更高2. DataFrame2.1 定义DataFrame是一个分布式的行集合一旦RDD、DataFrame被创建,就不能更改只有ac

2020-12-23 15:02:11 28

原创 Spark Core

1. 简介1.1 定义专为大规模数据处理而设计的快速通用计算引擎与Hadoop的 MapReduce功能类似MapReduce V.S. Sparkspark快Spark框架组件丰富spark特点1、速度快(比mapreduce在内存中快100倍,在磁盘中快10倍)2、易用性(可以通过java/scala/python/R开发spark应用程序)3、通用性(可以使用spark sql/spark streaming/mlib/Graphx)4、兼容性(spark程序可以运行在s

2020-12-21 17:26:07 22

原创 HBase

1. 简介1.1 定义HBase是一个分布式的、面向列的开源数据库同样数据保存到列式数据库中RowKeyFILE INFOSAVE INFO1name:file1.txt type:txt size:1024path:/home/pics creator:Jerry2name:file2.jpg type:jpg size:5032path:/home creator:Tom非结构化数据存储结构化数据适合用二维表来展示的数据非结构化数据

2020-12-21 17:25:41 43

原创 Hive

1 特征筛选1 单特征分析什么是好特征?从几个角度衡量:覆盖度,区分度,相关性,稳定性覆盖度 采集类,授权类,第三方数据在使用前都会分析覆盖度覆盖度可以衍生两个指标:缺失率,零值率缺失率:一般就是指在全体有标签用户上的覆盖度零值率:很多信贷类数据在数据缺失时会补零,所以需要统计零值率区分度:是评估一个特征对好坏用户的区分性能的指标可以把单特征当做模型,使用AUC, KS来评估特征区分度在信贷领域,常用Information Value (IV)来评估单特征的区分度IV &

2020-12-21 17:24:53 22

原创 Hadoop

1. 简介1.1 定义Apache™ Hadoop® 是一个开源的, 可靠的(reliable), 可扩展的(scalable)分布式计算和存储框架1.2 应用场景搭建大型数据仓库PB级数据的存储 处理 分析 统计等业务起源于谷歌的三篇论文1.3 核心组件Hadoop Common: 协调其它Hadoop组件的通用工具Hadoop Distributed File System (HDFS™)多块多副本存储数据数据切分、多副本、容错等操作对用户是透明的Hadoop Map

2020-12-21 17:23:15 35 2

原创 特征筛选

1. 特征筛选单特征分析覆盖度区分度稳定性多特征筛选星座BorutaVIFRFEL1业务内部特征的监控前端稳定性后端区分度外部特征的评估评分型数据名单型数据保护隐私未来信息1.1 单特征分析1. 简介好特征可以从几个角度衡量:覆盖度,区分度,相关性,稳定性2. 分析角度2.1 覆盖度采集类,授权类,第三方数据在使用前都会分析覆盖度采集类 :如APP list (Android 手机 90%)授权类:如爬虫数据(20% 30

2020-12-21 17:14:31 359

原创 特征构造

1. 风控建模流程1.1 评分卡贷前 申请评分卡 Application score card贷中 行为评分卡 Behavior score card贷后 催收评分卡 Collection score cardA B逾期的客户是正样本C 能够被内催催回来的客户1.2 机器学习模型的完整工程流程准备明确需求模型设计业务抽象成分类/回归问题定义标签(目标值)样本设计特征工程数据处理,选取合适的样本,并匹配出全部的信息作为基础特征特征构建特

2020-12-21 15:22:43 528

原创 风控建模

1 风控建模流程1 评分卡简介贷前 申请评分卡 Application score card贷中 行为评分卡 Behavior score card贷后 催收评分卡 Collection score cardA B逾期的客户是正样本C 能够被内催催回来的客户2 机器学习模型的完整工程流程准备明确需求模型设计业务抽象成分类/回归问题定义标签(目标值)样本设计特征工程数据处理,选取合适的样本,并匹配出全部的信息作为基础特征特征构建特征评估

2020-12-21 15:21:11 1032

原创 排序算法

1. 简介1.1 常用术语时间复杂度:程序执行时间与数据输入规模的关系空间复杂度:程序存储空间与数据输入规模的关系稳定性:稳定:一组数据中,a在b前面并且a = b,排序后依旧a 依旧在b前面不稳定:一组数据中,a在b前面并且a=b,排序后a可能在b后面1.2 十大排序算法冒泡,插入,选择归并,快速桶排序,计数排序,基数排序堆排序,希尔排序Time排序:插入排序 + 归并排序1.3 面试考察点分析某个具体的排序算法(Time, Space, 稳定性)对比某几个排

2020-12-20 22:26:05 35

原创 XGBOOST

不同算法解决不同的问题,但是首先需要确定的是问题本身(分类还是回归)

2020-12-20 22:07:17 31 1

原创 Web技术解决方案

Web技术解决方案1. 对象存储解决方案2. 搜索解决方案3. 异步任务解决方案4. 定时任务解决方案5. 短信解决方案6. 缓存解决方案7. 即时通讯解决方案8. 认证解决方案9. 数据库集群解决方案10. 分布式ID解决方案11. 负载均衡解决方案12.页面静态化解决方案13. 消息队列解决方案14. 第三方登录解决方案15. 支付解决方案16.分布式存储解决方案17. 秒杀解决方案...

2020-12-19 16:16:26 58 1

原创 Jupyter Notebook

1. 简介一个ipython的web加强版1.1 定义Jupyter项目是一个非盈利的开源项目,源于2014年的ipython项目,因为它逐渐发展为支持跨所有编程语言的交互式数据科学和科学计算Jupyter Notebook,原名IPython Notbook,是IPython的加强网页版,一个开源Web应用程序名字源自Julia、Python 和 R(数据科学的三种开源语言)是一款程序员和科学工作者的编程/文档/笔记/展示软件.ipynb文件格式是用于计算型叙述的JSON文档格式的正式规范

2020-12-19 01:05:31 62 1

原创 评分卡模型构建

不同算法解决不同的问题,但是首先需要确定的是问题本身(分类还是回归)

2020-12-19 00:59:07 179 3

原创 推荐系统

1. 简介没有明确需求的用户访问了我们的服务, 且服务的物品对用户构成了信息过载, 系统通过一定的规则对物品进行排序,并将排在前面的物品展示给用户,这样的系统就是推荐系统信息过载 & 用户需求不明确分类⽬录搜索引擎推荐系统推荐系统 V.S. 搜索引擎行为方式意图个性化流量分布目标推荐系统的工作原理及作用社会化推荐 基于内容的推荐 基于流行度的推荐 基于协同过滤的推荐推荐系统的作用高效连接用户和物品提高用户停留时间和用户活跃程度有效的帮助产品实现其商业价值

2020-12-18 18:52:12 122 1

原创 样本不均衡

1. 简介通常分类机器学习任务期望每种类别的样本是均衡的,即不同目标值样本的总量接近相同。在梯度下降过程中,不同类别的样本量有较大差异时,很难收敛到最优解。很多真实场景下,数据集往往是不平衡的,一些类别含有的数据要远远多于其他类的数据在风控场景下,负样本的占比要远远小于正样本的占比2. 样本不均衡解决方案2.1 代价敏感在风控领域中,将一个坏用户分类为好用户所造成的损失远远大于将一个好用户分类来坏用户的损失,因此在这种情况下要尽量避免将坏用户分类为好用户类权重计算方法如下:weight

2020-12-18 18:45:08 126 1

原创 Gradient Boosting算法

重启

2020-12-18 18:40:00 35 1

原创 RFM会员价值度模型

1. 简介1.1 作用会员价值度用来评估用户的价值情况,是区分会员价值的重要模型和参考依据,也是衡量不同营销效果的关键指标之一。1.2 定义价值度模型一般基于交易行为产生,衡量的是有实体转化价值的行为。常用的价值度模型是RFMRFM模型是根据会员最近一次购买时间R(Recency)购买频率F(Frequency)购买金额M(Monetary)计算得出RFM得分通过这3个维度来评估客户的订单活跃价值,常用来做客户分群或价值区分RFM模型基于一个固定时间点来做模型分析,不同时间计算的

2020-12-14 19:11:05 1077

原创 Pandas

5.1Pandas介绍学习目标目标了解什么是pandas了解Numpy与Pandas的不同知道使用pandas的优势1. 简介1.1 定义2008年WesMcKinney开发出的库专门用于数据挖掘的开源python库以Numpy为基础,借力Numpy模块在计算方面性能高的优势基于matplotlib,能够简便的画图独特的数据结构1.2 优势Numpy已经能够处理数据,并且结合matplotlib解决部分数据展示等问题增强图表可读性回忆我们在numpy当中创建学生成绩

2020-12-14 14:20:04 114

原创 金融风控

一 金融风控相关业务介绍学习目标知道常见信贷风险知道知道信贷领域常用术语含义1. 信贷简介1.1 定义信贷业务,就是贷款业务,是商业银行和互联网金融公司最重要的资产业务和主要赢利手段通过放款收回本金和利息,扣除成本后获得利润。贷款平台预测有信贷需求用户的还款情况,然后将本金借贷给还款概率大的用户1.2 风险信用风险:借款人的的还款能力和还款意愿在贷款后出现问题的风险欺诈风险:借款人压根没想还钱,以诈骗为目的2. 风控简介2.1 定义信贷业务中,使用信用来预支金

2020-12-14 12:09:47 493

原创 GBDT

1. 简介GBDT 的全称是 Gradient Boosting Decision Tree,梯度提升树。GBDT使用的决策树是CART回归树当CART是回归树时,采用样本的最小方差作为节点分裂的依据CART树是二叉树。2. 回归树生成算法输入:训练数据集D输出:回归树选择每个特征的每个取值,根据该值对样本进行划分成两部分。分别计算每部分的方差,计算过程:对每部分计算平均值,用每部分的每个取值减去平均值求平方再累加。即可得到每个特征每个取值的损失值,此时选择损失值最小的特征和对应的取值作为分

2020-12-11 18:17:08 54

原创 聚类算法

1. 简介1.1 现实中的应用用户画像,广告推荐,Data Segmentation,搜索引擎的流量推荐,恶意流量识别基于位置信息的商业推送,新闻聚类,筛选排序图像分割,降维,识别;离群点检测;信用卡异常消费;发掘相同功能的基因片段1.2 定义聚类算法:一种典型的无监督学习算法,主要用于将相似的样本自动归到一个类别中。1.3 聚类算法与分类算法最大的区别聚类算法是无监督的学习算法,而分类算法属于监督的学习算法。1.4 聚类算法api初步使用sklearn.cluster.KMean

2020-12-11 18:16:29 323

原创 集成学习

1. 简介集成学习是一种思想,不是某一个算法集成学习 (Ensemble Learning) 算法的基本思想就是将多个学习器组合,从而实现一个预测效果更好的集成学习器集成算法大致可以分为:Bagging,Boosting 和Stacking等类型。bagging 并行 多个学习器互不相关 可以并行训练boosting 串行 后一个学习器依赖于前一个学习器stacking 多个学习器的输出作为后面一个学习器的输入2. Bagging和随机森林2.1 简介每次采用有放回的抽样从训练集中取出t

2020-12-10 20:11:56 130

原创 分类算法

1. 简介逻辑回归(Logistic Regression)是机器学习中的一种分类模型,逻辑回归是一种分类算法,虽然名字中带有回归。2. 应用场景数据不均衡问题广告点击率是否为垃圾邮件是否患病金融诈骗虚假账号3. 原理线性回归:通过sigmoid函数对线性回归输出结果进行转化,转化到 (0,1) 之间。此时这个结果可以认为是取某个类别的概率值。sigmoid: h(t) = 1/(1+e^(-t))def sigmoid(t): return 1/(1+np.e**

2020-12-09 18:53:16 659

原创 决策树

1. 简介概念:是一种树形结构,本质是一颗由多个判断节点组成的树其中每个内部节点表示一个属性上的判断,每个分支代表一个判断结果的输出,最后每个叶节点代表一种分类结果。构建决策树from sklearn.tree import DecisionTreeClassifiertree = DecisionTreeClassifier(max_depth=2,criterion="entropy")tree.fit(X,y)通过上述分析可知:决策树是非参数学习算法决策树可以解决分

2020-12-09 18:52:20 68

原创 逻辑回归

1. 简介1.1 定义逻辑回归(Logistic Regression)是机器学习中的一种分类模型逻辑回归是一种分类算法,虽然名字中带有回归由于算法的简单和高效,在实际中应用非常广泛1.2 特点解决的是一个二分类问题逻辑回归的输入是线性回归的输出1.3 应用场景广告点击率是否为垃圾邮件是否患病金融诈骗虚假账号特点:都属于两个类别之间的判断逻辑回归就是解决二分类问题的利器1.3 原理要想掌握逻辑回归,必须掌握两点:逻辑回归中,其输入值是什么如何判断逻辑

2020-12-09 00:40:59 188

原创 编程语言

1. 简介1.1 定义人与计算机交流的语言1.2 作用开发计算机软件(程序设计语言)处理数据等2. 分类2.1 高级语言1. 示例a + b2. 特点与英语比较相似,方便学习组成部分是由英语,数字,运算符执行速度慢3. 地位第三代程序设计语言4. 分类1. 结构化语言C,C++,Java,C#JavaScriptPython2. 面向对象Java,Python3. 应用流程1. 编辑2. 编译3. 解释/解析4. 执行2.2 汇编语

2020-12-08 12:13:46 326

原创 计算机系统

参考文档:https://www.processon.com/view/link/5fcef86e1e085306e0e5b18b

2020-12-08 11:57:10 23

原创 Python内置函数

1. zip()函数"""zip()函数简介:将可迭代的对象作为参数,将对象中对应的元素打包成一个个元组,然后放回由这些元组组成的对象(Python2中返回的是列表)语法: zip([iterble, ...]) 参数:iterable:一个或多个迭代器返回值: 一个对象作用:节约内存使用:使用list()准话来输出列表注意:1. 如果各个迭代器的元素个数不一致,则返回列表长度与最短的对象相同 2. 利用*号操作符,将元组解压为列表"""# 应用a = [1, 2, 3

2020-12-08 10:29:19 45

原创 梯度下降算法

1. 简介1.1 定义步长(Learning rate):步长决定了在梯度下降迭代的过程中,每一步沿梯度负方向前进的长度是超参数 0.1 0.01特征(feature):指的是样本中输入部分假设函数(hypothesis function):根据经验观察得到的目标值和特征值之间的关系的表达式损失函数(loss function):为了评估模型拟合的好坏,通常用损失函数来度量拟合的程度。1.2 推导流程1 构建假设函数,表示的是标签值和特征值之间的关系2 根据假设函数构建损失函

2020-12-07 17:49:41 131

原创 K-近邻算法

1 K-近邻算法1 knn算法特点思想极度简单应用数学知识少(近乎为零)虽然算法简单,但效果出奇的好缺点也是存在的,后面会进行讲解2 K-近邻算法首先有原始已知标签的数据,把需要预测的点和所有已知标签的点去计算距离找到和待预测点最近的k个点根据k个点的标签确定待预测点的标签。knn算法可以做回归问题也可以做分类问题3 K-近邻算法实现分类1 获取原始数据,包括特征值和目标值2 画出原始数据3 在图中标记出待预测样本4 计算出待预测样本和原始样本点的距离5

2020-12-06 18:11:17 131 1

原创 线性回归

1.线性回归简介1 定义与公式线性回归(Linear regression)是利用回归方程(函数)对一个或多个自变量(特征值)和因变量(目标值)之间关系进行建模的一种分析方式。[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-FGa6kroX-1607249076148)(day06.assets/_mathjax_53b3b51f.svg)]我们看到特征值与目标值之间建立了一个关系,这个关系可以理解为线性模型。线性回归当中主要有两种模型,一种是线性关系,另一种是非线性

2020-12-06 18:10:46 88

原创 Python树

"""Python树:体现父子关系概念:节点, 根节点:最上面的节点, 叶子节点:没有孩子的节点节点高度:节点到叶子结点的最长路径/边数节点深度:节点到根节点的最长路径/边数层:叶子结点到根节点的最长路径/边数 + 1 或 所有节点的个数树的高度:根节点到叶子结点的最长路径二叉树:每个节点最多有两个节点类别:普通二叉树:每个节点最多有两个子节点 满二叉树:除了叶子节点,每个节点都有左右两个子节点 完全二叉树:对树中的节点从上至下,从左至右进行编号,变好的节点与满二叉树的.

2020-12-06 00:37:47 43

空空如也

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除