数据挖掘学习笔记
查尔char
这个作者很懒,什么都没留下…
展开
-
Python数据可视化学习笔记——task01:初识Matplotlib
初识Matplotlib前言1. 认识Matplotlib2.Matplotlib 例子2.1 例子1例子23.Figure的组成4.讨论4.1 在工作或学习中通常何时会用到数据可视化,希望通过可视化达到什么目的?4.2 OO模式和pyplot模式的区别与联系前言Python有许多用于数据可视化的库,例如常见seaborn、pyecharts(echarts的Python版本)、ggplot(移植于R语言的ggplot2,但是有些差别,Python有其他方法可以调用R语言的ggplot2)、bokeh、原创 2020-12-14 23:21:46 · 520 阅读 · 0 评论 -
推荐系统Part5:GBDT + LR
本质上GBDT+LR是一种具有stacking思想的二分类器模型,所以可以用来解决二分类问题。这个方法出自于Facebook 2014年的论文 Practical Lessons from Predicting Clicks on Ads at Facebook原创 2020-10-30 23:35:33 · 301 阅读 · 0 评论 -
推荐系统Part4:Wide&Deep
推荐系统之:Wide&Deep1.介绍2.原理2.1 W&D模型的网络结构2.2 Google Play的推荐系统结构3.编程实现1.介绍Wide and deep 模型是 TensorFlow 在 2016 年 6 月左右发布的一类用于分类和回归的模型,并应用到了 Google Play 的应用推荐中。wide and deep 模型的核心思想是结合线性模型的记忆能力(memorization)和 DNN 模型的泛化能力(generalization),在训练过程中同时优化 2 个模原创 2020-10-27 20:53:06 · 233 阅读 · 0 评论 -
推荐系统学习笔记Part3:矩阵分解模型
推荐系统之:矩阵分解模型(Matrix Factorization,MF)1. 前言1. 前言推荐系统中最为主流与经典的技术之一是协同过滤技术(Collaborative Filtering),它是基于这样的假设:用户如果在过去对某些项目产生过兴趣,那么将来他很可能依然对其保持热忱。其中协同过滤技术又可根据是否采用了机器学习思想建模的不同划分为基于内存的协同过滤(Memory-based CF)与基于模型的协同过滤技术(Model-based CF)。其中基于模型的协同过滤技术中尤为 矩阵分解(Ma原创 2020-10-25 23:37:04 · 786 阅读 · 0 评论 -
推荐系统学习笔记Part 2:协同过滤Collaborative Filtering
统之协同过滤Collaborative Filtering1. 基本思想与算法核心2. 算法种类3. 相似度的相关计算方法3.1 杰卡德(Jaccard)相似系数3.2 欧式距离3.3 余弦距离(余弦相似度)3.4 皮尔逊相似度1. 基本思想与算法核心协同过滤推荐算法是诞生最早,并且较为著名的推荐算法。算法主要功能是:预测和推荐。预测过程是预测用户对没有购买过的物品的可能打分值,推荐是根据预测阶段的结果推荐用户最可能喜欢的一个或Top-N个物品。基本思想:是根据用户之前的喜好以及其他兴趣相近的用户的原创 2020-10-22 23:42:41 · 544 阅读 · 0 评论 -
推荐系统学习笔记Part1:推荐系统概述
推荐系统 (Recommendation System)1. 背景与定义2. 本次学习的相关推荐算法:3. 推荐算法中常用的评测指标3.1 用户满意度3.2 预测准确度3.2.1 评分预测3.2.2 TopN推荐3.3 覆盖率3.4 多样性3.5 新颖性3.6 AUC曲线4. 召回4.1 召回层在推荐系统架构中的位置及作用4.3 Embedding召回5. 参考资料1. 背景与定义互联网的出现和普及给用户带来了大量的信息,满足了用户在信息时代对信息的需求,但随着网络的迅速发展而带来的网上信息量的大幅增长原创 2020-10-19 20:00:54 · 1224 阅读 · 1 评论 -
【待完善】金融风控-贷款违约预测学习笔记(Part5:模型融合)
金融风控-贷款违约预测学习笔记(Part5:模型融合)1. 内容介绍2. 代码示例2.1 简单平均1. 内容介绍将之前建模调参的结果进行模型融合。 尝试多种融合方案,提交融合结果。(模型融合一般用于A榜比赛的尾声和B榜比赛的全程)模型融合是比赛后期上分的重要手段,特别是多人组队学习的比赛中,将不同队友的模型进行融合,可能会收获意想不到的效果哦,往往模型相差越大且模型表现都不错的前提下,模型融合后结果会有大幅提升,以下是模型融合的方式。平均:简单平均法:结果直接融合 求多个预测结果的平均值。pre原创 2020-09-27 22:28:32 · 345 阅读 · 0 评论 -
金融风控-贷款违约预测学习笔记(Part4:建模与超参调整)
金融风控-贷款违约预测学习笔记(Part4:建模与超参调整)1. 模型与其相关原理介绍2. 模型对比与性能评估2.2 逻辑回归2.3 决策树模型2.4 集成学习方法3. 模型评估方法3.1 留出法3.2 交叉验证法3.3 自助法3.4 总结:4. 模型评价标准5. 代码示例5.1 模块导入5.2 读取数据5.3 简单建模5.4 模型调参5.4.1 贪心调参5.4.2 网格搜索5.4.3 贝叶斯调参5.5 建立最终模型金融风控-贷款违约预测学习笔记(Part4:建模与超参调整))本节主要内容:模型创建,模原创 2020-09-24 21:34:28 · 444 阅读 · 0 评论 -
金融风控-贷款违约预测学习笔记(Part3:特征工程)
金融风控-贷款违约预测学习笔记(Part3:特征工程)特征预处理处理类别型特征和数值型特征缺失值填充时间格式处理对象类型特征转换到数值类别特征处理异常值处理异常检测方法一:均方差异常检测方法二:箱型图数据分桶特征分箱的目的:数据分桶的对象:分箱的原因:分箱的优点:分箱的基本原则:分箱算法:分箱结果的评价特征交互特征编码在树模型中使用labelEncode逻辑回归模型需要另外处理的特征工程特征选择Filter参数 threshold为方差的阈值Wrapper(Recursive feature elimina原创 2020-09-21 21:58:22 · 811 阅读 · 0 评论 -
【待完善】金融风控-贷款违约预测学习笔记(Part2:数据分析)
金融风控-贷款违约预测学习笔记(Part2:数据分析)通过EDA了解整个数据集的基本情况(缺失值,异常值,数据的分布)检验各变量之间的关系(是否存在相关性),变量与预测值直接的关系为后续的特征工程做准备import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport seaborn as snsimport datetime```pythondata_train = pd.read_csv('Data原创 2020-09-18 23:08:26 · 561 阅读 · 0 评论 -
金融风控-贷款违约预测学习笔记(Part1:赛题理解)
金融风控-贷款违约预测学习笔记(Part1赛题理解)1.关于项目1.1 项目背景1.2 项目数据集说明2. 项目初探2.1 项目理解2.1.1 个人理解2.1.2 知识补充2.1.3 分类指标评价计算示例2.2 查看数据集1.关于项目1.1 项目背景这是一个由Datawhale与天池联合发起的金融风控相关赛事。赛题以金融风控中的个人信贷为背景,要求选手根据贷款申请人的数据信息预测其是否有违约的可能,以此判断是否通过此项贷款,这是一个典型的分类问题。赛题目标是预测用户贷款是否会违约。提交结果为原创 2020-09-15 19:30:28 · 1889 阅读 · 0 评论