自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(36)
  • 收藏
  • 关注

原创 爬虫-知乎-评论

思路&代码参考微信公众号:Python与Excel之交,作者小刀以知乎热搜《男子因太能吃被「自助」餐厅拉黑,餐厅此种行为合法吗?》为例网页:男子因太能吃被「自助」餐厅拉黑,餐厅此种行为合法吗? - 知乎评论进入浏览器的开发者模式评论往下拉就会自动生成下一页,会有新的数据包真实的urlhttps://www.zhihu.com/api/v4/questions/499739058/answers?include=data%5B%2A%5D.is_normal%2C..

2021-11-18 21:32:35 766

原创 爬虫-腾讯视频-弹幕&评论

以电视剧《当家主母》为例网页:当家主母 第01集_1080P在线观看平台_腾讯视频弹幕进入浏览器的开发者模式真实urlhttps://mfm.video.qq.com/danmu?otype=json&callback=jQuery19109520777980786752_1637214421099&target_id=7517171629%26vid%3Dr00419n203n&session_key=0%2C0%2C0&timestamp=15.

2021-11-18 15:13:05 1025

原创 爬虫-芒果TV-弹幕&评论

以电影《怒火.重案》为例子网页:高清视频在线观看 - 芒果TV弹幕进入浏览器的开发者模式弹幕放在0.json里面,每分钟生成一个json真实网址:https://bullet-ws.hitv.com/bullet/2021/11/17/231055/14289123/0.json代码import pandas as pdimport requestsimport timeheaders = { 'user-agent':'Mozilla/5.0 ..

2021-11-18 01:03:09 1547

原创 风控策略设计

什么是规则?-为何评分之外还需要规则?策略-策略是什么?为达成业务经营目标,遵从风险政策要求,依托评分模型等信贷工具,建立起业务决策体系。对不同特征的目标对象,采取差异化处理的对策。-银行业务的核心一般指风控策略目前已逐步进入营销领域-方法论基于客户分类,不同分类给予不同处理,如审批、授信、催收等-工具规则、评分策略的基本概念-与政策、评分的区别贷后预警策略设计-科学的风险管理触发式预警全流程如何实现触发式预警-评分+规...

2021-11-17 23:06:46 1183

原创 反欺诈策略

五种金融机构常见风险:流动性风险、市场风险、信用风险、操作风险、政策风险欺诈种类介绍第一方欺诈:我就是“我” 恶意骗贷(FPD、中介包装,黑产等)第三方欺诈:我不是“我” 身份伪冒、盗用账户、团伙欺诈申请欺诈:身份伪冒、中介包装、黑产等交易欺诈:账户盗用、养卡、套现全面防范欺诈风险管理制度-监控&分析-流程、规则&模型-数据&系统支持什么样的数据可以应用到反欺诈用户环境属性:网络IP地址、设备指纹、地理位置用户自身属性:爬虫、第三方数据、自有.

2021-11-17 22:31:45 397

原创 贷后管理与催收策略

客户生命周期管理贷后管理目标贷后管理流程客户风险预警风险预警级别贷后管理策略-额度管理提升额度:提升额度,预期收益增加,风险敞口扩大、刺激高风险客户用信、可能刺激低风险客户用信降低额度:降低额度,预期收益减小,风险敞口减小、减少高风险客户用信、可能减少低风险客户数量,逆向选择冻结额度:逾期/高风险客户/异常客户冻结额度,控制高风险贷款产生-定价管理提升利率:提高利率,预期收益增加、减少低风险客户数量、可能减少高风险客户数量降低利...

2021-11-17 20:16:36 5380 1

原创 风控数据来源及分析技巧

数据来源及分类外部三方数据源:身份核验类数据、特殊名单类数据、行为特征类数据内部数据源:申请单类数据、设备类数据、贷后类数据身份核验类数据特殊名单类数据行为特征类数据内部数据源内外部数据源的接入分析及使用• 了解风控审批流程的设计及架构业务的适用性、风控策略的合理性、审批费用准⼊政策:年龄,地区,产品额度期限校验等身份验证:身份证实名认证,⼿机实名认证,银⾏卡三四要素等特殊名单:⿊名单,执⾏名单,失信名单等...

2021-11-17 18:00:15 1581

原创 贷前贷中风控体系

消费金融服务方:金融系、场景系、互联网系第三方支撑平台:获客平台、风控支持、系统服务、支付平台、贷后管理消费金融风控全流程贷前审查:信息采集、信息验证、反欺诈贷中评估:信用评估、授信贷后管理:贷后监控、催收管理基于数据驱动的风控环节贷前:精准营销、身份核验、反欺诈、辅助性授权数据、风险评分贷中:设备监控、手机号监控、位置监控、消费监控、信用卡监控、行为监控贷后:监控、失联催收、循环借贷、不良资产处置搭建风控体系的考量因素管理层1. 战略(1)业务目标和计划.

2021-11-17 17:59:31 3003

原创 消费金融盈利分析及风控能力建设

消费金融业务盈利分析消费金融业务的目标是获得合理的可接受的利润,总利润=单笔平均利润*放款笔数风险成本是提升盈利水平的关键因素风控能力的建设贯穿于整个信贷业务生命周期中,包含贷前申请、 贷中审核、贷后监控环节,主要有信用风险和欺诈风险两类。信用风险:信息不对称、还款能力不稳定等产生的信用风险 严重,如多头借贷、不良信贷记录等;欺诈风险:身份造假、信息造假的欺诈风险较高,如冒用身 份、黑中介伪造信息等贷前、袋中、贷后全流程风控能力建设客户信息验证:客户填写的信息与机构内部.

2021-11-16 17:43:06 442

原创 matplotlib

import matplotlib.pyplot as pltimport numpy as npplt.plot()绘制线性图绘制单条线型图 绘制多条线型图 设置坐标系的比例plt.fugure(figsize=(a,b)) 设置图例legend() 设置轴的标识 图例保存 fig=ply.figure() plt.plot(x,y) figure.savefig() 曲线的样式和风格(自学)#绘制单条线型图x = np.array([1,2,3,4,5])y.

2021-11-16 16:37:04 217

原创 用户分析-RFM模型&生命周期

import numpy as npimport pandas as pdfrom pandas import DataFrame,Seriesimport matplotlib.pyplot as plt第一部分:数据类型处理数据加载 字段含义: user_id:用户ID order_dt:购买日期 order_product:购买产品的数量 order_amount:购买金额 观察数据 查看数据的数据类型 数据中是否存储在缺失值 将order.

2021-11-16 16:29:36 411

原创 人口分析案例

需求: 导入文件,查看原始数据 将入口数据和各州简称数据进行合并 将合并的数据中重复的abbreviation列进行删除 查看存在缺失数据的列 找到有哪些state/region使得state的值NaN,进行去重操作 为找到的这些state/region的state项补上正确的值,从而取出掉state这一列的所有NaN 合并各州面积数据areas 我们会发现area这一列有缺失数据,找出是哪些行 取出含有缺失数据的行 找出2010年的全民人口数据 计算各州的人口密度

2021-11-16 16:17:35 112

原创 DataFrame基础操作巩固-股票分析

需求:股票分析1、使用tushare包获取某股票的历史行情数据2、输出该股票所有收盘比开盘上涨3%以上的日期3、输出该股票所有开盘比前日收盘跌超过2%的日期4、假如我从2010年1月1日开始,每月第一个交易日买入1手股票,每年最后一个交易日卖出所有股票,到今天为止,我的收益如何?1、使用tushare包获取某股票的历史行情数据:#tushare财经数据接口包import tushare as tsimport pandas as pdfrom pandas import Da

2021-11-16 16:05:35 2183

原创 DataFrame的级联&合并操作

级联操作pd.concat,pd.appendpandas使用pa.concat函数,与np.concatenate函数类似,只是多了一些参数:objs axis=0 keys join=‘outer’ / ‘inner’:表示的是级联的方式,outer会将所有的项进行级联(忽略匹配和不匹配),而inner只会将匹配的项级联到一起,不匹配的不级联 ignore_index=Flase匹配级联import numpy as npimport pandas as pdfrom pa

2021-11-16 15:43:00 337

原创 基于Pandas的数据清洗

源数据中会存在缺失值(空值) 重复值 异常值处理丢失处理有两种丢失数据: None np.nan(NaN) import numpy as nptype(None)#None对象类型type(np.nan)#NaN浮点型为什么在数据分析中需要用到的是浮点类型的空而不是对象类型? 数据分析中会常常使用某些形式的运算来处理原始数据,如果原数据中的空值为NAN的形式,则不会干扰或者中断运算。 NAN可以参与运算 None是不可以参与运算 在pandas中如果遇到了N

2021-11-16 15:30:44 1088

原创 Pandas高级操作

替换操作替换操作可以同步作用于Series和DataFrame中 单值替换 普通替换:替换所有符合要求的元素:to_replace=15,value='e' 按列指定单值替换:to_replace={列标签:替换值}value=‘value’ 多值替换 列表替换:to_replace=[] value=[] 字典替换(推荐)to_replace={to_place:value,to_place:value} import numpy as npimport pandas as

2021-11-16 14:39:00 99

原创 Pandas

两个常用的类,Series、DataFrameSeries Series是一种类似于一位数组的对象,由下面两个部分组成values:一组数据index:相关的数据索引标签Series的创建 由列表或numpy数组创建 由字典创建from pandas import Series#由列表创建s = Series(data=[1,2,3,'four'])#由numoy一维数组创建import numpy as nps = Series(data=np.random.randi

2021-11-16 14:05:29 488

原创 Numpy

import numpy as np#使用array()创建一个一位数组arr = np.array([1,2,3])#使用array()创建一个多维数组arr = np.array([[1,2,3],[4,5,6]])#数组和列表的区别是什么?#数组中存储的数据元素类型必须是同一类型#优先级:字符串>浮点型>整数#创建元素都是0的数组np.zeros(shape=(3,4))#创建元素都是1的数组np.ones(shape=(3,4))#创建有范围的平均数.

2021-11-04 17:45:20 80

原创 selenium

#导入模块from selenium import webdriver#制定网址url = 'https://www.taobao.com'#打开浏览器,指定为chrome浏览器,chromedrive是drive = webdriver.Chrome(r"C:\Program Files\Google\Chrome\Application\chromedriver.exe")#加载网页drive.get(url)#目标获取手机名称、价格、月销量、评论数#获取所有商品的链接,单数的ele.

2021-11-03 17:12:23 98

原创 requests

import requestsurl = 'https://rate.tmall.com/list_detail_rate.htm?itemId=637427053732&spuId=1956270204&sellerId=2206497777597&order=3&currentPage=1&append=0&content=1&tagId=&posi=&picture=&groupId=&ua=098%23E1.

2021-11-03 17:10:24 632

原创 量化风控策略-笔记

贷前1、精准营销2、合适客户身份3、前期客户信息搜集4、进件评分卡(A卡)之应用5、客户分类分层6、策略引擎之应用正常准入规则遵循灰色进件之处理拒绝件信息之留存委外渠道及销售渠道,依不同风险程度之进件管控与分群贷中1、数据整合或调整:客户工作、职务、地址、收入等变更还款记录或轨迹分析增贷或部分还款或提前结清2、监控风险或作必要之风险预警:设立“预警线”,以预定的P&L和滚动率来设置失联,关联人逾期后增“多头负债”,“黑名

2021-10-25 12:31:55 921

原创 互联网金融数据分析-笔记

现金贷业务框架:授信-激活-用额-还款-贷后

2021-10-25 11:54:54 451

原创 数据科学在风控中的应用-笔记

金融风控流程-信贷风控决策体系流程客户申请-资料填写-要素验证-合规性验证-规则验证-黑名单-反欺诈-信用评分-放款-贷后管理-某消费金融公司决策体系流程金融风控要求技能-技术层面统计学和数学知识,不要求精通,但要熟练基本概念,一般大学所学就够用较强的数据处理能力,数据库熟练运用熟练运用Python或者R熟练运用机器学习相关算法,LR、决策树、随机森林、Xgboost等-业务层面熟练金融风控相关知识熟练主流金融产品对相关场景有一定的了解了解相关监管

2021-10-25 00:16:46 214

原创 互联网数据分析-入门到实战-笔记

概述统计指标、业务数据、预制模型、自定义分析数据采集-指标建模-观测数据-数据分析-业务洞察数据使用的能力模型能力项 本课程 未来 建模 目标明确、流程单一的功能/模块 复杂产品的指标体系 工具 利用现有工具自身的特性 跨工具组合使用 方法 掌握9个常见分析方法 需求驱动的分析方法 应用 完成对业务现状的描述 用数据为业务直接产生价值/预测趋势及未来 一、指标建模1、数据指标什么是数据指标?-对当前业务有参

2021-09-14 18:13:04 1142

原创 静秋姐姐运营课程-笔记

一、运营都有哪些工作渠道、收入、内容、用户通过流程优化执行效率,通过数据提升业务效率二、初识互联网运营小米的用户运营产品环-通过社区和新媒体打通产品设计与用户反馈的闭环 活动环-引发用户对产品的思考,引发用户互动型传播京东的数据运营 保障-京东的可信赖度及成本安全 客户服务-通过现有资源提升用户满意度 营销-京东618到底应该发多少张券无印良品的流程运营 流程的高效率执行 规则的严...

2021-08-29 15:26:25 593

原创 珞珈老师PPT教学-笔记

一、基础操作Ctrl+M 快速生成幻灯片Shift+点选=全新幻灯片浏览Shift+拖拽=等比例绘图格式-调整-压缩图片 一般用150ppi 调整图片大小,减少内存格式-大小-裁剪-纵横比 调整图片比例格式-调整-删除背景 抠图动画:进入 强调 退出三个提高审美的网站:behance、站酷、花瓣设计-自定义-调整幻灯片大小二、字体字体的分类:宋体、黑体、楷体、其他字体的气质:1、粗犷有力有视觉冲击力 用于PPT封面、标题、宣传单、广告微软雅黑 加粗造字工房(非商用) 常

2021-08-29 14:42:45 3283

原创 十五天数据分析-笔记

一、数据分析的作用:1、通过观察数据知道当前发生了什么2、通过具体的数据拆解,理解为什么发生3、预测未来会发生什么4、支撑商业决策二、数据分析的应用场景:运营:活动运营、内容运营、商品运营、用户运营(用户分类、用户生命周期)产品:产品功能、产品体检、产品调研、用户需求调研市场:商务合作效果、渠道推广效果、投入产出比三、数据收集:数据埋点:如uv/pv、用户数、用户停留时间、浏览页面等用户行为数据第三方的数据平台:如Growing IO、SimilarWeb

2021-08-11 13:02:06 238

原创 Task05:窗口函数等--天池龙珠计划SQL训练营

5.1窗口函数5.1.1窗口函数概念及基本的使用方法窗口函数也称为OLAP函数。OLAP 是OnLine AnalyticalProcessing 的简称,意思是对数据库数据进行实时分析处理。为了便于理解,称之为窗口函数。常规的SELECT语句都是对整张表进行查询,而窗口函数可以让我们有选择的去某一部分数据进行汇总、计算和排序。窗口函数的通用形式:<窗口函数> OVER ([PARTITION BY <列名>] ORDE

2021-06-10 13:18:40 71

原创 Task04:集合运算-表的加减法和join等-天池龙珠计划SQL训练营

4.1表的加减法4.1.1 什么是集合运算集合在数学领域表示“各种各样的事物的总和”, 在数据库领域表示记录的集合. 具体来说,表、视图和查询的执行结果都是记录的集合, 其中的元素为表或者查询结果中的每一行。在标准 SQL 中, 分别对检索结果使用UNION,INTERSECT,EXCEPT来将检索结果进行并,交和差运算, 像UNION,INTERSECT,EXCEPT这种用来进行集合运算的运算符称为集合运算符。4.1.2 表的加法–UNIONSELECT produ...

2021-06-07 13:13:37 52

原创 Task03:复杂查询方法-视图、子查询、函数等-天池龙珠计划SQL训练营

3.1 视图3.1.1 什么是视图视图是一个虚拟的表,不同于直接操作数据表,视图是依据SELECT语句来创建的(会在下面具体介绍),所以操作视图时会根据创建视图的SELECT语句生成一张虚拟表,然后在这张虚拟表上做SQL操作。3.1.2 视图与表有什么区别用一句话非常凝练的概括了视图与表的区别—“是否保存了实际的数据”。所以视图并不是数据库真实存储的数据表,它可以看作是一个窗口,通过这个窗口我们可以看到数据库表中真实存在的数据。所以我们要区别视图和数据表的本质,即视图是基于真实表的一张虚拟的

2021-06-04 13:14:18 90

原创 Task02:SQL基础查询与排序-天池龙珠计划SQL训练营

Task02:SQL基础查询与排序一、SELECT语句基础1.1 从表中选取数据SELECT语句1.2从表中选取符合条件的数据WHERE语句1.3 相关法则星号(*)代表全部列的意思。 SQL中可以随意使用换行符,不影响语句执行(但不可插入空行)。 设定汉语别名时需要使用双引号(")括起来。 在SELECT语句中使用DISTINCT可以删除重复行。 注释是SQL语句中用来标识说明或者注意事项的部分。分为1行注释"-- "和多行注释两种"/* */"。二、算术运算符和比较

2021-05-21 13:30:43 89

原创 Task01:初识数据库与SQL-天池龙珠计划SQL训练营

一、初识数据库数据库是将大量数据保存起来,通过计算机加工而成的可以 进行高效访问的数据集合。该数据集合称为数据库(Database,DB)。用来管理数据库的计算机系统称为数据库管理系统(Database Management System,DBMS)。1.1 DBMS的种类DBMS 主要通过数据的保存格式(数据库的种类)来进行分类,现阶段主要有以下 5 种类型.层次数据库(Hierarchical Database,HDB) 关系数据库(Relational Database,RDB)这

2021-05-21 13:08:43 102

原创 天池实验室-Task04-Python数据分析:从0完成一个数据分析实战

数据分析入门活动赛事,利用Pandas分析美国选民总统喜好度数据集介绍所有候选人信息该文件为每个候选人提供一份记录,并显示候选人的信息、总收入、从授权委员会收到的转账、付款总额、给授权委员会的转账、库存现金总额、贷款和债务以及其他财务汇总信息。关键字段说明CAND_ID 候选人ID CAND_NAME 候选人姓名 CAND_PTY_AFFILIATION 候选人党派候选人委员会链接信息该文件显示候选人的身份证号码、候选人的选举年份、联邦选举委员会选举年份、委员会识别号、委员会类型、委

2021-05-14 13:34:03 221

原创 天池实验室-Task03-Python入门(下)

一、函数我们首先来介绍函数的定义。函数以def关键词开头,后接函数名和圆括号()。 函数执行的代码以冒号起始,并且缩进。 return [表达式] 结束函数,选择性地返回一个值给调用方。不带表达式的return相当于返回None。def functionname (parameters): "函数文档字符串" functionsuite return [expression]...

2021-04-30 13:15:05 122

原创 天池实验室-Task02-Python入门(中)

简单数据类型整型<class 'int'> 浮点型<class 'float'> 布尔型<class 'bool'>容器数据类型列表<class 'list'> 元组<class 'tuple'> 字典<class 'dict'> 集合<class 'set'> 字符串<class 'str'>一、列表列表是有序集合,没有固定大小,能够保存任意数量任意类型的 Python 对象,语法.

2021-04-24 23:29:29 102

原创 天池实验室-Task01-Python入门(上)

一、变量、运算符与数据类型1. 注释#表示注释,用于整行''' ''' 或者 """ """ 表示区间注释,在三引号之间的所有内容被注释2. 运算符算术运算符操作符 名称 示例+ 加 1 + 1- 减 2 - 1* 乘 3 * 4/ 除 3 / 4// 整除 3 // 4% 取余 3 % 4** 幂 2 ** 3比较运算符操作符 名称 示例> 大于...

2021-04-22 23:12:46 213

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除