- 博客(49)
- 收藏
- 关注
原创 根据各位大佬,30+风控特征衍生函数
PS:非原创,根据大佬的课程 复现#最近p个月,inv>0的月份数def Num(inv,p):df=data.loc[:,inv+‘1’:inv+str§]auto_value=np.where(df>0,1,0).sum(axis=1)return inv+’_num’+str§,auto_value#最近p个月,inv=0的月份数def Nmz(inv,p):df=data.loc[:,inv+‘1’:inv+str§]auto_value=np.where(df==0,
2020-09-28 00:25:04 433
原创 sklearn--分类器评估指标,损失函数
分类器评估指标1.精确率accuracy_score函数计算分类准确率:返回被正确分类的样本比例或者数量当多标签分类任务中,该函数返回子集的准确率,对于给定的样本,如果预测得到的标签集合与该样本真正的标签集合吻合,那么subset accuracy=1否则为零import numpy as npfrom sklearn.metrics import accuracy_score2.混...
2020-04-27 18:28:11 997
原创 sklearn--数据集的划分,超参数优化,模型验证
数据集的划分1.交叉验证kFold,GroupFold,StratifiedFold划分的策略如下1.将数据集S划分成K个不相交的子集2.从K个里面选一个作为测试数据,K-1个训练数据3.在K-1个训练数据上训练模型4.把这个模型放到测试数据集,得到分类率5计算K次得到平均值,作为该模型或者假设函数的真是分类率。过程繁琐,需要k此训练和K次测试2.留一/P法leaveoneo...
2020-04-26 20:33:59 613
原创 sklearn--自带数据集(1)
语法:from sklearn.datasets import XXXX今天主要学习的是小数据及 和 需要下载的数据集一、自带的小数据集(packageddataset):sklearn.datasets.load_ 鸢尾花数据集:load_iris():用于分类任务的数据集 手写数字数据集:load_digits():用于分类任务或者降维任务的数据集 乳...
2020-04-25 14:00:06 1799
原创 scikit-learn学前机器学习简单总结
在借助scikit-learn进行建模前先对机器学习有个大致汇总分类:有监督学习 无监督学习 强化学习有监督学习三要素:模型 策略 算法无监督学习:就是在没有标签情况下 给数据(样本)进行分类 常用的有聚类算法 PCA DBSCAN算法等等强化学习:强化学习的常见模型是标准的马尔可夫决策过程 强化学习是智能体(Agent)以“试错”的方式进行学习(例如男生追求女生 ...
2020-04-24 18:54:09 157
原创 主题模型
今天学习LDA 主要用于文本方面的算法大概意思懂了,不过代码方面好多还是不太懂! 打算在翻看下数据 具体理解下LDA 包含参数 超参调节等等...
2020-04-02 19:25:57 107
原创 贝叶斯网模型
朴素贝叶斯分类器 和 贝叶斯网络的区别就是,朴素贝叶斯分类器的各个特征属性之间是相互独立的,而贝叶斯网络研究的问题则针对于特征属性不独立的情况。贝叶斯网络的有向无环图中的节点表示随机变量,它们可以是可观察到的变量,或隐变量、未知参数等。认为有因果关系(或非条件独立)的变量或命题则用箭头来连接(换言之,连接两个节点的箭头代表此两个随机变量是具有因果关系,或非条件独立)。若两个节点间以一个单箭头连接...
2020-03-29 23:25:51 220
原创 金融风控机器学习第三十四天---拜师课堂 EM算法
最大期望算法,是在概率模型中寻找参数最大似然估计或者最大后验估计的算法,其中概率模型依赖于无法观测的隐性变量。最大期望算法经过两个步骤交替进行计算:第一步是计算期望(E),利用对隐藏变量的现有估计值,计算其最大似然估计值;第二步是最大化(M),最大化在E步上求得的最大似然值来计算参数的值。M步上找到的参数估计值被用于下一个E步计算中,这个过程不断交替进行。看了视频课 还是有点迷糊 根...
2020-03-26 22:54:46 353
原创 金融风控机器学习第三十三天---拜师课堂 聚类
聚类是一种无监督学习任务。聚类的结果应该满足:“簇内相似度”高且“簇间相似度”低原型聚类:k均值算法(k-means)、高斯混合聚类算法.原型聚类算法假设聚类结构能够通过一组原型刻画,是最为常用的方法.此类算法首先初始化原型,然后对原型进行迭代更新求解。密度聚类:DBSCAN密度聚类假设聚类结构能够通过样本分布的紧密程度确定.此类算法从样本密度的角度出发来考察样本之间的可连接性,并基于可...
2020-03-26 00:03:37 298
原创 金融风控机器学习第三十二天---拜师课堂 SVM
有监督学习:需要事先对数据打上分类标签,这样机器就知道数据属于哪一类。可以做2分类也可以多分类 (1)1V1(2)1V多VM就是帮我们找到一个超平面 ,这个超平面能将不同样本划分,使得样本集中的点到这个分类超平面的最小距离(分类间隔)最大化,在这个过程中 支持向量 就是离 分类超平面 最近的样本点,如果确定了支持向量也就确定了这个超平面,所以支持向量决定了分类间隔是多少,在最大间隔以外...
2020-03-15 22:16:52 164
原创 金融风控机器学习第三十一天---拜师课堂 机器学习算法--提升
之前学习了bagging 主要是通过选取样本 特征选取 等等随机 在样本与特征上做选择 随机森林就是这样的今天主要是通过模型的提升 提高成功率 由弱分类器到强分类器机器学习的大部分模型 都是建立损失函数 是的损失函数取最小XGBoosrAdaboost...
2020-03-11 00:08:47 144
原创 金融风控机器学习第三十一天---拜师课堂 机器学习算法--决策树 随机森林
ID3 c4.5的核心是熵ID3c4.5cart过拟合解决一般 用剪枝 或者 随机森林随机森林代码:#!/usr/bin/python# -*- coding:utf-8 -*-import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport mat...
2020-03-08 19:08:35 241
原创 金融风控机器学习第三十天---拜师课堂 机器学习算法--决策树、线性回归、岭回归、逻辑回归
from sklearn.datasets import load_bostonfrom sklearn.linear_model import LinearRegression, SGDRegressor, Ridge, LogisticRegressionfrom sklearn.model_selection import train_test_splitfrom sklea...
2020-03-06 11:47:42 189
原创 金融风控机器学习第二十九天---拜师课堂 机器学习算法--朴素贝叶斯
from sklearn.datasets import load_iris, fetch_20newsgroups, load_bostonfrom sklearn.model_selection import train_test_split, GridSearchCVfrom sklearn.neighbors import KNeighborsClassifierfrom skle...
2020-03-04 22:36:38 162
原创 金融风控机器学习第二十八天---拜师课堂 机器学习算法--k-近邻算法
from sklearn.feature_extraction import DictVectorizerfrom sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizerfrom sklearn.preprocessing import MinMaxScaler, StandardScaler, Impu...
2020-03-04 22:35:23 175
原创 金融风控机器学习第二十七天---拜师课堂 机器学习算法--回归(1)
回归 似然函数 最小二乘法简单记忆—笔记中简单记L1+L2正则综合机器学习中,主要用下面的算法
2020-03-02 13:04:21 143
原创 金融风控机器学习第二十六天---拜师课堂 机器学习算法--数据清理
今天总体跟着视频学习了一下大概流程,重中之重是前期的数据准备和清洗我觉得今天的重点在于 6.3的py文件如果不理解的我会在下面查询后增加注释pd.set_option(‘display.width’, 200)data = pd.read_excel(‘sales.xlsx’, sheetname=‘sheet1’, header=0)print ‘data.head() = \n’,...
2020-02-29 20:43:11 173
原创 金融风控机器学习第二十五天---拜师课堂 机器学习导论
今天的学习笔记 总共涉及到7天(给自己来了一个综合补充浏览)(80多小时的视频 与 2本书 由于信息量很大 所以记住的不多 只是在大脑中基本有了印象 方便自己有个大致了解)看完导论课程,在考试中发现了一些自己的问题,在群里与@夏天 老师询问了一下大概流程 并且与 @胡子 老师询问了一些在工作中数学与模型的关系根据以上,与7天中学习内容(主要是分为已学巩固 与 课前预习 两...
2020-02-28 15:51:09 147
原创 金融风控机器学习第二十四天---拜师课堂 机器学习导论
今天主要学期了机器学习导论(1)大数据和机器学习阶段的区别和联系基础:数据的存储和统计计算做法:从大量的数据中发现或挖掘潜在的价值的需要利用机器学习算法结合数据构建模型,通过模型对现实事件作出预测大数据4V特征大数据数据量大数据种类多 结构化数据 非结构化数据 半结构化数据速度快 数据增长速度快 数据处理的速度快 价值密度低-价值高 机器学习从大量数据中寻找有价...
2020-02-17 23:07:44 166
原创 金融风控机器学习第二十三天---拜师课堂 机器学习数学基础加强
今天 先 学习了50页 《mysql必知必会》50页《python数据分析》(pandas)100页 《程序员的数学1》今天看了1.机器学习与数学分析.flv2.概率论与贝叶斯先验.flv (次视频中贝叶斯先验放在下节)首先,对其中的数学知识基本忘记了,只是跟着看了一遍,大致了解一下,然后在针对里面不懂得内容进行额外补习!目前急需补充的知识点为 微积分的概念!机器学习 通过数...
2020-02-10 23:53:49 186
原创 金融风控机器学习第二十二天---拜师课堂 科学数据包 mysql
由于该课程总共两天看完 所以打算一起总结!创建数据库CREATE DATABASE ace CHARACTER_SETS UTF8;查看数据库SHOW DATABASES;SHOW CREATE DATABASE ace;删除数据库DROP DATABASE ace;切换数据库use 数据库名称数据类型创建表 —总结CREATE TABLE [IF NOT EXISTS...
2020-02-07 17:44:56 135
原创 金融风控机器学习第十九天---拜师课堂 科学数据包 matplotlib
今天主要学习了 matplotlib(一)今天就不写代码用于复习了 说下自己的理解数据可视化是建立在对数据的理解基础上的,可视化只是为了更好的视觉层面理解所分析数据,数据分析不是只要熟悉了代码代码能做出来就可以的,数据的思维要培养,现在这点我还比较欠缺, 为什么要这样分析,为什么这样分析对自己最终的结果有帮助,这个需要多看一些数据大咖的文章, 目前我理解的是数据是为了业务服务,业务层面的...
2020-02-05 00:51:02 117
原创 金融风控机器学习第十八天---拜师课堂 科学数据包 pandas(2)
今天主要学习了 pandas 的索引索引和选择对应的操作,语法和返回结果选择一列 -> df[col] -> Series根据行标签选择一行 -> df.loc[label] -> Series根据行位置选择一行 -> df.iloc[label] -> Series选择多行 -> df[5:10] -> DataFrame根据布尔向量...
2020-02-04 00:21:14 268 2
原创 金融风控机器学习第十五天---拜师课堂 排序算法
今天主要学习了 :1.冒泡排序2.选择排序3.插入排序4.希尔排序5.快速排序6.归并排序代码如下:
2020-01-30 17:48:38 134
原创 金融风控机器学习第九天---拜师课堂 多进程 多线程 装饰器
今天学了第12课主要学了多线程 进程 装饰器本课只是大概了解 并没有特别懂 也查看了 添加链接描述 大概看了看装饰器的案例
2020-01-22 22:23:09 180
原创 金融风控机器学习第八天---拜师课堂 正则表达式 OS模块
今天学了第11课主要学了正则表达式 OS模块正则表达式东西有点多 看视频理解了一点 后来通过网上看资料,在回想视频内容 大概可以简单运用
2020-01-21 21:13:00 129
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人