![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据分析
人之初哈哈
这个作者很懒,什么都没留下…
展开
-
python可视化
##配色————经常用的蓝色(#02a4de),金色(gold)和灰色(grey/grey40)#home页点击进对应文件夹,就可以直接open数据,df=open("sample.csv","r")#导入所有可能用到的包import randomimport mathimport pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport matplotlib.ticker as mtick plt.rcPar原创 2021-01-26 17:59:34 · 147 阅读 · 0 评论 -
Lift提升度,风险倍数指标
Lift提升度的计算逻辑是:在模型中算出来每个评分等级的分数,之后便将将打分后的样本按分数从低到高排序,取10或20等分,并将坏样本数与组内观察数作商,最后再将该值比各个自然分组与整体样本数的比值,这便是lift提升值的概念。某公司中4个产品(a/b/c/d)中,dpd30+的逾期的情况,整体的dpd30+的逾期率为1.6%,将每组数值跟总体(也叫大盘,为1.6%)取比值,我们能计算出每一组风险倍数的数值(倍数即除平均)。result_df['风险倍数'] = result_df['bad_rate']原创 2021-01-26 17:52:32 · 5382 阅读 · 1 评论 -
vim
三种模式(Linux命令模式,vim一般模式,编辑模式)i-----进入编辑Esc退出编辑,然后ZZ保存并退出, u撤销一步或相同多步ENTER,回车键,换行BACK SPACE,退格键,删除光标前一个字符DEL,删除键,删除光标后一个字符方向键,在文本中移动光标HOME/END,移动光标到行首/行尾Page Up/Page Down,上/下翻页Insert,切换光标为输入/替换模式,光标将变成竖线/下划线ESC,退出输入模式,切换到命令模式H 光标移动到这个屏幕的最上方那一行的第一个原创 2021-01-26 17:43:07 · 64 阅读 · 0 评论 -
information_schema
select concat(‘select "’,table_name,’",count(1) from ‘,table_name,’ union all’)from informaation_schema.tableswhere table_schema=“work1”;原创 2021-01-26 17:41:24 · 62 阅读 · 0 评论 -
SQL注意
##分组排序select *, Row_Number() over (partition by deptid order by salary desc) as rank from a##分页查询:limit 5,5等价于limit 5,offset 5不换行的简单注释,在注释文字前用“–”标识,如果注释内容特别多,多于一行,应把多行注释写在“/* … */”内。SQL语句中的所有保留字均需大写,且不要使用缩写,如ALL, AS, CASE, CREATE, DATABASE, DELETE, FR原创 2021-01-26 17:39:49 · 63 阅读 · 0 评论 -
维度建模
因果维度:如果某个维度的变化会导致事实表变化,则称其为因果维度。事实上,每个维度(比如时间维度)的变化都会造成事实表(比如销售量)的变化,因果维度的特殊性在于这种变化是主动的,用来描述决策者行为对事实表的变化,而时间等维度更多的是自然性的变化。因果维度的对立面是偶然维度,可能指的是相关而非因果的信息。促销维度是一种典型的因果维度,其中包括降价,活动等等2. 总线结构:这是对于公司不同部分在数据仓库建设方面的关联方法,增量的构建数据仓库。既然不同业务部门都要建立数据仓库,作者提出按...原创 2021-01-26 17:37:04 · 167 阅读 · 0 评论 -
数据分析工具快捷键
linux命令cd命令:切换目录 cd … cd zzls命令:查看文件与目录pwd命令:当前路径mkdir命令:新建新目录 mkdir zzrmdir命令:删除空的目录 rmdir zz(删除文件用rm)cp命令:复制文件或目录(-r必须)cp -r /root/zz/z1 /root/zz/z2mv命令:移动文件与目录,或更名 mv /root/zz/z1 /rootcat命令:查看文件内容 cat za.txthead命令:取出前面几行head za.txttail命令:取出后原创 2021-01-26 17:32:48 · 219 阅读 · 0 评论 -
数据分析(二)
数据集中,部分分类变量存在一定程度的缺失,而除了薪水以外的数值变量只存在极少的缺失。对于其余数值变量存在缺失的观测,我们直接采用舍弃的策略。舍弃数值变量存在缺失的变量后,训练集还剩 29951 个观测,测试集还剩 9997 个观测。我们所关心的就只剩如何处理分类变量以及薪水变量中存在的大面积缺失问题。因变量不平衡的问题大多数机器学习分类算法使用了两个假设:各个观测之间是独立的,因变量的分布是平衡的。在本问题中,各个观测之间的独立性并不令人怀疑,但显然因变量的分布极度不平衡。如果这些被错误率驱动的分类算原创 2021-01-26 17:29:32 · 144 阅读 · 0 评论 -
数据分析(一)
特征提取数据有40000 个报告编号,其中 30000 个给予了是否存在违约行为的信息。我们的目标是利用 30000 个有标注的观测拟合模 型并在 10000 个未标注的观测上做出预测。对于某些文件中存在的某个报告编号对应多条观测的状况,我们采用了求和,平均等方法构造出新的特征,并对所有的特征依据以下原则进行了筛选。• 贷款、贷记卡两张表与信用评级的相关数据在之后的未销户贷记卡或者未结清贷款、逾期(透支)信息汇总、贷记卡逾期/透支记录等几张表中均有所体现,所以我们选择从后几张表中提取我们所关心的解释变量原创 2021-01-26 17:24:25 · 98 阅读 · 0 评论