自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(25)
  • 收藏
  • 关注

原创 python pandas处理str函数总结

aaa

2022-02-08 14:30:08 510

原创 关于根据活跃度给用户分类的SQL语句编写和优化

前言2022.01.25用了一个小时完成了牛客网上面的一道题,从35行代码改到23行,附上过程和一些思考总结。题目概述描述用户行为日志表tb_user_log(uid-用户ID, artical_id-文章ID, in_time-进入时间, out_time-离开时间, sign_in-是否签到)问题:统计活跃间隔对用户分级后,各活跃等级用户占比,结果保留两位小数,且按占比降序排序。注:用户等级标准简化为:忠实用户(近7天活跃过且非新晋用户)、新晋用户(近7天新增)、沉睡用户(近7天未活

2022-01-25 13:05:51 1212

原创 SQL计算指标

1.次日留存率2.DAU MAU3.平均活跃天数

2021-12-06 20:01:13 561

原创 逻辑斯蒂回归模型

前言系统性地梳理一下逻辑斯蒂回归代码实现,顺便存档。关于原理部分的笔记在平板上,在最后一部分可以用到。目录:1.R语言实现(glm函数)2.Python实现(库)3.手撕Python1.R语言实现直接上代码,内容参考《统计学习导论》#这里使用ISLR库的smarket(股票市场)数据的数值和图像先进行描述性统计分析#该数据集包括从2001年年初至2005年年末1250天里S&P500股票指数的投资回报率#数据中记录了过去5个交易日中的每个交易日的投资回报率,从Lag1到lag5

2021-11-05 18:25:05 424

原创 列联表——2 CVs

前言关于两个分类变量(CV)相关列联表的一些内容和相关的检验,希望可以用R和Python实现,现只更新了R1.R与列联表在R中创建列联表需要导入包gmodelslibrary(gmodels) host_table=CrossTable(host_purchase$purchase,host_purchase$host,prop.chisq = F,prop.c=F,prop.r=F,prop.t=F) 创建列联表的函数是CrossTable,第一个参数prop.chisq为Ture会在每个

2021-11-01 10:41:09 278

原创 R语言可视化

前言记录一些R语言中的可视化方法(随时更新)1.图像设置参考https://blog.csdn.net/weixin_42120275/article/details/117140912具体例子:par(mar=c(5,9,4,2))之后在下面画图就可以了

2021-10-31 18:45:41 824

原创 python常用函数

dir()map.head.info

2021-06-09 18:34:01 145 2

转载 建模中需要注意的问题

前言在完善随机森林模型的过程中遇到了大佬的指点,指出模型中需要关注一个叫“特征穿越”的问题,特别搜了一下,把内容码在这里,有机会细细整理。这篇文章将会介绍一下量化建模时常见的数据穿越问题。何为数据穿越?对于t时刻训练得到的模型必须用t时刻之前的数据训练,如果t时刻用到t时刻以后的数据则会产生数据穿越问题。我碰到比较多的数据穿越问题主要有三种:1.训练集和测试集有交叉;2. 特征穿越;3. 数据筛选穿越。训练集和测试集有交叉即训练集中混入了部分测试集。排除代码写错的情况下,有时候也会很容易犯这种错

2021-06-07 14:45:10 760

原创 python随机森林实践

前言随机森林R包(randomForest)和python(sklearn.ensemble.RandomForestClassifier)参数对比参数RPython树的个数ntreen_estimators每棵树的最大节点数maxnodesmax_depth每个节点考虑的特征数mtrymax_features...

2021-06-03 16:31:58 190

原创 数据集抽样方法

前言进行模型的训练前,挑选训练集和测试集也非常重要,即抽样方法,一个好的抽样方法需要保证两个数据集数据分布的一致性,例如在分类中至少要保持样本的比例类似。下面列出几种常见的做法。1.留出法“留出法”直接将数据集D划分为两个互斥的集合,其中一个集合作为训练集S,另一个作为测试集T。需要注意的是,训练/测试集的划分要尽可能保证两个数据集数据分布的一致性,例如在分类中至少要保持样本的比例类似。另一个需要注意的问题是,即便在给定训练/测试集的样本比例后,仍然存在许多划分方式对原始数据集D进行分割。例如可

2021-05-23 15:05:40 1430

转载 SQL中的开窗函数

https://www.cnblogs.com/lihaoyang/p/6756956.html

2021-04-29 13:59:37 1689

转载 SQL中的数据类型(MySQL)

在 MySQL 中,有三种主要的类型:文本、数字和日期/时间类型。Column 1Column 2centered 文本居中right-aligned 文本居右Text 类型:CHAR(size)保存固定长度的字符串(可包含字母、数字以及特殊字符)。在括号中指定字符串的长度。最多 255 个字符。VARCHAR(size)保存可变长度的字符串(可包含字母、数字以及特殊字符)。在括号中指定字符串的最大长度。最多 255 个字符。注释:如果值的长度大于 255,则被转换为

2021-04-29 10:56:04 289

转载 SQL中实用的函数总结

nvl:一个空值转换函数 nvl(表达式1,表达式2) 如果表达式1为空值,nvl返回值为表达式2的值,否则返回表达式1的值。该函数的目的是把一个空值(null)转换成一个实际的值。其表达式的值可以是数字型、字符型和日期型。但是表达式1和表达式2的数据类型必须为同一个类型。CAST函数用于将某种数据类型的表达式显式转换为另一种数据类型。CAST()函数的参数是一个表达式,它包括用AS关键字分隔的源值和目标数据类型。语法:CAST (expression AS data_type)exp...

2021-04-29 10:44:23 106

原创 SQL日期处理

前言在用SQL处理数据的过程中经常会遇到处理日期的需求,因此需要多种处理

2021-04-22 10:36:19 650

原创 SQL纠错&注意事项

cannot recognize input near in subquery1、HQL子查询别名问题备注:子查询需要加上别名 否则报错。HQL的书写,select * from (select * from table) ;正确的方法:select * from (select * from table) a ;

2021-04-14 14:33:27 457

原创 SQL自学笔记

前言重新开始学习SQL的第一天:找到了coursera的SQL课,上完(付费)可以领证书的,因为市面上没有SQL的证书,所以我觉得可以刚好作为SQL掌握甚至精通的证明,刚刚试看了几集,感觉不错,还有在线的SQL工具可以练习,不用打开自己的cmd窗口了。1.SELECT用来根据列名和条件筛选列SELECT 列名1,列名2,列名3... FROM 表名WHERE 筛选条件语句 ;Tips:条件语句如果是字符需要加" "列名加 as 可以改变显示的列名1.1 COUNT用来检索与查询条件

2021-03-31 17:57:29 74

原创 R语言中的相对路径和绝对路径

同面德勤的时候被要求用相对路径,mark一下。

2021-03-29 14:48:11 9460

原创 关于R批量导入excel的方法

同在德勤笔试的时候发现这个需求,之前处理数据的时候也遇到过,感觉是很实用的技能,特别研究一下码上来。

2021-03-18 09:55:22 1450

原创 dplyr包的用法

面德勤的时候被要求用R的dplyr包处理数据(题做的不是很好所以被拒了orz),了解了一下发现和SQL的基础操作还蛮像,????上来供以后参考。

2021-03-07 16:38:42 410

原创 R语言中的字符串处理

马一个占地儿有时间加http://www.360doc.com/content/18/0305/17/33459258_734518990.shtmlhttps://www.jianshu.com/p/afdd8385e6cahttps://blog.csdn.net/duqi_yc/article/details/9817243

2021-03-07 16:35:03 143

原创 R语言中的一些常用函数

前言记录一些R语言中简单常用的函数(随时更新)1.rep函数可以用作用某值填充某行列的方法最普通常用的方法:rep(填充单体,填充数)> rep(0,5)[1] 0 0 0 0 0> rep(1:3,5) [1] 1 1 1 1 1 2 2 2 2 2 3 3 3 3 3 > rep('internet',5)[1] "internet" "internet" "internet" "internet" "internet"rep函数有三个参数times、leng

2021-03-07 16:33:21 1486

原创 R语言中矩阵或者数据集操作

前言记录一些R语言中简单易忘的语句,矩阵或数据集操作相关(随时更新)1.重命名行或列(1)单个行列的重命名colnames(数据集名)[列数]=‘新列名’rownames(数据集名)[列数]=‘新列名’colnames(data)[2] = 'newname'rownames(data)[2] = 'newname'(2)将某行列设为行列名row.names(数据集名)=数据集$列名row.names(df) = df$gene_id2.矩阵的转置最常用的t(矩阵名)注意:

2021-03-07 16:03:26 3300

转载 PS提高图片清晰度

前言昨天被问到可不可以把图片变清晰(具体是把图上的文字变清晰,感觉这个功能还蛮有用,于是在这里记下来。)应该有很多种方法,暂时记录下实践过的一种,其他今后尝试过再补充。一、调整色阶的方法1.复制图层右键复制右下窗口想要编辑的图层或背景。2.点击图像,调整,色阶。3.弹出对话框,先点击最右边吸管,再点击图片空白处。4.点击最左边吸管,再点击文字黑色字迹,确定保存。5.复制一张修改后的图层,点击滤镜,其它,高反差保留。6.弹出对话框,修改半径为1,确定。7.打开图层混合模式,

2021-03-07 10:57:47 1420

原创 CSDN编辑方法汇总

新的改变我们对Markdown编辑器进行了一些功能拓展与语法支持,除了标准的Markdown编辑器功能,我们增加了如下几点新功能,帮助你用它写博客:全新的界面设计 ,将会带来全新的写作体验;在创作中心设置你喜爱的代码高亮样式,Markdown 将代码片显示选择的高亮样式 进行展示;增加了 图片拖拽 功能,你可以将本地的图片直接拖拽到编辑区域直接展示;全新的 KaTeX数学公式 语法;增加了支持甘特图的mermaid语法1 功能;增加了 多屏幕编辑 Markdown文章功能;增加了 焦点写作

2021-03-07 10:45:02 730

原创 就从现在开始。:)

这是一篇开始的文章:)可能只有几个字,想要记录一下想要在CSDN上创建账号写东西这个想法的源头和自己的一些简单规划。3月以来,一直在漫无目的地投简历,直到3月4日上午10点多,受到了德勤的笔试通知,岗位非常对口,很兴奋。笔试内容仔细说来其实并不难,都是可以看懂的数据处理题目。笔试时间一天。要求最好是用R语言。我没有系统地学习过R语言,之前用过的东西已经是半年以前,所以我几乎是从零开始去写数据处理的代码,很大程度上靠朋友的帮助和百度搜索。最后在第二天11点多时交上了4个问题,第一个问题没有处理完整,这

2021-03-07 10:36:36 86

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除