尽力而为还不够
码龄5年
关注
提问 私信
  • 博客:42,006
    42,006
    总访问量
  • 38
    原创
  • 380,479
    排名
  • 28
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:北京市
  • 加入CSDN时间: 2020-06-13
博客简介:

weixin_48626051的博客

查看详细资料
个人成就
  • 获得19次点赞
  • 内容获得6次评论
  • 获得155次收藏
  • 代码片获得155次分享
创作历程
  • 21篇
    2021年
  • 24篇
    2020年
成就勋章
TA的专栏
  • sql 面试
    2篇
  • sql
  • 商业模型
    4篇
  • DATEWHALE 办公自动化
  • datawahle  集成学习
    8篇
  • 笔记
    1篇
  • datawhale
    18篇
  • 数据分析之学术前沿分析
    4篇
  • pandas
    7篇
  • matlibplot
    5篇
  • datawhale 数据分析
    1篇
  • datawhale numpy下
    5篇
兴趣领域 设置
  • 人工智能
    机器学习深度学习tensorflow数据分析
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

SQL面试题总结

1.表t_act_records表,包含两个字段:uid(用户ID),imp_date(日期yyyy-mm-dd) 连续时间问题1)计算2020年每个月,每个用户连续签到的最多天数2)计算2020年每个月,连续2天都有登陆的用户名单3)计算2020年每个月,连续5天都有登陆的用户数1)计算2020年每个月,每个用户连续签到的最多天数with temp_1 as ( select distinct uid, imp_date from t_act_records where year(im
原创
发布博客 2021.08.11 ·
868 阅读 ·
0 点赞 ·
1 评论 ·
8 收藏

SQL连续时间问题

连续登录天数思路:将数据去重,日期变为yyyy-mm-dd 格式(函数名date())对数据进行按照日期进行排序(函数名row_number())排序后日期和原始日期相减。建表create table user_login( user_id varchar(100), login_time datetime);insert into user_login values(1,'2016-11-25 13:30:45'), (1,'2016-11-24 13:30:45'
原创
发布博客 2021.08.10 ·
1498 阅读 ·
0 点赞 ·
0 评论 ·
8 收藏

逻辑树分析模型

什么是逻辑树?逻辑树又称为问题数,演绎树或者分解树,是麦肯锡公司提出的分析问题,解决问题的重要方法,首先它的形态像一颗树,把已知的问题比作树干,然后考虑哪些问题或者任务与已知问题有关,将这些问题或子任务比作逻辑树的树枝,一个大的树枝还可以继续延续伸出更小的树枝,逐步列出所有与已知问题相关联的问题。逻辑树的原理?首先将一个已知问题当成树干,然后开始思考这个问题与那些相关问题或者子任务有关,每想到一点就给这个问题(也就是树干)加一个‘树枝’,并标明这个‘树枝’代表什么问题,一个大的‘树枝’上还可以有小的的
原创
发布博客 2021.06.26 ·
3606 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

5W2H模型

5W2H是英文的缩写。5W是所有现象都追问5个“为什么”:WHAT(做什么)WHEN(何时)WHERE(何地)WHY(为什么)WHO(是谁)2H是指HOW(怎么做)HOW much(多少钱)在面试和工作中,经常会遇到这样的问题:为什么这个月销售量下降了?一句话概括:什么原因(WHY)导致什么事情(WHAT)需要那些人(WHO)在什么时间内(WHEN)什么地点(WHERE)用什么方法(HOW)完成?预算是多少(HOW MUCH)遇到需要解决的问题,从5W、2H这七个问题出发5
原创
发布博客 2021.06.26 ·
2234 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

卡诺KANO模型

卡诺模型(KANO模型)对用户需求分类和优先排序的有用工具,以分析用户需求对用户满意的影响为基础,体现了产品性能和用户满意之间的非线性关系。在卡诺模型中,将产品和服务的质量特性分为四种类型:⑴必备属性;⑵期望属性;⑶魅力属性;⑷无差异属性 (5)无差异属性。魅力属性A:用户意想不到,如果不提供此需求,用户满意度不会降低,但当提供此需求,用户满意度会有很大提升;期望属性O:当提供此需求,用户满意度会提升,当不提供此需求,用户满意度会下降。必备属性M:当优化此需求,用户满意度不会提升,当不提供此需求
转载
发布博客 2021.06.26 ·
1590 阅读 ·
0 点赞 ·
0 评论 ·
7 收藏

用户行为分析——AARRR 模型 和RARRA模型

AARRR是一个漏斗模型,是一整套数据分析的思路、逻辑框架。从上往下分别是Acquisition 获取用户:用户如何找到我们?Activation 提高用户活跃度:用户的首次体验如何?Retention 提高留存率:用户会回来吗?Revenue 获取收入:如何赚到更多的钱?Referral 自传播(推荐)::用户会告诉其他人吗?在这个漏斗过程中,用户可能会一步一步慢慢流失,剩下的部分用户实现最终转化,需要注意的是AARRR模型并不是严格按照顺序来执行,每一个环节也不是绝对必要的。分别说一下以
转载
发布博客 2021.06.25 ·
6275 阅读 ·
4 点赞 ·
0 评论 ·
20 收藏

幸福感预测

明早补!
原创
发布博客 2021.05.19 ·
248 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Blending和Stacking

任务一:Blending算法分析与案 例调参实例1  导论2  Blending集成学习算法3  作业4  Stacking集成学习算法5  ROC曲线 decision_function导论Stacking,这个集成方法在比赛中被称为“懒人”算法,因为它不需要花费过多时间的调参就可以得到一个效果不错的算法,同时,这种算法也比前两种算法容易理解的多,因为这种集成学习的方式不需要理解太多的理论,只需.
原创
发布博客 2021.05.12 ·
1126 阅读 ·
4 点赞 ·
0 评论 ·
20 收藏

集成学习之GBDT

集成学习 之GBDT1  前向分布算法2  梯度提升决策树(GBDT)前向分布算法回看Adaboost的算法内容,我们需要通过计算M个基本分类器,每个分类器的错误率、样本权重以及模型权重。我们可以认为:Adaboost每次学习单一分类器以及单一分类器的参数(权重)。接下来,我们抽象出Adaboost算法的整体框架逻辑,构建集成学习的一个非常重要的框架----前向分步算法,有了这个框架,我们不仅可以解决分类问题,也可以解决回归问题。(1) 加法模型:在Adab
转载
发布博客 2021.04.23 ·
176 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Datawhale集成学习:Boosting的思路与Adaboost算法

Datawhale集成学习:Boosting的思路与Adaboost算法1  导论2  Boosting方法的基本思路3  Adaboost算法导论在前面的学习中,我们探讨了一系列简单而实用的回归和分类模型,同时也探讨了如何使用集成学习家族中的Bagging思想去优化最终的模型。Bagging思想的实质是:通过Bootstrap 的方式对全样本数据集进行抽样得到抽样子集,对不同的子集使用同一种基本模型进行拟合,然后投票得出最终的预测。我们
转载
发布博客 2021.04.21 ·
220 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

集成学习Task8--Bagging的原理和案例分析

集成学习Task8--Bagging的原理和案例分析1  bagging的原理分析1.1  bootstrap的概念1.2  Bagging的基本流程2  随机森林2.1  随机森林的概述2.2  算法流程2.3  袋外误差3  bagging的案例分析(基于sklearn,介绍随机森林的相关理论以及实例)根据基分类器的生成方式,集成学习有两种范
原创
发布博客 2021.04.18 ·
510 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

集成学习中 ——投票法

投票法的原理如上图所示,在同一训练集上,训练得到多个分类或回归模型,然后通过一个投票器,通过某种加权方式,输出得票率最高的结果。#集成模型好于单个分类器的原因假设:n个基分类器的出错率都是ϵ ,且相互独立,则n个基分类器的结果中,出现k个错误的数量服从二项分布,对集成模型(简单多数投票)来说,n个结果中,有K个错误的概率是:当K>n/2时,集成模型输出错误结果假设ϵ = 0.25 , n = 11 ,n=11ϵ=0.25,n=11,输出错误结果的概率为:from scipy.spec
转载
发布博客 2021.04.14 ·
1964 阅读 ·
2 点赞 ·
0 评论 ·
12 收藏

集成学习——机器学习基础_分类问题

import numpy as npimport pandas as pdfrom sklearn import datasetsD:\anaconda3\lib\importlib\_bootstrap.py:219: RuntimeWarning: numpy.ufunc size changed, may indicate binary incompatibility. Expected 192 from C header, got 216 from PyObject return f(
转载
发布博客 2021.03.27 ·
273 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

集成学习__机器学习基础之回归

1.导论机器学习任务分为有监督学习和无监督学习。其中有监督学习是给定某些特征去估计变量,因变量存在。无监督学习是给定某些delattr征但不给定因变量根据因变量的是否连续,有监督学习又分为回归和分类:回归:因变量是连续型变量,如:房价,体重等。分类:因变量是离散型变量,如:是否患癌症,西瓜是好瓜还是坏瓜等。为了更好地叙述后面的内容,我们对数据的形式作出如下约定:第i个样本:xi=(xi1,xi2,...,xip,yi)T,i=1,2,...,Nx_i=(x_{i1},x_{i2},...,x
原创
发布博客 2021.03.18 ·
365 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏

集成学习__机器学习基础_1

1.导论机器学习任务分为有监督学习和无监督学习。其中有监督学习是给定某些特征去估计变量,因变量存在。无监督学习是给定某些delattr征但不给定因变量根据因变量的是否连续,有监督学习又分为回归和分类:回归:因变量是连续型变量,如:房价,体重等。分类:因变量是离散型变量,如:是否患癌症,西瓜是好瓜还是坏瓜等。为了更好地叙述后面的内容,我们对数据的形式作出如下约定:第i个样本:xi=(xi1,xi2,...,xip,yi)T,i=1,2,...,Nx_i=(x_{i1},x_{i2},...,x
转载
发布博客 2021.03.17 ·
169 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

数据分析之学术前沿-任务五

任务说明学习主题:作者关联(数据建模任务),对论⽂作者关系进⾏建模,统计最常出现的作者关系;学习内容:构建作者关系图,挖掘作者关系学习成果:论⽂作者知识图谱、图关系挖掘数据处理步骤将作者列表进⾏处理,并完成统计。具体步骤如下:将论⽂第⼀作者与其他作者(论⽂⾮第⼀作者)构建图;使⽤图算法统计图中作者与其他作者的联系;社交网络分析图是复杂⽹络研究中的⼀个重要概念。 Graph是⽤点和线来刻画离散事物集合中的每对事物间以某种⽅式相联系的数学模型。 Graph在现实世界中随处可⻅,如交通
原创
发布博客 2021.01.26 ·
263 阅读 ·
0 点赞 ·
1 评论 ·
0 收藏

数据分析之学术前沿---任务4

import seaborn as sns #⽤于画图from bs4 import BeautifulSoup #⽤于爬取arxiv的数据import re #⽤于正则表达式,匹配字符串的模式import requests #⽤于⽹络连接,发送⽹络请求,使⽤域名获取对应信息import json #读取数据,我们的数据为json格式的import pandas as pd #数据处理,数据分析import matplotlib.pyplot as plt #画图⼯具data = [] #初
原创
发布博客 2021.01.23 ·
307 阅读 ·
1 点赞 ·
1 评论 ·
0 收藏

任务3:论⽂文代码统计

任务3:论⽂文代码统计3.1 任务说明3.2 数据处理理步骤3.3 正则表达式3.3.1 普通字符:大写和小写字母、所有数字、所有标点符号和一些其他符号3.3.2 特殊字符:有特殊含义的字符3.3.3 限定符3.4 具体代码实现以及讲解3.1 任务说明任务主题:论文代码统计,统计所有论文出现代码的相关统计;任务内容:使用正则表达式统计代码连接、页数和图表数据;任务成果:学习正则表达式统计;3.2 数据处理理步骤在原始arxiv数据集中作者经常会在论文的comments 或abstrac
原创
发布博客 2021.01.20 ·
147 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

数据分析之学术前沿分析- 任务2

任务2:论⽂文作者统计2.1 任务说明2.2 数据处理理步骤2.3 字符串串处理理2.4 具体代码实现以及讲解2.4.1 数据读取2.4.2 数据统计2.1 任务说明任务主题:论⽂文作者统计,统计所有论⽂文作者出现频率Top10的姓名;任务内容:论⽂文作者的统计、使⽤用 Pandas 读取数据并使⽤用字符串操作;任务成果:学习 Pandas 的字符串串操作;2.2 数据处理理步骤在原始arxiv数据集中论⽂文作者authors 字段是⼀个字符串格式,其中每个作者使用逗号进行分隔,所以我们
原创
发布博客 2021.01.17 ·
885 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

数据分析之学术前沿分析 任务1:论文数据统计

任务1:论文数据统计1.1 任务说明1.2 数据集介绍1.3 arxiv论⽂文类别介绍1.4 具体代码实现以及讲解1.4.1 导⼊入package并读取原始数据1.4.2 数据预处理理1.4.3 数据分析及可视化1.1 任务说明任务主题:论⽂文数量量统计,即统计2019年全年计算机各个⽅向论⽂文数量;任务内容:赛题的理解、使用 Pandas 读取数据并进行统计;任务成果:学习 Pandas 的基础操作;可参考的学习料:开源组织Datawhale joyful-pandas项目1.2 数据
原创
发布博客 2021.01.12 ·
661 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏
加载更多