尽力而为还不够-CSDN博客

原创 SQL面试题总结

1.表t_act_records表，包含两个字段：uid（用户ID），imp_date（日期yyyy-mm-dd）连续时间问题1）计算2020年每个月，每个用户连续签到的最多天数2）计算2020年每个月，连续2天都有登陆的用户名单3）计算2020年每个月，连续5天都有登陆的用户数1）计算2020年每个月，每个用户连续签到的最多天数with temp_1 as ( select distinct uid, imp_date from t_act_records where year(im

2021-08-11 17:38:56 748 1

原创 SQL连续时间问题

连续登录天数思路：将数据去重，日期变为yyyy-mm-dd 格式(函数名date())对数据进行按照日期进行排序(函数名row_number())排序后日期和原始日期相减。建表create table user_login( user_id varchar(100), login_time datetime);insert into user_login values(1,'2016-11-25 13:30:45'), (1,'2016-11-24 13:30:45'

2021-08-10 17:28:12 1383

原创逻辑树分析模型

什么是逻辑树？逻辑树又称为问题数，演绎树或者分解树，是麦肯锡公司提出的分析问题，解决问题的重要方法，首先它的形态像一颗树，把已知的问题比作树干，然后考虑哪些问题或者任务与已知问题有关，将这些问题或子任务比作逻辑树的树枝，一个大的树枝还可以继续延续伸出更小的树枝，逐步列出所有与已知问题相关联的问题。逻辑树的原理？首先将一个已知问题当成树干，然后开始思考这个问题与那些相关问题或者子任务有关，每想到一点就给这个问题（也就是树干）加一个‘树枝’，并标明这个‘树枝’代表什么问题，一个大的‘树枝’上还可以有小的的

2021-06-26 17:26:42 3474

原创 5W2H模型

5W2H是英文的缩写。5W是所有现象都追问5个“为什么”：WHAT（做什么）WHEN（何时）WHERE（何地）WHY（为什么）WHO（是谁）2H是指HOW（怎么做）HOW much（多少钱）在面试和工作中，经常会遇到这样的问题：为什么这个月销售量下降了？一句话概括：什么原因（WHY）导致什么事情（WHAT）需要那些人（WHO）在什么时间内（WHEN）什么地点（WHERE）用什么方法（HOW）完成？预算是多少（HOW MUCH）遇到需要解决的问题，从5W、2H这七个问题出发5

2021-06-26 17:03:15 2103

转载卡诺KANO模型

卡诺模型（KANO模型）对用户需求分类和优先排序的有用工具，以分析用户需求对用户满意的影响为基础，体现了产品性能和用户满意之间的非线性关系。在卡诺模型中，将产品和服务的质量特性分为四种类型：⑴必备属性；⑵期望属性；⑶魅力属性；⑷无差异属性 (5)无差异属性。魅力属性A：用户意想不到，如果不提供此需求，用户满意度不会降低，但当提供此需求，用户满意度会有很大提升；期望属性O：当提供此需求，用户满意度会提升，当不提供此需求，用户满意度会下降。必备属性M：当优化此需求，用户满意度不会提升，当不提供此需求

2021-06-26 16:42:28 1474

转载用户行为分析——AARRR 模型和RARRA模型

AARRR是一个漏斗模型，是一整套数据分析的思路、逻辑框架。从上往下分别是Acquisition 获取用户：用户如何找到我们？Activation 提高用户活跃度：用户的首次体验如何？Retention 提高留存率：用户会回来吗？Revenue 获取收入：如何赚到更多的钱？Referral 自传播（推荐）：:用户会告诉其他人吗？在这个漏斗过程中,用户可能会一步一步慢慢流失,剩下的部分用户实现最终转化，需要注意的是AARRR模型并不是严格按照顺序来执行，每一个环节也不是绝对必要的。分别说一下以

2021-06-25 13:46:41 5803

原创幸福感预测

明早补！

2021-05-19 00:23:18 209

原创 Blending和Stacking

任务一：Blending算法分析与案例调参实例1 导论2 Blending集成学习算法3 作业4 Stacking集成学习算法5 ROC曲线 decision_function导论Stacking，这个集成方法在比赛中被称为“懒人”算法，因为它不需要花费过多时间的调参就可以得到一个效果不错的算法，同时，这种算法也比前两种算法容易理解的多，因为这种集成学习的方式不需要理解太多的理论，只需.

2021-05-12 00:31:56 1014

转载集成学习之GBDT

集成学习之GBDT1 前向分布算法2 梯度提升决策树(GBDT)前向分布算法回看Adaboost的算法内容，我们需要通过计算M个基本分类器，每个分类器的错误率、样本权重以及模型权重。我们可以认为：Adaboost每次学习单一分类器以及单一分类器的参数(权重)。接下来，我们抽象出Adaboost算法的整体框架逻辑，构建集成学习的一个非常重要的框架----前向分步算法，有了这个框架，我们不仅可以解决分类问题，也可以解决回归问题。(1) 加法模型：在Adab

2021-04-23 20:25:53 112

转载 Datawhale集成学习：Boosting的思路与Adaboost算法

Datawhale集成学习：Boosting的思路与Adaboost算法1 导论2 Boosting方法的基本思路3 Adaboost算法导论在前面的学习中，我们探讨了一系列简单而实用的回归和分类模型，同时也探讨了如何使用集成学习家族中的Bagging思想去优化最终的模型。Bagging思想的实质是：通过Bootstrap 的方式对全样本数据集进行抽样得到抽样子集，对不同的子集使用同一种基本模型进行拟合，然后投票得出最终的预测。我们

2021-04-21 01:39:25 143

原创集成学习Task8--Bagging的原理和案例分析

集成学习Task8--Bagging的原理和案例分析1 bagging的原理分析1.1 bootstrap的概念1.2 Bagging的基本流程2 随机森林2.1 随机森林的概述2.2 算法流程2.3 袋外误差3 bagging的案例分析(基于sklearn，介绍随机森林的相关理论以及实例)根据基分类器的生成方式，集成学习有两种范

2021-04-18 00:40:34 438

转载集成学习中 ——投票法

投票法的原理如上图所示，在同一训练集上，训练得到多个分类或回归模型，然后通过一个投票器，通过某种加权方式，输出得票率最高的结果。#集成模型好于单个分类器的原因假设：n个基分类器的出错率都是ϵ ，且相互独立，则n个基分类器的结果中，出现k个错误的数量服从二项分布，对集成模型（简单多数投票）来说，n个结果中，有K个错误的概率是：当K>n/2时，集成模型输出错误结果假设ϵ = 0.25 , n = 11 ,n=11ϵ=0.25,n=11，输出错误结果的概率为：from scipy.spec

2021-04-14 23:35:28 1808

转载集成学习——机器学习基础_分类问题

import numpy as npimport pandas as pdfrom sklearn import datasetsD:\anaconda3\lib\importlib\_bootstrap.py:219: RuntimeWarning: numpy.ufunc size changed, may indicate binary incompatibility. Expected 192 from C header, got 216 from PyObject return f(

2021-03-27 20:01:29 240

原创集成学习__机器学习基础之回归

1.导论机器学习任务分为有监督学习和无监督学习。其中有监督学习是给定某些特征去估计变量，因变量存在。无监督学习是给定某些delattr征但不给定因变量根据因变量的是否连续，有监督学习又分为回归和分类：回归：因变量是连续型变量，如：房价，体重等。分类：因变量是离散型变量，如：是否患癌症，西瓜是好瓜还是坏瓜等。为了更好地叙述后面的内容，我们对数据的形式作出如下约定：第i个样本：xi=(xi1,xi2,...,xip,yi)T,i=1,2,...,Nx_i=(x_{i1},x_{i2},...,x

2021-03-18 23:28:05 332

转载集成学习__机器学习基础_1

1.导论机器学习任务分为有监督学习和无监督学习。其中有监督学习是给定某些特征去估计变量，因变量存在。无监督学习是给定某些delattr征但不给定因变量根据因变量的是否连续，有监督学习又分为回归和分类：回归：因变量是连续型变量，如：房价，体重等。分类：因变量是离散型变量，如：是否患癌症，西瓜是好瓜还是坏瓜等。为了更好地叙述后面的内容，我们对数据的形式作出如下约定：第i个样本：xi=(xi1,xi2,...,xip,yi)T,i=1,2,...,Nx_i=(x_{i1},x_{i2},...,x

2021-03-17 18:40:33 127

原创数据分析之学术前沿-任务五

任务说明学习主题：作者关联（数据建模任务），对论⽂作者关系进⾏建模，统计最常出现的作者关系；学习内容：构建作者关系图，挖掘作者关系学习成果：论⽂作者知识图谱、图关系挖掘数据处理步骤将作者列表进⾏处理，并完成统计。具体步骤如下：将论⽂第⼀作者与其他作者（论⽂⾮第⼀作者）构建图；使⽤图算法统计图中作者与其他作者的联系；社交网络分析图是复杂⽹络研究中的⼀个重要概念。 Graph是⽤点和线来刻画离散事物集合中的每对事物间以某种⽅式相联系的数学模型。 Graph在现实世界中随处可⻅，如交通

2021-01-26 01:22:29 198 1

原创数据分析之学术前沿---任务4

import seaborn as sns #⽤于画图from bs4 import BeautifulSoup #⽤于爬取arxiv的数据import re #⽤于正则表达式，匹配字符串的模式import requests #⽤于⽹络连接，发送⽹络请求，使⽤域名获取对应信息import json #读取数据，我们的数据为json格式的import pandas as pd #数据处理，数据分析import matplotlib.pyplot as plt #画图⼯具data = [] #初

2021-01-23 01:32:42 236 1

原创任务3：论⽂文代码统计

任务3：论⽂文代码统计3.1 任务说明3.2 数据处理理步骤3.3 正则表达式3.3.1 普通字符：大写和小写字母、所有数字、所有标点符号和一些其他符号3.3.2 特殊字符：有特殊含义的字符3.3.3 限定符3.4 具体代码实现以及讲解3.1 任务说明任务主题：论文代码统计，统计所有论文出现代码的相关统计；任务内容：使用正则表达式统计代码连接、页数和图表数据；任务成果：学习正则表达式统计；3.2 数据处理理步骤在原始arxiv数据集中作者经常会在论文的comments 或abstrac

2021-01-20 01:53:32 123

原创数据分析之学术前沿分析- 任务2

任务2：论⽂文作者统计2.1 任务说明2.2 数据处理理步骤2.3 字符串串处理理2.4 具体代码实现以及讲解2.4.1 数据读取2.4.2 数据统计2.1 任务说明任务主题：论⽂文作者统计，统计所有论⽂文作者出现频率Top10的姓名；任务内容：论⽂文作者的统计、使⽤用 Pandas 读取数据并使⽤用字符串操作；任务成果：学习 Pandas 的字符串串操作；2.2 数据处理理步骤在原始arxiv数据集中论⽂文作者authors 字段是⼀个字符串格式，其中每个作者使用逗号进行分隔，所以我们

2021-01-17 00:15:22 718

原创数据分析之学术前沿分析任务1：论文数据统计

任务1：论文数据统计1.1 任务说明1.2 数据集介绍1.3 arxiv论⽂文类别介绍1.4 具体代码实现以及讲解1.4.1 导⼊入package并读取原始数据1.4.2 数据预处理理1.4.3 数据分析及可视化1.1 任务说明任务主题：论⽂文数量量统计，即统计2019年全年计算机各个⽅向论⽂文数量；任务内容：赛题的理解、使用 Pandas 读取数据并进行统计；任务成果：学习 Pandas 的基础操作；可参考的学习料：开源组织Datawhale joyful-pandas项目1.2 数据

2021-01-12 17:43:39 570

原创 pandas7-缺失数据

第七章缺失数据一、缺失值的统计和删除缺失信息的统计2. 缺失信息的删除二、缺失值的填充和插值1. 利用fillna进行填充2. 插值函数三、Nullable类型1. 缺失记号及其缺陷2. Nullable类型的性质3. 缺失数据的计算和分组四、练习import numpy as npimport pandas as pd一、缺失值的统计和删除缺失信息的统计缺失数据可以使用 isna 或 isnull （两个函数没有区别）来查看每个单元格是否缺失，通过和 sum 的组合可以计算出每列缺失值的

2021-01-03 23:39:54 183

原创 pandas7- 连接

pandas6- 连接6.1 关系型连接6.1.1 连接的基本概念6.1.2 值连接6.1.3 索引连接6.2 方向连接6.2.1 concat6.2.2 序列与表的合并6.3 类连接操作6.3.1 比较6.3.2 组合6.4 练习6.4.1 Ex1：美国疫情数据集6.4.2 Ex2：实现join 函数6.1 关系型连接6.1.1 连接的基本概念把两张相关的表按照某一个或某一组键连接起来是一种常见操作，例如学生期末考试各个科目的成绩表按照姓名和班级连接成总的成绩表，又例如对企业员工的各类信息表按照

2020-12-29 21:21:26 139

原创变形

5.1 长宽表的变形什么是长表？什么是宽表？这个概念是对于某一个特征而言的。例如：一个表中把性别存储在某一个列中，那么它就是关于性别的长表；如果把性别作为列名，列中的元素是某一其他的相关特征数值，那么这个表是关于性别的宽表。下面的两张表就分别是关于性别的长表和宽表：import numpy as npimport pandas as pdpd.DataFrame({'Gender':['F','F','M','M'],'Height':[163, 160, 175, 180]})

2020-12-27 22:01:24 190 1

原创 matplotlib 第五回：样式色彩秀芳华

第五回：样式色彩秀芳华一、matplotlib的绘图样式（style）在matplotlib中，要想设置绘制样式，最简单的方法是在绘制元素时单独设置样式。但是有时候，当用户在做专题报告时，往往会希望保持整体风格的统一而不用对每张图一张张修改，因此matplotlib库还提供了四种批量修改全局样式的方式1.matplotlib预先定义样式matplotlib贴心地提供了许多内置的样式供用户使用，使用方法很简单，只需在python脚本的最开始输入想使用style的名称即可调用，尝试调用不同内置样式，

2020-12-23 10:48:13 241

原创 pandas4-索引

分组4.1.1 分组的一般模式4.1.2 分组依据的本质4.1.3 Groupby 对象4.1.4 分组的三大操作4.2 聚合函数4.2.1 内置聚合函数4.2.2 agg 方法4.3 变换和过滤4.3.1 变换函数与transform 方法4.3.2 组索引与过滤4.4 跨列分组4.4 apply 的引入4.4.2 apply 的使用4.5 练习Ex1：汽车数据集4.5.2 Ex2：实现transform 函数##4.1 分组模式及其对象4.1.1 分组的一般模式分组操作在日常生活中使用极其广泛，

2020-12-23 10:31:11 157

原创第四回：文字图例尽眉目

第四回：文字图例尽眉目一、Figure和Axes上的文本Matplotlib具有广泛的文本支持，包括对数学表达式的支持、对栅格和矢量输出的TrueType支持、具有任意旋转的换行分隔文本以及Unicode支持。下面的命令是介绍了通过pyplot API和objected-oriented API分别创建文本的方式。1.textpyplot API：matplotlib.pyplot.text(x, y, s, fontdict=None, **kwargs)OO API:Axes.text(

2020-12-22 23:57:37 190

原创索引器

索引3.1 索引器3.1.1表的列索引3.1.2 序列的行索引3.1.3 loc 索引器3.1.4 iloc 索引器3.1.5 query 方法3.1.6 随机抽样3.2多级索引多级索引及其表的结构多级索引中的loc 索引器3.2.3IndexSlice 对象3.2.4 多级索引的构造3.3 索引的常用方法3.3.1 索引层的交换和删除3.3.2 索引属性的修改3.3.3 索引的设置与重置3.3.4 索引的变形3.4 索引运算3.4.1 集合的运算法则3.4.2 一般的索引运算3.5 练习Ex1：公司员工

2020-12-20 23:59:12 484

原创 matplotlib _3

第三回布局格式定方圆import numpy as npimport pandas as pdimport matplotlib.pyplot as pltplt.rcParams['font.sans-serif'] = ['SimHei']plt.rcParams['axes.unicode_minus'] = False子图1. 使用 plt.subplots 绘制均匀状态下的子图返回元素分别是画布和子图构成的列表，第一个数字为行，第二个为列figsize 参数可以指定整个画布的

2020-12-20 22:34:54 120

原创 pandas 基础

Pandas 基础2.1 文件的读取和写入2.1.1 文件读取2.1.2 数据写入3.1 基本数据结构3.1.1 Series3.1.2 DataFrame4.1 常用基本函数4.1.1 汇总函数4.1.2 特征统计函数4.1.3 唯一值函数4.1.4 替换函数4.1

2020-12-18 22:21:12 477 1

原创第二回：艺术画笔见乾坤

第二回：艺术画笔见乾坤一、概述二、自定义你的Artist对象三、基本元素 - primitives四、对象容器 - Object container4. Tick容器一、概述1.matplotlib的三层apimatplotlib的原理或者说基础逻辑是，用Artist对象在画布(canvas)上绘制(Render)图形。就和人作画的步骤类似：准备一块画布或画纸准备好颜料、画笔等制图工具作画所以matplotlib有三个层次的API：matplotlib.backend_bases.F

2020-12-16 13:32:33 136

原创 python基础

1预备基础1.1 Python 基础1.1.1 列表推导式与条件赋值1.1.2 匿名函数与map 方法1.1.3 zip对象与enumerate 方法2.1 Numpy 基础2.1.1 np 数组的构造2.1.2 np 数组的变形与合并2.1.3 np 数组的切片与索引2.1.4 常用函数2.1.5

2020-12-16 11:16:36 426

原创数据可视化第一回

第一回：Matplotlib初相识一、认识matplotlib二、一个最简单的绘图例子三、Figure的组成四、两种绘图接口一、认识matplotlibMatplotlib是一个Python 2D绘图库，能够以多种硬拷贝格式和跨平台的交互式环境生成出版物质量的图形，用来绘制各种静态，动态，交互式的图表。Matplotlib可用于Python脚本，Python和IPython Shell、Jupyter notebook，Web应用程序服务器和各种图形用户界面工具包等。Matplotlib是P

2020-12-14 22:34:09 66

原创 numpy下_大作业 (1)

大作业导入数据2. 求出鸢尾属植物萼片长度的平均值、中位数和标准差（第1列，sepallength）3.创建一种标准化形式的鸢尾属植物萼片长度，其值正好介于0和1之间，这样最小值为0，最大值为1（第1列，sepallength）。4. 找到鸢尾属植物萼片长度的第5和第95百分位数（第1列，sepallength）。5. 把iris_data数据集中的20个随机位置修改为np.nan值。6. 在iris_data的sepallength中查找缺失值的个数和位置（第1列）。7. 筛选具有 sepallengt

2020-12-01 12:18:42 207

原创 numpy下_大作业

大作业导入数据2. 求出鸢尾属植物萼片长度的平均值、中位数和标准差（第1列，sepallength）3.创建一种标准化形式的鸢尾属植物萼片长度，其值正好介于0和1之间，这样最小值为0，最大值为1（第1列，sepallength）。4. 找到鸢尾属植物萼片长度的第5和第95百分位数（第1列，sepallength）。5. 把iris_data数据集中的20个随机位置修改为np.nan值。6. 在iris_data的sepallength中查找缺失值的个数和位置（第1列）。7. 筛选具有 sepallengt

2020-12-01 11:48:21 127

原创线性代数

线性代数线性代数1.1 矩阵和向量积1.2矩阵特征值与特征向量1.3 奇异值分解1.4 QR分解1.5 Cholesky分解范数和其它数字1.6矩阵的范数1.7仿真行列式1.8矩阵的秩1.9矩阵的迹解方程和逆矩阵1.10 逆矩阵（inverse matrix）线性代数Numpy 定义了 matrix 类型，使用该 matrix 类型创建的是矩阵对象，它们的加减乘除运算缺省采用矩阵方式计算，因此用法和Matlab十分类似。但是由于 NumPy 中同时存在 ndarray 和 matrix对象，因此用

2020-11-30 14:26:54 204

原创随机抽样

随机抽样1.1 二项分布1.2 泊松分布1.3 超几何分布2.1 均匀分布2.2正态分布2.3指数分布2.4其它随机函数2.5 对数据集进行洗牌操作numpy.random 模块对 Python 内置的 random 进行了补充，增加了一些用于高效生成多种概率分布的样本值的函数，如正态分布、泊松分布等。numpy.random.seed(seed= None) Seed the generator.seed() 用于指定随机数生成时所用算法开始的整数值，如果使用相同的seed() 值，则每次生成

2020-11-25 23:57:46 1791

原创输入与输出

numpy_下_输入和输出1 numpy 二进制文件2 文本文件3 文本格式选项numpy 二进制文件 save() 、savez() 和load() 函数以 numpy 专用的二进制类型（npy、npz）保存和读取数据，这三个函数会自动处理ndim、dtype、shape等信息，使用它们读写数组非常方便，但是save() 输出的文件很难与其它语言编写的程序兼容。 npy格式：以二进制的方式存储文件，在二进制文件第一行以文本形式保

2020-11-23 20:11:31 2624

原创 Datawhale 数据分析第四次任务模型搭建

模型搭建特征工程任务一：缺失值填充任务二：编码分类变量模型搭建任务一：切割训练集和测试集任务二：模型创建任务三：输出模型预测结果模型评估任务一：交叉验证任务二：混淆矩阵ROC曲线下面我们将搭建一个预测模型，运用机器学习的方式来为泰坦尼克船只做一个预测，我们在测试集的数据中来预测哪些乘客将会存活，哪些乘客将遭遇不幸。然后我们会对我们的模型做一个评价。这一章的内容可以学习到数据建模以及模型评价的知识，算是进阶的内容，为之后的数据分析课程打下基础。import pandas as pdimport num

2020-08-26 19:05:45 177

原创基于支持向量机的分类预测

基于支持向量机的分类预测原理DemoStep1:库函数导入Step2:构建数据集并进行模型训练Step3:模型参数查看Step4:模型预测Step5:模型可视化由于此处选择的线性核函数，所以在此我们可以将svm进行可视化。支持向量机介绍软间隔超平面原理后面再补充Demo首先我们利用sklearn直接调用 SVM函数进行实践尝试Step1:库函数导入## 基础函数库import numpy as np ## 导入画图库import matplotlib.pyplot as pltimp

2020-08-26 15:35:24 600

原创 2020-08-25

Datawhale 第四次任务数据可视化导入包和数据任务一：跟着书本第九章，了解matplotlib，自己创建一个数据项，对其进行基本可视化任务二：可视化展示泰坦尼克号数据集中男女中生存人数分布情况（用柱状图试试）任务三：可视化展示泰坦尼克号数据集中男女中生存人与死亡人数的比例图（用柱状图试试）任务四：可视化展示泰坦尼克号数据集中不同票价的人生存和死亡人数分布情况。（用折线图试试）（横轴是不同票价，纵轴是存活人数）任务五：可视化展示泰坦尼克号数据集中不同仓位等级的人生存和死亡人员的分布情况。（用柱状图试试

2020-08-25 18:38:15 96

空空如也

空空如也