自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(18)
  • 收藏
  • 关注

原创 数据结构第一天

数据结构# 作业1"""1. 利用动态数组解决数据存放问题编写一段代码,要求输入一个整数N,用动态数组A来存放2~N之间所有5或7的倍数,输出该数组。示例:输入:N = 100 输出:5 7 10 14 15 20 21 25 28 30 35 40 42 45 49 50 55 56 60 63 65 70 75 77 80 84 85 90 91 95 98 100...

2020-01-06 22:31:47 109

原创 房价数据分析的一般套路

房价数据分析的一般思路import pandas as pdimport numpy as npimport seaborn as snsimport matplotlib.pyplot as pltplt.style.use('fivethirtyeight')sns.set_style({'font.sans-serif':['simhei', 'Arial']})%matplo...

2019-10-10 16:51:42 589

原创 用seaborn画图

Hello 大家好,今天我们来个不一样的,一起学习画图吧。导入我们需要的库import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as sns% matplotlib inlineimport warningswarnings.filterwarnings('ignore...

2019-09-17 22:34:43 1221

原创 数据运营的四种思维

一、信度与效度思维信度:是指一个数据或者指标自身的可靠程度,包括准确性和稳定性,口径是否一致效度:是指一个数据或者指标的生成,这个指标的变化能够代表该事物的变化。二、分类思维客户分类、产品分类、市场分级。三、漏斗思维1.漏斗思维就是评估连续业务流程的节点转化率,这里强调连续业务节点。2. 最优漏斗分析步骤最好不超过5步,这样既能分析出关键节点的转化,也避免了分析过程的过于繁琐。3....

2019-09-17 22:02:03 736

原创 选择排序

原理: 首先在未排序的序列中找到最小的元素,存放到排序序列的起始位置,然后再从剩余未排序的元素中继续寻找最小的元素,存放到已经排序的末尾。def select_sort(alist): n = len(alist) for j in range(0, n-1): min_index= j for i in range(j+1, n): ...

2019-09-17 21:45:38 54

原创 用户数据运营

数据运营运营的核心是用户,今天就看一下如何对用户进行数据分析一、四个阶段引流转化消费留存我们从新老用户的维度出发分析用户指标新用户:引流转化老用户:1.活跃2.留存3.回购4.流失二、引流对引流的分析主要目的是保证流量的稳定和提高购买转化常用的分析指标UV(访客数)PV(浏览量)访问数(visits)深化分析指标平均访问深度(流览量/访问数)-- ...

2019-09-17 00:15:13 223

原创 冒泡排序

冒泡排序冒泡排序的原理比较相邻的两个元素,如果第一个元素比第二个元素大,就交换他们。对每一对相邻的元素做同样的工作,从开始的第一对到结束的最后一对,这步做完后,最大的元素就是最大的数。持续每次对越来越少的元素持续以上步骤,直到没有任何一个元素需要比较def bubble_sort(alist): for j in range(len(alist)- 1): for i in r...

2019-09-16 23:37:12 59

原创 SQL每日一练(2)

1. 编写一个 SQL 查询,找出每个部门获得前三高工资的所有员工。例如,根据上述给定的表,查询结果应返回表格结构如下表1:Employee列名: Id, Salary, DepartmentId表2:Department列名: ID , Name拿到这道题的时候,我第一个想到的是分组 order by 排序,限定前三位出现SELECT e.Name Employee, e.Sala...

2019-09-16 23:08:12 396 1

原创 爱奇艺电影数据分享

Python 案例分享,简单的分析爱奇艺电影数据1. 数据清洗函数构建def data_cleaning(df): cols = df.columns for col in cols: if df[col].dtype == 'object': df[col].fillna('缺失数据', inplace = True) ...

2019-09-16 00:00:21 1005

原创 sql每日一练(1)

SQL 笔记1. SUBSTR(x, y, z)或者SUBSTR(X, Y)的使用,其中x表示截取的字符, y表示截取字符的开始位置,z表示截取字符的长度,如果没有z那么表示截取到字符串的结束。2. GROUP CONCAT(X, Y),其中x表示要连接的字段,y表示连接使用的符号,默认为,号。该函数必须和group by 分组函数一起使用(因为使用group by 才能出现一组数字)例题:...

2019-09-15 22:15:33 238

原创 指标与维度

指标与维度的区分指标指标是通过关键的几个指标来衡量公司业务运营情况的好坏,例如利润率/留存率/覆盖率等.指标需要经过加和/平均等汇总方式来获得,并且需要在一定的前提条件下进行汇总统计计算,也就是我们所说的口径与范围.指标可以分为绝对数指标和相对数指标. 绝对数指标例如人口,GDP,收入.相对数指标例如利润率,留存率和覆盖率.维度维度是指某种事物的特征.例如时间/地区/性别都是维度....

2019-09-11 15:28:28 2953

原创 统计学每日一练

1、有个苦逼的上班族,他每天忘记定闹钟的概率为0.2,上班堵车的概率为0.5,如果他既没定闹钟上班又堵车那他迟到的概率为1.0,如果他定了闹钟但是上班堵车那他迟到的概率为0.8,如果他没定闹钟但是上班不堵车他迟到的概率为0.9,如果他既定了闹钟上班又不堵车那他迟到的概率为0.0,那么求出他在60天里上班迟到的期望。2、0-999999之间的所有整数数字中,任何一位都不包括数字3的数字整数有多少个...

2019-08-26 08:54:19 300

原创 数据挖掘项目——乘客价值识别

分析方法:本案例的目标是客户价值识别,通过航空公司的价值数据识别不同价值的客户。识别客户价值主要有三个主要指标,R(最近消费的间隔)F(消费频率)M(消费金额)来进行刻画细分,识别出高价值客户。本案例将客户关系长度L、消费时间间隔R、消费频率F、飞行总里程M、和折扣系数C五个主要指标作为航空公司客户价值主要指标。LRFMCL:会员入会时间距观测窗口结束时间的月数R: 客户最近一次乘机距观测窗...

2019-08-26 08:53:28 456

原创 数据探索

1 数据质量分析数据质量分析主要是检查是否存在脏数据: 缺失值 异常值 不一致的值 重复数据及含有特殊符号的数据1.1 缺失值的处理: 删除缺失记录 数据插补 不处理import numpy as npimport pandas as pdimport matplotlib.pyplot as plt%matplotlib inline'''判断...

2019-08-22 10:51:09 267

原创 搜狐数据分析面试题

1 切比雪夫不等式1.1 适合场景:在总体分布未知的情况下(或者样本是非正态分布)样本容量小于30,均值的抽样分布是未知的,不能运用中心极限定理,T分布,大样本理论来估计总体均值。1.2 定理: 在任意一个数据集中,位于其平均数m个标准差范围内的比例总是1-1/m^21.3 运用:切比雪夫不等式与总体均值的区间估计例题1: 一种新的手术在推广,对于已经完成的20例手术,平均住院日期为1...

2019-08-18 23:45:07 713

原创 SQL聚合与排序

1 对表进行聚合查询使用聚合函数对表中的列进行计算合计值或者平均值等汇总操作聚合函数会对NULL以外的对象进行汇总,只有CUNT()函数例外,使用COUNT(*)可以查找包含NULL在内的全部数据的行数.使用DISTINCT 删除重复值1.1 聚合函数中上映distinct,DISTINCT必须写在括号中,因为必须要在计算之前删除product_type列中的重复数据SELECT C...

2019-08-18 22:15:55 309

原创 探索性数据分析的思路整理

探索性数据分析的思路整理读取数据清洗数据,对构建的数据进行整理探索全局特征, 通过直方图,散点图,聚合函数对数据进行全局的了解探索数据的分组特征,通过分组操作分析数据集%matplotlib inlineimport pandas as pdimport numpy as npimport matplotlib.pyplot as pltpd.set_option('disp...

2019-08-08 23:02:34 3359

原创 SQL总结(1)

1 WHERE GROUP BY 的组合# 显示每个洲人口为2亿国家的数量SELECT continent , COUNT(name)FROM worldWHERE population > 20000000000GROUP BY continent;2 HAVING 子句在SQL中增加HAVING因为SQL中WHERE关键字无法与合计函数一起使用# 例子: 找到客户BU...

2019-08-08 23:01:36 66

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除