自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Kailin_lin的博客

一个Python小白

  • 博客(37)
  • 资源 (3)
  • 收藏
  • 关注

原创 利用Excel计算DAU、商品转化率和ARPU值等

  这个小练习是根据某公众号发布的内容,自己再进行整理的,觉得非常不错,所以拿来练练手。Excel记录了某款电商产品在1月1日发布,1个月后的新增及留存数据、商品销售数据、商品详情页浏览数据、及商品信息表。现在业务部门需要你分析出:1月5日的DAU是多少?从留存的角度来看,质量最高的新增用户来自哪一天?在1月15日当天,SKU销售激活率是多少?商品“品类T582”的详情页购买转化率在哪天最高?1月10日当天的ARPU值是多少?  得知以上的问题后,接下来我们将一步步来解决。(内容涉及一些常

2020-05-27 20:21:19 5326

原创 模拟某打车公司的业务题:分析打车的业务问题

某打车公司业务题:分析打车业务问题公司A是的app(类似滴滴、uber)为用户提供打车服务。现有四张表(模拟数据),分别是diver(司机数据)表,online_time(在线时长数据)表,order_info(订单数据)表,city(城市匹配数据)表。现有如下业务问题:提取2020年8月各城市每天的司机数、快车订单量和快车流水数据。提取2020年8月和9月,每个月的北京市新老司机(首单日期在当月为新司机)的司机数、在线时长和TPH(订单量/在线时长)数据。分别提取司机数大于20,司机

2020-06-08 12:07:11 915 1

原创 利用Python进行用户消费行为分析(CDNOW_master)

用户消费行为的分析报告  想必大家对于CD用户消费者行为的分析已经见得多了,这里就不再一一叙述,这里主要是作为我的一个小练习,来提高自己处理业务的能力。  项目需求如下:(1)用户消费趋势分析每月的消费总金额每月的消费次数每月的产品购买量每月的消费人数(2)用户个体消费行为分析用户消费金额和消费总数的描述统计用户消费金额和消费总数的散点图用户消费金额和消费总数的分布图用户累计消费金额的占比(3)用户消费行为分析用户第一次消费时间(用户首次购买产品的时间)用户最后一次消

2020-05-29 16:44:06 3973

原创 利用Python进行电商网站用户行为分析

电商网站用户行为分析项目需求1.用户整体购物情况怎样?统计数据集中总的用户数,商品数,商品类别数,用户行为数。核心指标如PV,UV,跳出率,复购率,留存率等分别是多少?2.用户的购物行为情况。3.统计出每天各种行为的访问次数。4.找出购买率最高的前二十个商品品类。分析过程:获取业务方的需求->获取数据->分析数据->整理并清洗异常数据->实现需求获取数据import pandas as pdimport matplotlib.pyplot as pltpl

2020-05-28 22:02:55 6305 9

原创 Python数据类型

Number(数字)主要包括了整数,浮点数(小数)和复数String(字符串)Boolean(布尔值)真和假(True和False)None(空值)list(列表)dict(字典)tuple(元组)set(集合)...

2020-05-27 20:31:25 210

原创 Pandas的拼接操作

import numpy as npfrom pandas import DataFrame, Seriesimport pandas as pd'''pandas的拼接分为两种:级联:pd.concat,pd.append;合并:pd.merge,pd.join''''''0回顾numpy的级联练习:1.生成2个3*3的矩阵,对其分别进行两个维度上的级联'''nd = np...

2020-05-27 20:30:44 120

原创 ndarray的创建

import numpy as np# 使用np.array()由python list创建# 参数列表为:[1,2,3,4,5]# 注意:numpy默认ndarray的所有元素的类型是相同的,如果传递进来的列表中包含不同的类型,# 则统一为同一类型,优先级:str>float>intn1 = np.array([1, 2, 3, 4, 5])print(n1)n2...

2020-05-27 20:30:08 357

原创 Pandas数据处理之数据聚合

import pandas as pdimport numpy as npfrom pandas import DataFrame, Series'''5.数据聚合数据聚合是数据处理的最后一步,通常是要使每一个数组生成一个单一的数值。数据分类处理:-----分组:先把数据分为几组-----用函数处理:为不同组的数据应用不同的函数以转换数据-----合并:吧不同组得到的结果合并起...

2020-05-27 20:29:00 154

原创 Pandas数据处理之高级聚合

import numpy as npfrom pandas import DataFrame, Seriesimport pandas as pd'''假设菜市场张大妈在卖菜,有以下属性:菜品(item):萝卜,白菜,辣椒,冬瓜颜色(color):白,红,青重量(weight)价格(price)1.要求以属性作为列索引,新建一个df2.对df进行聚合操作,求出颜色为白色的价格...

2020-05-27 20:28:42 259

原创 Pandas的多层索引

import numpy as npfrom pandas import DataFrame, Seriesimport matplotlib.pyplot as pltimport pandas as pd'''1.创建多层索引1)隐式构造:最常见的方法是给DataFrame构造函数的index参数传递两个或更多的数组'''# Series也可以创建多层索引s = Serie...

2020-05-27 20:28:28 255

原创 使用Python的DataFrame处理丢失数据

import numpy as npfrom pandas import DataFrame, Seriesimport pandas as pd# 处理丢失数据 有两种丢失数据:''' 1)None 是Python自带的,其类型为python object。因此,None不能参与到任何计算中 object类型的运算要比int类型的运算慢的多,计算不同类型数据求和时间2)np....

2020-05-27 20:26:50 212

原创 numpy中的ndarray聚合操作

import matplotlib.pyplot as pltimport numpy as npimport pandas as pd# 1.求和np.sumn = np.random.randint(0, 150, size=(4, 4, 4))print(n)print(np.sum(n))# 最大最小值:np.max/np.minimage = plt.imread('...

2020-05-27 20:25:47 152

原创 ndarray的操作

import numpy as npimport matplotlib.pyplot as plt# 1.索引 一维与列表完全一致 多维也与列表完全一致 可以根据索引修改数据n1 = np.random.randint(0, 100, 10)print(n1, "索引为3的值为:%d" % n1[3]) # [13 44 75 33 49 59 42 17 38 18] 索引为3...

2020-05-27 20:25:25 125

原创 ndarray的矩阵操作

import numpy as np# 1.基本矩阵操作# 1)算术运算符:加减乘除n = np.random.randint(0, 10, size=(4, 5))print(n)n1 = n + 10print(n1)n2 = np.add(n, 10)print(n2)n3 = n/2print(n3)# 2)矩阵积np.dot()n4 = np.rando...

2020-05-27 20:25:09 129

原创 ndarray的排序

import numpy as np# def Sort()代码越短越好# 普通的排序n1 = np.array([2, 4, 5, 7, 1])def sort(nd): for i in range(nd.size): for j in range(i, nd.size): if nd[i] > nd[j]: ...

2020-05-27 20:24:55 718

原创 配置hadoop环境(三)

不知道为什么我的vim突然不能用了,我先装一下vim(切换到root用户下安装)yum -y install vim*出现complete表示完成安装!(1)关闭selinux vim /etc/selinux/configSELINUX=disabled(2)切换到hadoop用户,配置免密登陆。cd 进入hadoop用户的目录ssh-keygen -t rsa [输入完后...

2020-04-03 17:51:21 740

原创 虚拟机的基本配置(二)

虚拟机的基本配置1.切换到root用户 su - root2.关闭防火墙和禁止防火墙自启动systemctl stop firewalld.servicesystemctl disable firewalld.service3.配置时间自动同步crontab -e在文件中插入: */5 * * * * /usr/sbin/ntpdate ntp1.aliyun.com4.修改...

2020-04-03 17:04:48 488

原创 VMware虚拟机的安装和网络配置(一)

昨天晚上想配置三台虚拟机和安装并配置好Hadoop的时候才发现,自己并不是那么清晰的记得自己做的流程步骤,那么我今天将根据昨晚做过的步骤重新做一遍(安装VMware的步骤就不显示了,那个比较简单)。CentOS7的下载地址centos7下载一、安装虚拟机1.选择典型2.选择 稍后安装操作系统3.选择linux,版本选择CentOS7 64位4.更改虚拟机名称和安装目录5.指定...

2020-04-03 16:44:23 1621

原创 常用的linux命令

今天在VMware中装centos8出现了一点点小问题,无奈只能装centos7的了,在这里把常用的linux命令记录下,以后有需要再取。(1)切换用户 su - 用户名(2)切换目录cdcd /etc 表示进入etc这个目录中cd …/ 表示返回上一级目录cd 表示当前用户的家目录(3)查看文件 ls -l(简称ll)和ls这两种都可以用来查看文件,但ll是显示详细信息。...

2020-04-02 15:32:58 154

原创 泰坦尼克号数据集的下载

这是一个常用的数据,给大家个链接,可以去该链接下载数据集http://biostat.mc.vanderbilt.edu/wiki/pub/Main/DataSets/titanic.txt

2020-03-30 20:29:46 25148 27

原创 Matplotlib中几种常用的图形(四)

条形图条形图常常用来描述一组数据的对比情况,例如:一周七天,每天的城市车流量等。【条形图有两个参数x,y】bar()绘制竖直条形图、barh()绘制水平条形图。 导入绘图工具包:import matplotlib.pyplot as pltimport numpy as np绘制竖直条形图x = np.linspace(0, 5, 5)y = np.random.randin...

2018-08-27 17:47:52 2547

原创 Python分析《黄蜂女现身》豆瓣影评分析

最近在学习python爬虫以及数据分析,故想做一个简单的项目来检验一下自己最近的学习状况。在豆瓣上查看正在热映的电影有很多,选择了《黄蜂女现身》这部电影来练手,将豆瓣上对它的影评做一个简单的分析吧!后期还会继续对其他的电影进行分析,下次的分析可能会包括地区等属性,此次只是针对评论进行简单的分析。1、抓取网页数据首先是抓取网页数据,打开豆瓣电影,点击最近的热映电影后,点击全部评论,我们则选取...

2018-08-27 13:57:41 576

原创 Pandas的数据结构之Series

import pandas as pdfrom pandas import Seriesimport numpy as np# pandas纳入了大量库和一些标准的数据类型,提供了高效的操作大学数据集所需的工具,pandas提供了大量能# 使我们快速便捷的处理数据的函数和方法,它使Python成为强大而高效的数据分析环境的重要元素之一。# Pandas的数据结构'''Series 是...

2018-08-26 17:43:39 982

原创 Pandas的数据结构之DataFrame

from pandas import DataFrameimport pandas as pdimport numpy as np'''DataFrame是一个【表格型】的数据结构,可以看做事【由Series组成的字典】(共用一个索引)。DataFrame由按一定顺序排列的多列数据组成。设计初衷是将Series的使用场景从一维拓展到多维。DataFrame既有行索引,也有列索引。行...

2018-08-26 17:41:27 1504

原创 Pandas的数据处理

常见的聚合方法及说明count—————–计数 describe————-给出各列的常用统计量 min,max————-最大最小值 argmin,argmax—-最大最小值的索引位置(整数) idxmin,idxmax—–最大最小值的索引值 quantile————-计算样本分位数 sum,mean———-对列求和,均值 mediam————-中位数 mad——————根据平均...

2018-08-26 17:34:50 268

原创 Matplotlib基础知识(一)

import matplotlib.pyplot as pltimport numpy as npfrom matplotlib.font_manager import FontProperties #字体管理器'''Matplotlib中的基本元素图表包括的元素:---x轴和y轴:水平和垂直的轴线---x轴和y轴刻度:刻度表示坐标轴均分隔,包括最小刻度和最大刻度---x轴和y轴刻度...

2018-08-26 17:32:58 1398

原创 设置plot的风格和样式(二)

import matplotlib.pyplot as pltimport numpy as np'''plot语句中支持除X,Y以外的参数,以字符串形式存在,来控制颜色、线性、点型等要素,语法形式如下:plt.plot(X,Y,"format",...)''''''点和线的样式。'''# 颜色:参数color或c 颜色值的方式:(1)别名color="r";(2)合法的HT...

2018-08-26 17:26:37 6623

原创 Matplotlib图形内的文字注释、箭头(三)

import numpy as npimport matplotlib.pyplot as plt''''---text():在Axes对象的任意位置添加文字---xlabel():为X轴添加标签---ylabel():为Y轴添加标签---title():为Axes对象添加标题---legend():为Axes对象添加图例---figtext():在Figure对象的任意位置添...

2018-08-26 17:22:20 8145 1

原创 图片灰度处理

import scipy.misc as miscimport matplotlib.pyplot as pltimport numpy as np# 获取图片face_g = misc.face(gray=True)plt.imshow(face_g, cmap="gray")# plt.show()# print(face_g.shape)# 将彩色图片变为灰色图片 彩色...

2018-08-26 17:18:40 6126 1

原创 Mysql的基本介绍

数据库简介概念人类在进化的过程中,创造了数字、文字、符号等来进行数据的记录,但是承受着认知能力和创造能力的提升,数据量越来越大,对于数据的记录和准确查找,成为了一个重大的难题。计算机诞生后,数据开始在计算机中存储并计算,并设计出了数据库系统,数据库系统要解决的问题主要是:持久化存储,优化读写,保证数据的有效性。 当前使用的数据库主要分为两类:文档型和服务型。 文档型:比如说sqllit...

2018-08-21 11:45:05 1485

原创 Python的标识符

什么是标识符?标识符指的是一串字符串(注意:字符串未必是标识符)规则标识符的规则表示为:只能由字母、数字和下划线组成,开头不能是数字,也不能是Python的关键字。Python的关键字如下:import keywordprint(keyword.kwlist)打印出来的结果如下: (https://img-blog.csdn.net/20180814150234381?wa...

2018-08-20 16:40:32 6233

原创 Python的变量和常量

变量的概述变量指的是程序可操作存储空间的名称,程序在运行期间可以修改的数据,每个变量都有特定的类型。变量的作用将不同类型的数据存储到内存中定义变量变量名 = 初始值,初始值是为了确定变量的类型。比如说age = 10,系统会自动判断“age”是整数类型的。举例如下:num1 = input("请输入一个数字")num2 = input("请输入一个数字&am

2018-08-20 16:39:00 406

原创 Python的运算符与表达式

什么是表达式?由变量、常量和运算符组成的式子。算术运算符和算术运算表达式算术运算符: +(加) -(减)* (乘) /(除) %(取模) **(求幂) //(取整) 算术运算表达式:1+1 a/3 4%5,等等。功能是进行相关符号的数学运算, 值为相关的数学运算结果。num1 = 30num2 = 50print(num1 + num2)...

2018-08-20 16:38:04 744

原创 python中的三大流程

三大流程:分支,循环和顺序if 语句# 格式:if 表达式: 语句逻辑:当程序执行到if语句时,首先计算“表达式的值”,如果“表达式”的值为真,那么执行if下的“语句”。如果“表达式”的值为假,则跳过整个if语句,继续向下执行。num1 = 10num2 = 30if num1 == num2: num2 = 80print("num2 =", num...

2018-08-20 16:36:31 729

原创 Python中的文件处理

读文件步骤:1.打开文件;2.读取文件内容;3.关闭文件打开文件格式为:open(path, flags[, encoding][,errors] ),path: 要打开文件的路径, flags:文件的打开方式。 文件的打开方式主要有以下的几种: ‘r’ 以只读的方式打开文件,文件的描述符放在文件的开头。 ‘rb’ 以二进制格式打开一个文件用于只读,文件的描述符放在...

2018-08-20 12:32:13 172

原创 Python中的函数

函数的定义在一个完整的项目中,某些功能会被反复的进行使用,我们须将这些功能封装成函数,当我们要使用这些功能的时候直接调用函数即可。函数的本质:对功能的封装。 优点:1.简化代码结构,增加了代码的重复利用率; 2.若修改某些功能或者调试某个BUG,只需修改对应的函数即可。定义一个函数函数代码块以 def 关键词开头,后接函数标识符名称和圆括号()。#格式def 函数名(参数...

2018-08-19 23:09:28 266

原创 Python概述

什么是PythonPython是一种解释型、面向对象、动态数据类型的高级程序设计语言,Python是由由荷兰人Guido van Rossum于1989年发明,第一个公开发行版发行于1991年。Python是纯粹的自由软件, 像Perl语言一样,Python源代码和解释器CPython遵循 GPL(GNU General Public License)协议。Python简介Pyth...

2018-08-14 11:44:03 1847

用SQL进行用户行为分析(order_info.sql)

数据集我将其转存为SQL脚本了,大家可以下载下来在MySQL8.0以上的数据库进行使用,该订单信息表,主要包括用户ID、订单ID、是否支付、支付价格以及支付日期这几个字段。

2020-06-08

用SQL进行用户行为分析(user_info.sql)

数据集我将其转存为SQL脚本了,大家可以下载下来在MySQL8.0以上的数据库进行使用,该用户基础信息表,主要包括用户ID、用户性别和用户出生日期这三个字段。

2020-06-08

某打车公司的模拟数据集

某打车业务的一个数据集,我上传上来了,我是自己做成了SQL脚本,大家有需要的可以下载,在MySQL8.0以上的版本进行运行即可

2020-06-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除