SQL——使用聚合函数 例2(与distinct一起使用)例3(与group by一起使用)AVG函数例1(返回所有列的平均值)例2(返回特定列的平均值)总结sum(),avg():括号中必须是数值count函数count(*):返回表中行的总数用来统计元组的个数,不需要任何参数。且不能与distinct一起使用,包括含有空值的行。count(列名):返回列中非空的行数按照该列数值统计个数count(distinct 列名):返回列中非空且不重复的行数总结
SQL——基础查询 查看所有列使用计算列求和求个数求价格提升求库存数量使用distinct作用于单列作用于多列使用where字句关系运算符逻辑关系符范围运算符列表运算符模糊匹配运算符【not】like + ‘%’:表示0或多个字符【not】like + ‘_’:表示单个字符,一般用来限制字符长度【not】like + [ ]:表示范围内的单个字符【not】like + [^ ]:表示不在范围内的单个字符空值运算符:is null
分析方法 分析方法1.金字塔原理:论证类比论:结论先行—总分总证:自上而下表达,自下而上思考类:归类分组—相互独立,完全穷尽比:逻辑递进—明确规则,按序排列2.描述分析:集中趋势/离散程度/分布形态集中趋势:平均数,中位数,众数离散程度:方差与标准差,极差,变异系数,四分位差分布形态:偏度与峰度环比:环比增长率 = (本期数-上期数)/上期数同比:同比增长率 = (本期数-上同期数)/上同期数3.对比分析:时间标准:时间趋势对比/动作前后对比/去年同期对比/前一时期对比空间标准:A/B测试
酒店预定需求分析 了解样本基本信息import pandas as pdpath = 'C:/Users/Administrator/Desktop/酒店需求案例分析/hotel_bookings.csv'data = pd.read_csv(path)pd.set_option('display.max_columns', 100)pd.set_option('display.width', 500)print(data.describe()) is_canceled lead_t
入门matplotlib—坐标轴 轴的颜色及隐藏轴边框import pandas as pdimport matplotlib.pyplot as plt# 遇到数据中有中文的时候,一定要先设置中文字体plt.rcParams['font.sans-serif'] = ['SimHei'] # 用黑体显示中文x,y = plt.subplots(1,1)y.spines['left'].set_color('r')y.spines['bottom'].set_color('b')y.spines['top'].set_col
入门matplotlib—直方图 import pandas as pdimport matplotlib.pyplot as plt# 遇到数据中有中文的时候,一定要先设置中文字体plt.rcParams['font.sans-serif']=['SimHei'] # 用黑体显示中文path = 'C:/Users/Administrator/Desktop/playground2/17.直方图.xlsx'data = pd.read_excel(path)plt.hist(data.身高,bins=30,color='r'.
入门matplotlib—坐标轴上的日期格式和散点图以及网格线 坐标轴上的日期格式import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport matplotlib.ticker as mtick #导入百分比# 遇到数据中有中文的时候,一定要先设置中文字体plt.rcParams['font.sans-serif']=['SimHei'] # 用黑体显示中文path = 'C:/Users/Administrator/Desktop/playground2/12
入门matplotlib—柱形图与折线图组合 import pandas as pdimport numpy as npimport matplotlib.pyplot as plt import matplotlib.ticker as mtick #导入百分比# 遇到数据中有中文的时候,一定要先设置中文字体plt.rcParams['font.sans-serif']=['SimHei'] # 用黑体显示中文path = 'C:/Users/Administrator/Desktop/playground2/09.折线与柱状组合.
入门入matplotlib—画布与子图以及创建多个子图 画布与子图import pandas as pdimport matplotlib.pyplot as plt# 遇到数据中有中文的时候,一定要先设置中文字体plt.rcParams['font.sans-serif']=['SimHei'] # 用黑体显示中文path = 'C:/Users/Administrator/Desktop/playground2/09.折线与柱状组合图.xlsx'data = pd.read_excel(path)w = plt.figure() #画布
入门 matplotlib—折线图和平均线 折线图import pandas as pdimport matplotlib.pyplot as plt# 遇到数据中有中文的时候,一定要先设置中文字体plt.rcParams['font.sans-serif']=['SimHei'] # 用黑体显示中文path = 'C:/Users/Administrator/Desktop/playground2/08.折线图.xlsx'data = pd.read_excel(path)plt.plot(data.时间,data.蔬菜,color=
入门 matplotlib—饼图 import pandas as pdimport numpy as npimport matplotlib.pyplot as plt# 遇到数据中有中文的时候,一定要先设置中文字体plt.rcParams['font.sans-serif']=['SimHei'] # 用黑体显示中文# 解决坐标轴负号问题plt.rcParams['axes.unicode_minus'] = Falsepath = 'C:/Users/Administrator/Desktop/playground2/0
入门matplotlib—叠加柱状图与叠加条形图 叠加柱状图import pandas as pdimport numpy as npimport matplotlib.pyplot as plt# 遇到数据中有中文的时候,一定要先设置中文字体plt.rcParams['font.sans-serif']=['SimHei'] # 用黑体显示中文# 解决坐标轴负号问题plt.rcParams['axes.unicode_minus'] = Falsepath = 'C:/Users/Administrator/Desktop/playgro
入门matplotlib—分组柱状图 分组柱状图import pandas as pdimport numpy as npimport matplotlib.pyplot as plt# 遇到数据中有中文的时候,一定要先设置中文字体plt.rcParams['font.sans-serif']=['SimHei'] # 用黑体显示中文# 解决坐标轴负号问题plt.rcParams['axes.unicode_minus'] = Falsepath = 'C:/Users/Administrator/Desktop/playgro
入门matplotlib—柱状图与水平条形图 柱状图import pandas as pdimport matplotlib.pyplot as plt# 遇到数据中有中文的时候,一定要先设置中文字体plt.rcParams['font.sans-serif']=['SimHei'] # 用黑体显示中文# 解决坐标轴负号问题plt.rcParams['axes.unicode_minus'] = Falsepath = 'C:/Users/Administrator/Desktop/playground2/01.柱状图.xlsx'dat
入门pandas—行列转换,环比与同比 pandas中的行列转换import pandas as pdpath = 'C:/Users/Administrator/Desktop/playground2/转换.xlsx'data = pd.read_excel(path)data2 = pd.DataFrame(data.values.T,index=data.columns,columns=data.index)print(data2) 0 1 2 3 4 5 6姓名 丁智敏 李平平
入门pandas—数据处理三板斧(map、apply、applymap) 在数据处理中,经常会对一个DataFrame进行逐行、逐列和逐元素的操作,对应这些操作,PD中的map\apply\applymap可以解决绝大部分这样的数据处理需求map不管是利用字典还是函数进行映射,都是把对应的数据逐个当作参数传入到字典或函数中,得到映射后的值原数据 姓名 性别 语文 数学 英语 身高 体重0 孙兴华 男 90 100 0 178 721 丁智敏 女 62 82 37 160 832 李平平 女 68 53
入门pandas—使用pandas实现excel的vlookup功能 原数据花名册 学号 姓名 班级0 1 张三 1班1 2 李四 1班2 3 王五 2班3 4 赵六 2班4 5 邓七 3班成绩单 学号 语文 数学 英语 总分0 1 67 77 63 2071 2 81 58 65 2042 3 89 60 58 2073 4 67 61 52 1804 5 78 55 51 184import pandas as pd