数据分析
千里足行~始于足下
坚持做喜欢的事!
展开
-
pycharts 折线图上Markpoint/自定义多个标记点
折线图上标记自定义点逻辑:在折线图上画散点图,利用了图的叠加。from pandas import DataFrameimport pandas as pdimport numpy as npfrom pyecharts.charts import Bar,Pie,Tab,Scatter,Linefrom pyecharts import options as optsline1= ( Line() .add_xaxis(['1-11','1-12','1-13','1-14原创 2021-03-22 09:26:19 · 3660 阅读 · 0 评论 -
分类分析-案例:客户流失预测分析与应用
来自:宋天龙《PYTHON数据分析与数据化运营》,以下内容比较简陋,方便日后翻阅。1. 业务场景业务部门希望数据部门能对流失用户做分析,找到流失用户的典型特征,例如:到底流失用户的哪些特征最显著,当客户在哪些特征的什么条件下比较容易发生流失行为,并送到业务部门。分析:1.这是关于特征提取的分析工作,目标是交付特征重要性和特征规则;2.该需求可以通过决策树实现,本例使用XGBoost3.必须给业务部门提供规则图4.数据集样本不平衡,因为流失用户是少量的,即使CGBoost对缺失值不敏感,但是过.原创 2020-09-29 16:42:00 · 1466 阅读 · 1 评论 -
聚类分析-案例:客户特征的聚类与探索性分析
来自:宋天龙《PYTHON数据分析与数据化运营》,以下内容比较简陋,方便日后翻阅。场景:某天业务部门拿了一些数据找到数据部门,这些数据是关于客户的,苦于没有分析入手点,希望数据部门通过对这些数据的分析,给业务部门一些启示、建议。数据源特征如下:user_id用户ID列,整数型AVG_ORDERS:平均用户订单数量,浮点型AVG_MONEY:平均订单价值,浮点型IS_ACTIVE:是否活跃 字符串SEX:性别,0,1,1表示未知,男,女分析:IS_ACTIVE是字符串型分类变量,SEX.原创 2020-09-28 20:20:58 · 2499 阅读 · 1 评论 -
样本不平衡的处理方式
来自:宋天龙《PYTHON数据分析与数据化运营》,以下内容比较简陋,方便日后翻阅。样本不平衡怎么办?1.过采样、欠采样2.调节样本的权重3.组合或集成的方法1.导入数据import pandas as pdfrom imblearn.over_sampling import SMOTE # 过抽样处理库SMOTEfrom imblearn.under_sampling import RandomUnderSampler # 欠抽样处理库RandomUnderSamplerfrom s.原创 2020-09-28 17:16:08 · 444 阅读 · 0 评论 -
python实现数据降维
来自:宋天龙《PYTHON数据分析与数据化运营》,以下内容比较简陋,方便日后翻阅。1. python实现数据降维数据降维的情况:1.维度数量2.建模是否需要保留原始维度,保留:特征选择;不保留:特征转化(PCA,LDA)3.对模型的计算效率和时效性降维的方式:特征选择,特征转换,特征组合import numpy as npfrom sklearn.tree import DecisionTreeClassifier# 决策树分类器,用于结合selectfrommodel提取特征from .原创 2020-09-28 17:06:37 · 5676 阅读 · 0 评论 -
数据清洗,非数值型变量怎么用于建模?OneHotEncoder
来自:宋天龙《PYTHON数据分析与数据化运营》,以下内容比较简陋,方便日后翻阅。1.数据清洗1.1 缺失值针对缺失值的处理:丢弃、补全,可以用sklean中Imputer库import pandas as pd # 导入pandas库import numpy as np # 导入numpy库from sklearn.impute import SimpleImputer # 导入sklearn.preprocessing中的Imputer库# 生成缺失数据df = pd.DataFr.原创 2020-09-27 20:42:58 · 2027 阅读 · 0 评论 -
对比Excel-Python数据分析——数据分组(透视)、多表拼接(5)
1. 数据分组/数据透视表1.1 数据分组在Python中,我们用groupby()函数实现。1.11 分组键是列名聚合:对分组后的数据进行汇总运算的操作统称聚合,该篇中的3.2节中提到的函数均是聚合函数。1.按照一列进行分组2.按照一列进行分组3.对某列/些列按某一原则分组比如我们想看下A,B,C类客户分别有多少1.12 分组键是Series(常用)1.13 神奇的aggregate方法aggregate()第二个特性常用1.14 对分组后的结果重置索引1.2 数据原创 2020-08-01 14:16:10 · 1019 阅读 · 0 评论 -
对比Excel-Python数据分析——时间序列(4)
1. 获取当前时刻的时间获取当前时刻的时间就是获取此时此刻与时间相关的数据,除了具体的年、月、日、时、分、秒,还会单独看年、月、周、日等指标。from datetime import datetime as dt当前的时间...原创 2020-07-31 20:01:39 · 801 阅读 · 0 评论 -
对比Excel-Python数据分析——数据选择、操作、运算(3)
1. 数据选择普通索引:传入具体索引的名称,常用loc函数。位置索引:传入具体索引的行数或列数,常用iloc函数。loc函数主要通过行标签索引行数据,划重点,标签!标签!标签!iloc 主要是通过行号获取行数据,划重点,序号!序号!序号!1.1 列选择选择某一列或某几列当传入列名list选择,df[list]当传入列的具体位置,传入第0,3列时,df.iloc[:,[0,2]]选择连续的某几列当传入列名是连续的,df[list]当传入连续的位置时,df.iloc[:,[0:2]]原创 2020-07-29 21:06:27 · 807 阅读 · 0 评论 -
对比Excel-Python数据分析——数据预处理(2)
1. 缺失值处理处理原则:1.删除,2.以某种形式的值填充1.1 缺失值的查看info()可以查看缺失值isnull()可以判断哪个值是缺失值,如果是返回True,否返回False1.2 缺失值的删除# 只要某一行有缺失值就把这一行删除df.dropna()# 如果只想删除空白行df.dropna(how=all)1.3 缺失值的填充#括号内填要填充的值df.fillna() # 按照不同的列填充df.fillna({'列名1':'要填充的值1','列名2':'要填充的值原创 2020-07-26 21:45:27 · 360 阅读 · 0 评论 -
对比Excel-Python数据分析——pandas数据结构、读取/导出数据源(1)
1.format 格式化输出2.浮点数设置3.百分比设置4.列表列表复制 :a=[‘1’]*2列表合并:+,或者A.extend(B)将A合并到B中插入元素:往A中加入元素4,A.append(4)在A中的指定位置(3)加入4,A.insert(2,4)获取值4在列表出现的次数,A.count(4)获取某个值4出现的位置,A.index(4)获取列表A中指定位置的值,利用索引删除列表A 中的值,删除值A.remove(4),删除指定位置(3)的值A.pop(2)对列表的值进行原创 2020-07-26 19:24:45 · 544 阅读 · 0 评论