![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python
高雅_GaoYa
一个励志成为优秀分析师的孩纸
展开
-
机器学习笔记--5、决策树及python实现
决策树文章目录决策树决策树的概念属性选择的先后顺序纯度基尼系数熵(entropy)信息增益(gain)错误率(classification error)sklearn中的决策树决策树的概念决策树是一种树形结构的分类器,通过顺序询问分类点的属性决定分类点最终的类别。通常根据特征的信息增益或其他指标,构建一颗决策 树。在分类时,只需要按照决策树中的结点依次进行判断,即可得到样本所属类别。 例如,...原创 2020-04-28 17:38:19 · 947 阅读 · 2 评论 -
机器学习笔记--4、朴素贝叶斯及python实现
朴素贝叶斯文章目录朴素贝叶斯概率基础随机事件样本空间概率联合概率条件概率独立性全概率公式贝叶斯公式朴素贝叶斯拉普拉斯平滑处理算法处理流程sklearn中的朴素贝叶斯高斯朴素贝叶斯python实现高斯朴素贝叶斯多项式朴素贝叶斯——用于文本分类朴素贝叶斯模型(Naive Bayesian Model,NBM)朴素贝叶斯分类器是一个以贝叶斯定理为基础 的多分类的分类器。 对于给定数据,首先基于特征...原创 2020-04-27 23:14:16 · 1361 阅读 · 0 评论 -
机器学习笔记--3、分类学习KNN及python实现
KNN文章目录KNN什么是KNN计算步骤1. 算距离2. 找邻居3. 做分类算法流程KNN的优点与缺点优点缺点python实现什么是KNNkNN(k-Nearest Neighbor Classification),即K-近邻分类算法近朱者赤,近墨者黑一个样本在特征空间中,总会有k个最相似(即特征空间中最邻近)的样本。其中,大多数样本属于某一个类别,则该样本也属于这个类别。是理...原创 2020-04-27 19:21:25 · 817 阅读 · 0 评论 -
机器学习笔记--2、回归分析及python实现
回归分析文章目录回归分析线性模型(linear model)获得线性模型线性模型的基本形式线性回归目标函数(单变量)目标函数(多变量)python实现线性回归示例线性模型(linear model)线性linear,指量与量之间按比例、成直线的关系,在空间和时间上代表规则和光滑的运动,一阶导数为常数;非线性non-linear则指不按比例、不成直线的关系,代表不规则的运动和突变,一阶导数不...原创 2020-04-27 18:45:43 · 1514 阅读 · 2 评论 -
fit_transform,fit,transform区别和作用详解
fit_transform,fit,transform区别和作用详解写在前面:fit和transform没有任何关系,仅仅是数据处理的两个不同环节,之所以出来fit_transform这个函数名,仅仅是为了写代码方便,会高效一点。sklearn里的封装好的各种算法使用前都要fit,fit相对于整个代码而言,为后续API服务。fit之后,然后调用各种API方法,transform只是其...转载 2020-04-26 19:53:35 · 927 阅读 · 0 评论 -
如何写一份具有业务价值的分析报告
分享一篇对我很有启发的文章原作者信息如下: 作者简介HeoiJin:立志透过数据看清世界的产品策划,专注爬虫、数据分析、产品策划领域。万物皆营销 | 资本永不眠 | 数据恒真理CSDN:https://me.csdn.net/weixin_40679090一、前言数据分析师们经常会收到“我这里有...转载 2020-04-22 20:29:21 · 3723 阅读 · 1 评论 -
利用python进行用户行为分析
用户行为分析文章目录用户行为分析什么是用户行为分析了解用户行为分析用户行为分析的目的用户行为分析指标实施用户行为分析行为事件分析用户留存分析漏斗模型分析行为路径分析福格模型分析AISAS模型数据集描述明确分析目的获得相关指标:用户消费行为分析通过漏斗模型进行用户行为分析RFM模型分析用户价值理解数据数据清洗缺失值处理统计缺失值日期时间数据处理更改数据类型异常值处理数据分析总量pv、uv分析日访问...原创 2020-04-22 12:19:34 · 8459 阅读 · 5 评论 -
利用python进行零售商品数据分析
零售商品数据分析文章目录零售商品数据分析明确分析目的理解数据数据清洗缺失数据统计缺失率删除缺失值转换数据类型重复值处理处理日期型数据根据需要新建数列数据分析目标1:找出购买商品数量前十的国家目标2:找出交易额前十的国家目标3:公司在哪些月份的销售量比较好目标4:客单价是多少目标5:用户行为分析目标6:基于RFM模型,对用户进行分类再次进行数据清洗转换Customer ID的数据类型为str处理日...原创 2020-04-19 22:51:05 · 11753 阅读 · 15 评论 -
利用python对一份AQI数据进行分析与预测
AQI分析与预测文章目录AQI分析与预测1、 读取数据1.1 导入相关的库1.2 加载数据集2、 数据清洗2.1 缺失值2.1.2 缺失值处理2.1.2 数据分布2.1.3 填充数据2.2 异常值2.2.1 异常值探索2.2.1.1 describle方法2.2.1.2 3σ方法2.2.1.3 箱线图2.2.2 异常值处理2.2.2.1 对数转换2.2.2.2 使用边界值替换2.2.2.3 分箱...原创 2020-04-16 20:48:27 · 4387 阅读 · 10 评论 -
plotly笔记-- 图形设置(多图标、双坐标轴、多子图)
plotly笔记-- 图形设置文章目录plotly笔记-- 图形设置准备工作1、多图标2、双坐标轴3、多子图这篇文章将简单描述plotly图形设置相关的内容,文中使用到的数据是从天池下载的经典泰坦尼克训练数据集,需要此数据的小朋友们可以前往天池下载,我也会将文中使用到的数据和源代码放在Github上以便下载:Github准备工作这次笔记所用数据与上篇文章相同,所以前期准备工作也是相同的i...原创 2020-04-12 00:36:41 · 9743 阅读 · 5 评论 -
plotly笔记--常见平面图形的绘制(Scatter、Bar、Histogram、Pie)
plotly学习笔记–简单平面图形的绘制文章目录plotly学习笔记--简单平面图形的绘制前期准备1、散点图或线形图前期准备# 前期准备#导入plotlyimport plotly# 查看库的版本plotly.__version__# 注意此处是两个"_"import pandas as pdimport numpy as npimport os# 查看当前路径os....原创 2020-04-11 21:38:54 · 5162 阅读 · 1 评论 -
plotly笔记--plotly库简介和简单的图形实现
plotly学习笔记–plotly库简介和简单的图形实现文章目录plotly学习笔记--plotly库简介和简单的图形实现plotly介绍plotly的两种绘图方式图形的输出plotly绘图流程可交互的python绘图库plotly介绍plotly是一个基于JavaScript的绘图库,plotly绘图种类多,操作简单,效果也挺不错(基于js的绘图库最大的特点就是可交互)绘图结果...原创 2020-04-11 16:55:23 · 1592 阅读 · 0 评论 -
python数据清洗学习笔记--数据预处理
python数据清洗学习笔记–数据预处理重复值处理• 数据清洗一般先从重复值和缺失值开始处理• 重复值一般采取删除法来处理• 但有些重复值不能删除,例如订单明细数据或交易明细数据等df[df.duplicated()]np.sum(df.duplicated()) df.drop_duplicates() df.drop_duplicates(subset=['appname','...原创 2020-04-04 22:41:11 · 1010 阅读 · 0 评论 -
python数据清洗学习笔记--数据统计
python数据清洗学习笔记–数据统计文章目录python数据清洗学习笔记--数据统计1、数据分组运算2、聚合函数的使用3、分组对象与apply函数4、透视图与交叉表数据透视表交叉表用于计算分组频率1、数据分组运算分组计算根据某个或者某几个字段对数据集进行分组,然后运用特定 的函数,得到结果• 使用groupby方法进行分组计算,得到分组对象GroupBy• 语法为df.groupby(...原创 2020-04-04 15:51:45 · 333 阅读 · 0 评论 -
python数据清洗学习笔记--数据转换
python数据清洗学习笔记–数据转换目录python数据清洗学习笔记--数据转换1、日期格式数据处理2、字符串数据处理3、高阶函数数据处理1、日期格式数据处理• Pandas中使用to_datetime()方法将文本格式转换为日期格式• dataframe数据类型如果为datetime64,可以使用dt方法取出年月日等• 对于时间差数据,可以使用timedelta函数将其转换为指定时间...原创 2020-04-04 11:01:56 · 223 阅读 · 0 评论 -
python数据清洗学习笔记--数据表处理
python数据清洗学习笔记–数据表处理数据常用筛选方法• 在数据中,选择需要的行或者列• 基础索引方式,就是直接引用• ioc[行索引名称或者条件,列索引名称或者标签]• iloc[行索引位置,列索引位置]注意, 区分loc和ilocbasic[['户主姓名','农户生产经营类型']] basic.loc[0:2,['户主姓名', '户主身份证号']] orde...原创 2020-04-03 16:22:19 · 406 阅读 · 0 评论 -
python数组中,关于行和列的参数解释
关于行和列的参数解释axis=0是跨行, axis=1是跨列• axis=0: 0值表示沿着行的方向或行标签、索引值向下执行• axis=1: 1值表示沿着列的方向或列标签值执行对应方法可以看到当axis=0时,遍历的是每行,或者说保持列标签不变,对行进行操作同样的当axis=1时,遍历的是每列,所以当我们求每列的均值时, 应该是遍历每行加总求均值...原创 2020-04-03 10:34:08 · 3100 阅读 · 0 评论 -
python数据清洗学习笔记--文件读写
python数据清洗–文件读写目录python数据清洗--文件读写csv文件读写:excel文件读写:数据库文件的读写:创建连接数据保存:前期准备:#导入os模块import os#获得当前路径地址os.getcwd() # 更改文件路劲os.chdir('F:\python\数据清洗\代码和数据')#设置最大显示列数pd.set_option('display....原创 2020-04-02 23:00:05 · 588 阅读 · 0 评论 -
Python数据清洗学习笔记--常用工具
Python数据清洗–常用工具概述:目前在Python中, numpy和pandas是最主流的工具Numpy中的向量化运算使得数据处理变得高效Pandas提供了大量数据清洗的高效方法在Python中,尽可能多的使用numpy和pandas中的函数,提高数据清洗的效率NumPy:NumPy常用的数据结构Numpy中常用的数据结构是ndarray格式使用a...原创 2020-04-02 22:23:07 · 381 阅读 · 0 评论 -
Python数据清洗学习笔记--概述
Python数据清洗学习记录–概述数据清洗实质上是将实际业务问题中,脏数据清洗干净,转换为’干净的数据’,所谓的脏,指数据可能存在以下几种问题(主要问题):数据缺失 (Incomplete)是属性值为空的情况。如 Occupancy = “ ”数据噪声 (Noisy)是数据值不合常理的情况。如 Salary = “-100”数据不一致 (Inconsistent)是数据前后存在...原创 2020-04-02 22:05:23 · 430 阅读 · 0 评论 -
ndarray数组的创建方法
ndarray数组的创建方法(1)从Python中的列表、元组等类型创建ndarray数组x = np.array(list/tuple)x = np.array(list/tuple,dtype=np.float32)当np.array()不指定dtype时,NumPy将根据数据情况关联一个dtype类型(2)使用NumPy中函数创建ndarray数组,如:arange, ones,...原创 2020-03-28 21:09:10 · 4294 阅读 · 0 评论 -
Numpy数组对象ndarray
Numpy数组对象ndarrayN维数组对象:ndarrayPython已有列表类型,为什么需要一个数组对象(类型)?•数组对象可以去掉元素间运算所需的循环,使一维向量更像单个数据•设置专门的数组对象,经过优化,可以提升这类应用的运算速度观察:科学计算中,一个维度所有数据的类型往往相同•数组对象采用相同的数据类型,有助于节省运算和存储空间ndarray是一个多维数组对象,由两部分构...原创 2020-03-28 20:26:46 · 833 阅读 · 0 评论 -
jupyter更换主题(win)
jupyter更换主题(win)jupyter默认主题背景是白色,久看也许就比较伤眼了(个人偏爱黑色背景,可能是黑色更炫(zhuang)酷(B)?????)那么怎么更换jupyter主题呢?首先默认打开的jupyter是这样的:现在开始换背景吧:先打开cmd窗口,安装主题:pip install --upgrade jupyterthemespip install --upgrade j...原创 2020-03-17 17:57:14 · 4330 阅读 · 0 评论 -
用jupyter打开其他盘的文件
jupyter只能打开C盘的文件怎么办初学者在使用jupyter的过程中一定会遇见这样的问题:“呀!我的jupyter打开里面怎么只能看见C盘的文件啊,怎么办怎么办??” 手动狗头(因为我就遇见过,还一直傻傻的把要用的文件放在桌面上,因为不会进其他盘O(∩_∩)O…)不说废话了,现在看看怎么让jupyter打开D盘(E、F、G盘)的文件:首先,不出意外的话安通常打开jupyter的方式,...原创 2020-03-14 17:42:47 · 15187 阅读 · 15 评论 -
python中print函数用法总结
输出的 print 函数总结:1. 字符串和数值类型可以直接输出print(1)1print(“Hello World”)Hello World2.变量无论什么类型,数值,布尔,列表,字典…都可以直接输出x = 12print(x)12s = ‘Hello’print...原创 2020-02-25 14:57:43 · 3791 阅读 · 0 评论 -
jupyter 常用快捷键
jupyter 常用快捷键命令模式下的常用快捷键 (Esc进入)·a / b (在活跃单元格(之上/之下)) 插入一个新的单元·dd 删除一个单元格·两遍I : 中断Notebook内核·两遍0 : 重启Notebook内核·H : 显示快捷键帮助·Y : 单元转入代码状态·M :单元转入markdown状态·Ctrl+d 清空单元格·Shift+ ↑↓可以选...原创 2020-02-25 14:44:24 · 3390 阅读 · 0 评论 -
Jupyter安装拓展nbextensions及解决官网下载慢的问题
Anaconda Jupyter安装拓展nbextensions先在终端pip两个包:Pip install jupyter_contrib_nbextensionsPip install jupyter_nbextensions_configurator安装成功后Jupyter contrib nbextensiion install --user使用豆瓣镜像:但是直接这样pip...原创 2020-02-25 14:27:11 · 8236 阅读 · 14 评论