飞扬君-CSDN博客

原创【机器学习】交叉验证+网格搜索(逻辑回归对鸢尾花进行分类)

本文主要是整理sklean中用于【交叉验证】和【网格搜索】的方法，以逻辑回归对鸢尾花的分类为例

2020-03-21 18:13:00 2340

原创 fit, transform, fit_transfrom区别详解

fit()：适配拟合的过程，根据目的(如降维、归一化)找到数据集的最大值、平均值、标准差等固有属性transform()：数据转化的过程，根据fit()之后得到的固有属性完成对数据的转换fit_transform()：将fit与transform相结合，是拟合加转换的过程注意：1、transform不能单独使用，必须跟在fit或者fit-transform之后2、但分别对训练数据集和测试...

2020-03-21 11:27:38 518

原创【Mysql】留存率指标计算

留存率指标定义第n日留存率 = (第一日新增的，且第n日仍在使用的用户数) / 第一日新增用户数留存率数据表名： mm字段名：login_day 登录日期userid 用户userid对于每一个用户而言是唯一的Mysql实现计算单日留存率(次日，3日，7日)select aday, count(buser)/count(auser) as '次日留存'， count(cuse...

2020-03-20 16:16:17 1877 3

原创【业务模型】深入理解AARRR模型(内附关键指标详解思维导图)

一、AARRR模型简介AARRR模型又称海盗模型，指的是一款产品在运营阶段的各个生命周期，主要有五个阶段：拉新、激活、留存、付费、传播,可以指导产品运营和用户增长。在每个阶段，产品的运营重心和关注的指标都是不一样的，需要根据产品现状判断所处的运营周期。比如产品刚诞生之初，最重要的获取用户，有了一定的市场规模和体量之后将重心放在用户激活和留存阶段。但其实在实际业务当中，这几阶段往往是同步进行的。...

2020-03-19 14:48:42 5959

原创深入解读AB测试(含统计学原理)

什么是ABtestAbtest，又称分组隔离实验，是用于衡量网页设计、产品界面不同方案的效果的科学实验方法。具体过程就是，为同一个产品目标制定两个方案(如一个界面按钮为蓝色，一个为红色)，然后分别为两个方案分配用户流量，同时上线，根据用户的的使用行为效果衡量哪一个方案对于产品目标是有利的，之后就可以将这个方案投入使用。原则方案设计：影响用户行为的因素很多，在不同的方案设计中尽可能一次只有...

2020-03-19 14:06:53 10539 1

原创分类模型与回归模型的评价指标

分类模型评价指标这里主要针对的二分类场景的评价指标混淆矩阵首先需要了解几个概念：真正TP：预测为正的正样本(预测正确)假正FP：预测为正的负样本真负TN：预测为负的负样本(预测正确)假负FN：预测为负的正样本准确率预测正确的样本量/总的样本量 = (TN+FN)/(TN+TP+FN+FP)精确率也叫查准率，针对的是预测为正的样本精确率 = 真正/预测为正 = 真正 / (...

2020-03-18 11:39:42 2441

原创机器学习之逻辑回归

这本来是一篇超级细致的长文！结果文章快收尾的时候插入一张图片导致网页卡死，就试了刷新了一次(我记得我中途点过保存)，结果全都没了，我两个多小时的心血。。。。。。。想摔电脑。。。。。好，平复一下心情，打算在写一遍，仅简单陈列一下思路。。。。就不细写了逻辑回归简介基于伯努利假设假设函数为sigmoid函数通过极大似然方法构建损失函数使用梯度下降算法进行参数的求解【每一项就暂...

2020-03-15 18:11:14 689

原创机器学习之K-means算法

K-means算法简介K聚类属于非监督学习的一种，主要实现分类功能。算法需要根据数据内部结构将所有样本数据划分成k个类簇，保证同一个类簇内相似度高，不同类簇内相似度低(距离为衡量指标)算法过程1、根据经验选择K值，初始化k个类簇中心点2、为所有样本根据最短距离原则匹配一个类簇中心点3、为一个类簇重新划分类簇中心点，使类簇内所有样本距离此点的距离和最小4、重复进行2、3步，直到达到迭代停...

2020-03-14 17:28:33 1355

原创图表可视化

2020-03-14 11:57:24 112

原创 SQL之四种语言：DDL,DML,DCL,TCL

1、数据定义语言DDL（定义数据库对象:数据库、表、列、索引）操作数据库create database 库名drop databese 库名Use 库名: 切换正在操作的数据库Select database(): 查看正在使用的数据库名Show databasesShow create database 库名：产看数据库的的定义信息数据库不能改名：建一...

2020-03-13 15:37:07 211

原创 SQL常用函数汇总

一、数学函数abs(x) 返回x的绝对值bin(x) 返回x的二进制（oct返回八进制，hex返回十六进制）ceiling(x) 返回大于x的最小整数值exp(x) 返回值e（自然对数的底）的x次方floor(x) 返回小于x的最大整数值greatest(x1,x2,...,xn)返回集合中最大的值least(x1,x2,...,xn) 返回集合中最小的...

2020-03-12 16:45:16 629

原创基于python的RFM模型和K-Means算法的用户特征分析

import pandas as pd;import numpy as np;import datetime as dt;# for visualization %pylab%matplotlib inlineimport matplotlib.pyplot as pltimport seaborn as sns # for machine learning algorithm...

2020-02-23 15:40:03 7864 5

转载【Pandas】Dataframe基本操作

转载：https://blog.csdn.net/yizhuanlu9607/article/details/91857490简介pandas作者Wes McKinney 在【PYTHON FOR DATA ANALYSIS】中对pandas的方方面面都有了一个权威简明的入门级的介绍，但在实际使用过程中，我发现书中的内容还只是冰山一角。谈到pandas数据的行更新、表合并等操作，一般用到的方法...

2020-02-18 22:39:23 732

原创 mysql快速导入亿级数据----load data

mysql快速导入亿级数据 --- load dataload data方法实战：导入一亿数据对比load data方法注意 csv文件路径问题如果出现如上错误，需要将csv文件放到上述路径下面实战：导入一亿数据对比如果使用navicat软件的导入功能，则需要六倍的时间...

2019-11-12 09:12:01 1487

原创 Mysql安装与配置

参考https://blog.csdn.net/weixin_40396510/article/details/79277731下载https://dev.mysql.com/downloads/mysql/配置解压文件；打开根目录下的my.ini 文件，内容改写为：（直接复制粘贴即可）注意：将basedir与datadir路径改为mysql的解压路径cmd命令行下的操作CMD命令...

2019-01-08 17:14:00 87

转载如何转载CSDN博客

前言对于喜欢逛CSDN的人来说，看别人的博客确实能够对自己有不小的提高，有时候看到特别好的博客想转载下载，但是不能一个字一个字的敲了，这时候我们就想快速转载别人的博客，把别人的博客移到自己的空间里面，当然有人会说我们可以收藏博客啊，就不需要转载，(⊙o⊙)… 也对。。实现因为我自己当初想转载的时候却不知道该怎么转载，所以学会了之后就把方法写出来，帮...

2018-11-26 15:44:52 85

weixin_43805050的博客