自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 电信用户流失分析与预测

电信用户流失分析与预测一、项目背景二、分析目的三、数据来源四、提出问题五、分析流程六、理解数据1.特征理解2.导入数据3.数据转化七、用户流失分析1.流失占比分析2.用户属性分析3.用户属性分析4.合同属性分析八、用户流失预测1.数据预处理2.模型预测3.特征的重要性九、分析建议一、项目背景近年来,不论是传统行业还是互联网行业,都面临着用户流失问题。研究表明,企业可以在一周内失去100个用户,而同时又得到另外一个用户,从表明上来看业绩没有受到任何影响,而实际上争取这些新用户所花费的宣传、促销等成本显然要

2020-06-22 10:04:52 8294 3

原创 bagging和随机森林

一、baggingbagging是有放回的采样对于m个训练集,随机抽取m个样本,每次被抽中的的概率为 1/m ,那么没被抽中的概率为 1-1/m,m次都没抽中的概率为 0.368 ,也就是说,有近40%的样本不会抽到没被抽到的样本叫做袋外样本,可以用来测试模型的泛化能力bagging对弱学习器没有要求,但是通常使用的较多的是决策树和神经网络bagging的集合策略,对于分类问题,一般是投票法,即少数服从多数;对于回归问题,一般是简单平均法二、随机森林随机森林的弱学习器是CART决策树随

2020-06-02 21:35:47 627

原创 集成学习原理(简单易懂)

一、概念集成学习主要是指通过训练若干个个体学习器,通过一定的结合策略,形成一个强学习器二、集成学习主要解决两个问题如何得到若干个个体学习器如何选择一种结合策略形成强学习器同质学习器:指所有的学习器都相同,比如所有的学习器都是者决策树异质学习器:指通过使用不同的学习器,比如对训练集使用逻辑回归、决策树等同质学习器包含:bagging和boosting算法三、bagging算法bagging算法是指各学习器之间不存在强依赖关系,可以并行运行。bagging算法是有放回的自助采样法。比如每次从

2020-06-01 21:25:24 1615

原创 转行数据分析

4月21日正式离职,到目前为止已经自学了38天,回想从去年11月份开始想有转行的冲动,中间断断续续学习了几个月,到今年4月份正式向领导提出离职,之后每天早上9点到晚上9点,每天除了学习就是刷知乎,有时候也会焦虑自己会不会转行成功,会不会找的工作不尽人意。。但是其实我从来没有后悔过在这么艰难的时期选择裸辞,在这里我要感谢我爸妈还有我男票,感谢他们一直的支持,才让我一直有动力有决心。现在手上项目完成了1个,还有1个项目正在做,预计后天能完成。最近学了很多东西,然而不知道是不是学的东西太多了的原因,一直没有形

2020-05-30 23:00:04 363 1

原创 kaggle房价预测(TOP10%)

房价预测1.背景2.数据探索1.背景2.数据探索#数据的读取import numpy as npimport pandas as pd#一般来说源数据的index那一栏没什么用,我们可以用来作为我们pandas dataframe的index。这样之后要是检索起来也省事儿。train_df = pd.read_csv('../input/train.csv', index_col=0)test_df = pd.read_csv('../input/test.csv', index_col=0

2020-05-26 15:13:27 2540 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除