自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 Bagging tree 与 Boosting Tree

Bagging tree 与 Boosting Tree在机器学习中,我们讲了很多不同的算法。那些算法都是单打独斗的英雄。而集成学习就是将这些英雄组成团队。实现“3 个臭皮匠顶个诸葛亮”的效果。本文将介绍集成学习的 2 种主要思路:bagging、boosting。什么是集成学习?集成学习归属于机器学习,他是一种「训练思路」,并不是某种具体的方法或者算法。现实生活中,大家都知道「人多力量大」,「3 个臭皮匠顶个诸葛亮」。而集成学习的核心思路就是「人多力量大」,它并没有创造出新的算法,而是把已有的算

2021-09-12 17:53:29 993 1

原创 算法-决策树(分类算法)

决策树算法(DecisionTree)决策树是机器学习中常用的分类算法决策树顾名思义是一种树形结构,而我们的任务就是想办法构建出这样一颗树用它来进行分类。构建过程:1. 选择一个对象的特征,并根据这一训练集进行分类2.计算某特征分类结果的混乱程度(对于对混乱结果的情况评估,使用了的以下方法)信息熵:信息熵就是用来衡量一个随机变量取值的不确定性的一个指标,信息熵越大则不确定性越大,信息熵越小则不确定性也就越小。信息熵的公式:通常情况下对数以2为底或以e(自然对数)为底,并且我们规定如果p

2020-09-09 16:51:13 678

原创 数据的质量分析-缺失值

数据的质量分析1.缺失值数据的缺失一般是指观测的缺失和观测中变量值的缺失,两者都会造成分析结果的不准确。观测的缺失会导致由样本数据推断出的总体数据的性质和特点出现偏差。如何处理缺失值?1.删除2.插补3.均值填充R的处理:用作分析缺失值的数据集:df <- data.frame(col1 = c(1,3, NA,7,5),col2 = c(“a”, NA,“b”, “a”,“d”),col3 = c(TRUE, FALSE, NA, TRUE,FALSE),col4 = c(2

2020-08-15 04:14:15 1062

原创 Python- for loop 和while

1.让我们谈谈for和while循环之间的区别。尽管for和while循环通常可以互换使用,但是主要的概念差异是for循环执行特定的次数,而while循环执行直到给定条件变为假。经验法则是在无法预测特定的迭代次数时使用while循环。否则,请使用for循环。...

2020-08-10 07:29:20 851

原创 Subquery 进阶

不知道什么时候用Subquery先上题:For each instrument, show its type, maker, the owner’s name, the corresponding orchestra name, and the number of concerts (name this column as concert_number) in which the owner played from 2013 to 2016. Take into consideration only i

2020-08-09 13:57:48 163

原创 SQL-Subquery-萌新指导

如何使用Subquery1. 什么是Subquery在一般的SQL查询中,我们会使用:select ****** from table的格式 用于简单的表格查找然而,当我们需要实现稍微复杂的功能时Subquery就变得非常高效了。比如说在一个表格中,有城市和城市面积。我们需要建立一个表格包含查询与‘巴黎’这个城市面积相同的其他城市这个时候用简单的select … from 语句显然是不可以的那么怎么处理里这样的表格呢?SELECT *FROM cityWHERE area=(SEL

2020-08-07 09:57:13 786

原创 数据分析-如何评估用户增长?

AARRR用户增长模型用于游戏,电商,网络课堂,新媒体等用户增长分析的模型1. A 获取(Acquisition)2. A 激活 (Activation)3. R 留存(Retention)4. R 收入(Revenue)5. 推荐(Referral)获取用户(Acquisition) – 用户如何找到我们 什么是渠道?一是口碑渠道,适合病毒营销; 二是有机渠道,适合搜索引擎优化、内容营销; 三是付费渠道,比如电视广告、赞助。另外,获取用户需要重点关注的指标:渠道曝光量:有多少人看到

2020-08-07 02:12:32 1183 1

原创 数据-关于SQL的那些事-萌新篇

这里写自定义目录标题SQL-萌新上路(如何学习篇)SQL-萌新上路(如何学习篇)曾经看到一个留言‘学习了五年的代码,会写各个版本的hello world’确实挺秃然的什么是SQL 请自行百度聊一聊萌新对学习SQL理解本人坐标波士顿,现就读于波士顿大学Questrom商学院商业分析本科 cs+math 读了三年美国很多cs的本科课程不会涉及到SQL,原因是-教授觉得java,c,r,python你都会了,所以sql必然学得会。所以自学能力真的很重要如何刷题五星推荐数据分析的萌新上手

2020-08-06 12:00:52 166

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除