自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 快速弄懂机器学习里的集成算法:原理、框架与实战(一)

1.关于集成学习算法集成学习算法,通俗地讲就是:三个臭皮匠,顶个诸葛亮,这在很多地方都有人提过。举个例子,比如你想第一本书,但是你不知道这本书怎么样,值不值得读,那么你可以通过打听,听取周围人的意见,得到对该书的一个基本评价,这是一种评价方式。你还可以通过京东、当当等电商网站上买书的人对该书的相关评论,得到一些意见,还有就是,你也可以通过豆瓣上对该书的评价,来获取相关信息。这都是一些对该书评价...

2018-11-28 16:25:24 651

原创 快速弄懂机器学习里的集成算法:原理、框架与实战(二)

(3)学习法上述两种方法都是对弱学习器的结果做平均或者投票,相对比较简单,但是可能学习误差较大,于是就有了学习法这种方法。对于学习法,代表方法是stacking,当使用堆叠stacking的结合策略时, 我们不是对弱学习器的结果做简单的逻辑处理,而是再加上一层学习器,也就是说,我们将训练集弱学习器的学习结果作为输入,将训练集的输出作为输出,重新训练一个学习器来得到最终结果。如下图,就是一个简单...

2018-11-28 16:24:03 306

原创 Python机器学习随笔之K-Means聚类的实现

1.K-Means聚类原理K-means算法是很典型的基于距离的聚类算法,采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大。其基本思想是:以空间中k个点为中心进行聚类,对最靠近他们的对象归类。通过迭代的方法,逐次更新各聚类中心的值,直至得到最好的聚类结果。各聚类本身尽可能的紧凑,而各聚类之间尽可能的分开。算法大致流程为:(1)随机选取k个点作为种子点(这k个点不一定属于数...

2018-10-29 14:56:20 347

原创 机器学习中的特征选择及其Python举例

1.关于特征选择简单来说,特征选择就是在你使用机器学习算法之前,通过相关处理来选择与你的预测变量或者输出结果,最有用或最相关的那些特征。它是特征工程的一部分,在机器学习中,我们通常会面临非常多的特征变量,几十个甚至上百个。对于这些特征,一方面全部纳入机器学习算法中会导致计算机开销很大,影响训练效率,另一方面,部分特征并不与预测变量有太大相关,纳入算法中反而会降低模型的准确性,特别是在线性回归、逻...

2018-10-29 14:52:01 1317

原创 在Python-dataframe中如何把出生日期转化为年龄?

我们在做数据挖掘项目或大数据竞赛时,如果个体是人的时候,获得的数据中可能有出生日期的Series,举个简单例子,比如这样的一些数:# -*- coding: utf-8 -*-import pandas as pdimport numpy as npfrom pandas import Series, DataFrameimport matplotlib.pyplot as pl...

2018-08-29 10:45:57 14097 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除