机器学习算法入门及应用实战_太阳不热的博客-CSDN博客

机器学习算法入门及应用实战

关注

自学视频编写的笔记， 1 从三大底层库：numpy, pandas, matplotlib起步。逐步讲解机器学习分类，聚类算法，回归算法等。 2 从算法原理入手，讲解算法的应用。复现代码及案例实操。学会模型调优，与模型评价。 3 真实工作场景下的网络数据爬虫获取与预处理实操。

关注数：文章数：15 文章阅读量：13159 文章收藏量：69

作者: 太阳不热

此人不懒，其实该写的都写了

展开

第十九篇：机器学习基础：梯度下降法简单演示，python代码复现梯度下降原理

1 梯度下降参数更新原理的简要展示import matplotlib.pyplot as pltimport numpy as np# 假设x_data和y_data都有10笔，分别代表宝可梦进化前后的cp值x_data=[338.,333.,328.,207.,226.,25.,179.,60.,208.,606.]y_data=[640.,633.,619.,393.,428.,27.,193.,66.,226.,1591.]# 这里采用最简单的linear model：y_data=b

原创 2020-05-30 21:51:48 · 609 阅读 · 0 评论
第十八篇：机器学习基础知识复习总结：机器学习概念与介绍：监督学习、半监督学习、迁移学习、无监督学习、结构化学习、强化学习

Supervised Learning(监督学习)supervised learning 需要大量的training data，这些training data告诉我们说，一个我们要找的function，它的input和output之间有什么样的关系而这种function的output，通常被叫做label(标签)，也就是说，我们要使用supervised learning这样一种技术，我们需要告诉机器，function的input和output分别是什么，而这种output通常是通过人工的方式标注出

原创 2020-05-30 21:47:42 · 453 阅读 · 0 评论
第十三篇：机器学习基础：线性回归算法、正规方程、梯度下降、正则化、岭回归

1 线性回归简介1.1 线性回归应用场景- 房价预测、销售额度预测、贷款额度预测 1.2 什么是线性回归- 线性回归(Linear regression)是利用回归方程(函数)对一个或多个自变量(特征值)和因变量(目标值)之间关系进行建模的一种分析方式。特点：只有一个自变量的情况称为单变量回归，多于一个自变量情况的叫做多元回归#### 通用公式：h(w) = w1x1 + w2x2+ w3x3+ ... +b = wTx + b, 其中：w, x 可以理解为矩阵: w = [b, w

原创 2020-05-29 12:35:31 · 489 阅读 · 0 评论
第十二篇：机器学习基础：聚类算法 KMeans算法及kmeans原理代码的python实现

1 聚类算法简介聚类算法在现实中的应用- 用户画像，广告推荐，Data Segmentation，搜索引擎的流量推荐，恶意流量识别- 基于位置信息的商业推送，新闻聚类，筛选排序- 图像分割，降维，识别；离群点检测；信用卡异常消费；发掘相同功能的基因片段聚类算法的概念- 聚类算法：一种典型的无监督学习算法，主要用于将相似的样本自动归到一个类别中。- 计算样本和样本之间的相似性：常用的相似度计算方法有欧式距离法。- 聚类算法与分类算法最大的区别：聚类算法是无监督的学习算法，而分类算法属于监督的

原创 2020-05-29 11:49:23 · 1162 阅读 · 1 评论
第十一篇：机器学习基础：logistic逻辑斯蒂回归算法（输出是0或1的二分类算法！！！）

1 逻辑斯谛回归介绍- 逻辑斯谛回归（Logistic Regression）是机器学习中的一种分类模型，逻辑斯谛回归是一种分类算法，虽然名字中带有回归。由于算法的简单和高效，在实际中应用非常广泛。- 应用场景：两个类别之间的判断。逻辑回归就是解决二分类问题的利器: * 广告点击率、是否为垃圾邮件、是否患病、金融诈骗、虚假账号2 逻辑斯谛回归的原理- 输入：h(w) = w1x1 + w2x2 + w3x3 + ... + b = wTx * 逻辑回归的输入就是一个线性回归的

原创 2020-05-29 11:30:09 · 2188 阅读 · 0 评论
第十篇：机器学习基础：SVM支持向量机算法模型原理

1. 支持向量机概述1.1 从算法的功能来划分 =================================================================== 有监督学习：线性二分类与多分类（linear support vector classification）：非线性二分类与多分类（support vector classification，SVC）：普通连续型变量的回归（support vector r

原创 2020-05-29 10:57:07 · 549 阅读 · 0 评论
第九篇：机器学习基础：集成学习算法与SVM支持向量机的代码实操及调参

导入相应的标准库 import pandas as pd from sklearn.model_selection import train_test_split from sklearn.pipeline import Pipeline from sklearn.preprocessing import StandardScaler from sklearn.decomposition import PCA from sklearn.svm import SVC from sklearn.m

原创 2020-05-29 10:47:00 · 1333 阅读 · 0 评论
第八篇：机器学习基础：集成学习算法：随机森林、Adaboost、 XGBoost

1 集成学习1.1。何为集成方法？集成学习是一种机器学习范式。在集成学习中，我们会训练多个模型（通常称为「弱学习器」）解决相同的问题，并将它们结合起来以获得更好的结果。最重要的假设是：当弱模型被正确组合时，我们可以得到更精确和/或更鲁棒的模型。集成方法的思想是通过将这些弱学习器的偏置和/或方差结合起来，从而创建一个「强学习器」（或「集成模型」），从而获得更好的性能。1.2。组合弱学习器：很重要的一点是：我们对弱学习器的选择应该和我们聚合这些模型的方式相一致。如果我们选择具有低偏

原创 2020-05-29 10:27:41 · 1202 阅读 · 0 评论
第七篇：机器学习基础之分类算法：决策树算法、决策树分类原理、熵&信息增益、cart剪枝、特征工程-特征提取（字典特征提取、中文和英文各自的文本特征提取、 Tf-idf文本特征提取）

1 决策树算法简介- 决策树定义：是一种树形结构，本质是一颗由多个判断节点组成的树。- 决策树算法api： * class sklearn.tree.DecisionTreeClassifier(criterion=’gini’, max_depth=None,random_state=None)2 决策树分类原理2.1 熵:- 物理学上，熵 Entropy 是“混乱”程度的量度: 系统越有序，熵值越低；系统越混乱或者分散，熵值越高。- 信息熵（Entropy）: * 从信息的

原创 2020-05-29 10:16:20 · 440 阅读 · 0 评论
第六篇：机器学习基础：机器学习应用的框架梳理：数据集导入与划分、特征工程数据预处理、常见分类算法、Pipeline和GridSearchCV、模型评估测试与模型性能评价、模型保存与加载

1 导入数据与划分数据集1.1。导入数据：使用 pandas.read_csv(‘https://…’, header=‘infer’, index_col=None)1.2。随机抽样：DataFrame.sample(n=None, frac=None, replace=False, weights=None, random_state=None, axis=None)[source] n=3：提取3行数据列表 frac=0.8：抽取其中80% r

原创 2020-05-29 10:01:46 · 993 阅读 · 1 评论
第五篇：机器学习基础之分类算法：朴素贝叶斯算法、朴素贝叶斯算法流程、文本分类的例子、朴素贝叶斯算法代码原理实现及测试、朴素贝叶斯算法应用实战

1 概率基础回顾1。概率的定义：一件事情发生的可能性， P(X) 取值范围为[0,1]2。联合概率：包含多个条件，且所有条件同时成立的概率：P(A, B)3。条件概率：就是事件A在另外一个事件B已经发生条件下的发生概率：P(A|B)，P(A,C|B)4。相互独立：P(A, B) = P(A)P(B) <=> 事件A与事件B相互独立2 朴素贝叶斯算法2.1。朴素？假设：特征与特征之间是相互独立！！！2.2。贝叶斯公式：P(C|W) = P(W|C)P© / P(W) 注：W 为

原创 2020-05-29 09:40:42 · 911 阅读 · 1 评论
第四篇：机器学习基础之分类算法：K近邻knn算法原理、算法步骤、api、相关参数、KNN算法原理代码的实现及测试、实际应用及调参

1 KNN 算法原理1.1。k-近邻（k-Nearest Neighbour，简称KNN），常用于有监督学习。1.2。核心思想：根据你的’邻居’来推断你的类别 * 整个计算过程分为三步： A.计算待分类物体与其他物体之间的距离； B.统计距离最近的 K 个邻居； C.对于 K 个最近的邻居，它们属于哪个分类最多，待分类物体就属于哪一类1.3。定义：如果一个样本 x 在特征空间中的 K 个最相似的（即特征空间中最邻近）的样本大多属于类别A, 则该

原创 2020-05-29 09:23:46 · 338 阅读 · 0 评论
第三篇：机器学习基础 Matplotlib：中文显示问题处理、常见图形、折线图（单画板单坐标系多图、单画板多坐标系多图）、案例：绘制交通流量折线图

导入模块库import matplotlib.pyplot as pltimport random中文显示问题显示中文字体：matplotlib显示中文 https://www.cnblogs.com/hhh5460/p/4323985.html常见图形及意义1。折线图(plot)：显示数据变化趋势，反映事务的变化情况。（变化）2。散点图（scatter）：判断变量之间是否存在数量关联趋势，展示离群点。（分布规律）3。柱状图(bar)：绘制离散性的数据，可直观看出各个数据的大小，比较数据

原创 2020-05-28 23:53:07 · 279 阅读 · 0 评论
第二篇：机器学习基础 Pandas：Series 与 DataFrame 与数据常见操作、列操作、统计函数、排序、shift、rolling、groupby、merge、去重、交叉&透视表、缺失值处理

0 本文学习来源：参考文献1: https://www.cnblogs.com/weidu/p/9831807.html1 为什么使用Pandas1. 增强图表可读性2. 便捷的数据处理能力3. 读取文件方便4. 封装了Matplotlib、Numpy的画图和计算2 Pandas数据结构1。Pandas中一共有三种数据结构，分别为：Series、DataFrame和MultiIndex（老版本中叫Panel ）。2。其中Series是一维数据结构，DataFrame是二维的表格型数据

原创 2020-05-28 23:40:21 · 1419 阅读 · 1 评论
第一篇：机器学习基础 Numpy： ndarray、数组的基本操作、生成随机数组、数组的索引与切片、ndarray的运算

1 numpy优势用于快速处理任意维度的数组：numpy使用ndarray对象来处理多维数组numpy支持常见的数据和矩阵操作2 ndarray的属性、ndarray的形状、ndarray的类型import numpy as npimport matplotlib.pyplot as plt# ndarray的属性、ndarray的形状、ndarray的类型def simple_numpy(): score = np.array( [[80, 89, 86, 6

原创 2020-05-28 22:42:06 · 794 阅读 · 1 评论

机器学习算法入门及应用实战

作者: 太阳不热

第十九篇：机器学习基础：梯度下降法简单演示，python代码复现梯度下降原理

第十八篇：机器学习基础知识复习总结：机器学习概念与介绍：监督学习、半监督学习、迁移学习、无监督学习、结构化学习、强化学习

第十三篇：机器学习基础：线性回归算法、正规方程、梯度下降、正则化、岭回归

第十二篇：机器学习基础：聚类算法 KMeans算法及kmeans原理代码的python实现

第十一篇：机器学习基础：logistic逻辑斯蒂回归算法（输出是0或1的二分类算法！！！）

第十篇：机器学习基础：SVM支持向量机算法模型原理

第九篇：机器学习基础：集成学习算法与SVM支持向量机的代码实操及调参

第八篇：机器学习基础：集成学习算法：随机森林、Adaboost、 XGBoost

第七篇：机器学习基础之分类算法：决策树算法、决策树分类原理、熵&信息增益、cart剪枝、特征工程-特征提取（字典特征提取、中文和英文各自的文本特征提取、 Tf-idf文本特征提取）

第六篇：机器学习基础：机器学习应用的框架梳理：数据集导入与划分、特征工程数据预处理、常见分类算法、Pipeline和GridSearchCV、模型评估测试与模型性能评价、模型保存与加载

第五篇：机器学习基础之分类算法：朴素贝叶斯算法、朴素贝叶斯算法流程、文本分类的例子、朴素贝叶斯算法代码原理实现及测试、朴素贝叶斯算法应用实战

第四篇：机器学习基础之分类算法：K近邻knn算法原理、算法步骤、api、相关参数、KNN算法原理代码的实现及测试、实际应用及调参

第三篇：机器学习基础 Matplotlib：中文显示问题处理、常见图形、折线图（单画板单坐标系多图、单画板多坐标系多图）、案例：绘制交通流量折线图

第二篇：机器学习基础 Pandas：Series 与 DataFrame 与数据常见操作、列操作、统计函数、排序、shift、rolling、groupby、merge、去重、交叉&透视表、缺失值处理

第一篇：机器学习基础 Numpy： ndarray、数组的基本操作、生成随机数组、数组的索引与切片、ndarray的运算