机器学习算法入门及应用实战
自学视频编写的笔记,
1 从三大底层库:numpy, pandas, matplotlib起步。逐步 讲解机器学习分类,聚类算法,回归算法等。
2 从算法原理入手,讲解算法的应用。复现代码及案例实操。学会模型调优,与模型评价。
3 真实工作场景下的网络数据爬虫获取与预处理实操。
太阳不热
此人不懒,其实该写的都写了
展开
-
第十九篇:机器学习基础:梯度下降法简单演示,python代码复现梯度下降原理
1 梯度下降 参数更新原理的简要展示import matplotlib.pyplot as pltimport numpy as np# 假设x_data和y_data都有10笔,分别代表宝可梦进化前后的cp值x_data=[338.,333.,328.,207.,226.,25.,179.,60.,208.,606.]y_data=[640.,633.,619.,393.,428.,27.,193.,66.,226.,1591.]# 这里采用最简单的linear model:y_data=b原创 2020-05-30 21:51:48 · 609 阅读 · 0 评论 -
第十八篇:机器学习基础知识复习总结:机器学习概念与介绍:监督学习、半监督学习、迁移学习、无监督学习、结构化学习、强化学习
Supervised Learning(监督学习)supervised learning 需要大量的training data,这些training data告诉我们说,一个我们要找的function,它的input和output之间有什么样的关系而这种function的output,通常被叫做label(标签),也就是说,我们要使用supervised learning这样一种技术,我们需要告诉机器,function的input和output分别是什么,而这种output通常是通过人工的方式标注出原创 2020-05-30 21:47:42 · 453 阅读 · 0 评论 -
第十三篇:机器学习基础:线性回归算法、正规方程、梯度下降、正则化、岭回归
1 线性回归简介1.1 线性回归应用场景- 房价预测、销售额度预测、贷款额度预测 1.2 什么是线性回归- 线性回归(Linear regression)是利用回归方程(函数)对一个或多个自变量(特征值)和因变量(目标值)之间关系进行建模的一种分析方式。特点:只有一个自变量的情况称为单变量回归,多于一个自变量情况的叫做多元回归#### 通用公式:h(w) = w1x1 + w2x2+ w3x3+ ... +b = wTx + b, 其中:w, x 可以理解为矩阵: w = [b, w原创 2020-05-29 12:35:31 · 489 阅读 · 0 评论 -
第十二篇:机器学习基础:聚类算法 KMeans算法及kmeans原理代码的python实现
1 聚类算法简介聚类算法在现实中的应用- 用户画像,广告推荐,Data Segmentation,搜索引擎的流量推荐,恶意流量识别- 基于位置信息的商业推送,新闻聚类,筛选排序- 图像分割,降维,识别;离群点检测;信用卡异常消费;发掘相同功能的基因片段聚类算法的概念- 聚类算法:一种典型的无监督学习算法,主要用于将相似的样本自动归到一个类别中。- 计算样本和样本之间的相似性:常用的相似度计算方法有欧式距离法。- 聚类算法与分类算法最大的区别:聚类算法是无监督的学习算法,而分类算法属于监督的原创 2020-05-29 11:49:23 · 1162 阅读 · 1 评论 -
第十一篇:机器学习基础:logistic逻辑斯蒂回归算法(输出是0或1的二分类算法!!!)
1 逻辑斯谛回归介绍- 逻辑斯谛回归(Logistic Regression)是机器学习中的一种分类模型,逻辑斯谛回归是一种分类算法,虽然名字中带有回归。由于算法的简单和高效,在实际中应用非常广泛。- 应用场景:两个类别之间的判断。逻辑回归就是解决二分类问题的利器: * 广告点击率、是否为垃圾邮件、是否患病、金融诈骗、虚假账号2 逻辑斯谛回归的原理- 输入:h(w) = w1x1 + w2x2 + w3x3 + ... + b = wTx * 逻辑回归的输入就是一个线性回归的原创 2020-05-29 11:30:09 · 2188 阅读 · 0 评论 -
第十篇:机器学习基础:SVM支持向量机算法模型原理
1. 支持向量机概述1.1 从算法的功能来划分 =================================================================== 有监督学习:线性二分类与多分类(linear support vector classification) :非线性二分类与多分类(support vector classification,SVC) :普通连续型变量的回归(support vector r原创 2020-05-29 10:57:07 · 549 阅读 · 0 评论 -
第九篇:机器学习基础:集成学习算法与SVM支持向量机的代码实操及调参
导入相应的标准库 import pandas as pd from sklearn.model_selection import train_test_split from sklearn.pipeline import Pipeline from sklearn.preprocessing import StandardScaler from sklearn.decomposition import PCA from sklearn.svm import SVC from sklearn.m原创 2020-05-29 10:47:00 · 1333 阅读 · 0 评论 -
第八篇:机器学习基础:集成学习算法:随机森林、Adaboost、 XGBoost
1 集成学习1.1。何为集成方法? 集成学习是一种机器学习范式。在集成学习中,我们会训练多个模型(通常称为「弱学习器」)解决相同的问题,并将它们结合起来以获得更好的结果。 最重要的假设是:当弱模型被正确组合时,我们可以得到更精确和/或更鲁棒的模型。 集成方法的思想是通过将这些弱学习器的偏置和/或方差结合起来,从而创建一个「强学习器」(或「集成模型」),从而获得更好的性能。1.2。组合弱学习器:很重要的一点是:我们对弱学习器的选择应该和我们聚合这些模型的方式相一致。 如果我们选择具有低偏原创 2020-05-29 10:27:41 · 1202 阅读 · 0 评论 -
第七篇:机器学习基础之分类算法:决策树算法、决策树分类原理、熵&信息增益、cart剪枝、特征工程-特征提取(字典特征提取、中文和英文各自的文本特征提取、 Tf-idf文本特征提取)
1 决策树算法简介- 决策树定义:是一种树形结构,本质是一颗由多个判断节点组成的树。- 决策树算法api: * class sklearn.tree.DecisionTreeClassifier(criterion=’gini’, max_depth=None,random_state=None)2 决策树分类原理2.1 熵:- 物理学上,熵 Entropy 是“混乱”程度的量度: 系统越有序,熵值越低;系统越混乱或者分散,熵值越高。- 信息熵(Entropy): * 从信息的原创 2020-05-29 10:16:20 · 440 阅读 · 0 评论 -
第六篇:机器学习基础:机器学习应用的框架梳理:数据集导入与划分、特征工程数据预处理、常见分类算法、Pipeline和GridSearchCV、模型评估测试与模型性能评价、模型保存与加载
1 导入数据与划分数据集1.1。导入数据:使用 pandas.read_csv(‘https://…’, header=‘infer’, index_col=None)1.2。随机抽样:DataFrame.sample(n=None, frac=None, replace=False, weights=None, random_state=None, axis=None)[source] n=3:提取3行数据列表 frac=0.8: 抽取其中80% r原创 2020-05-29 10:01:46 · 993 阅读 · 1 评论 -
第五篇:机器学习基础之分类算法:朴素贝叶斯算法、朴素贝叶斯算法流程、文本分类的例子、朴素贝叶斯算法代码原理实现及测试、朴素贝叶斯算法应用实战
1 概率基础回顾1。概率的定义:一件事情发生的可能性, P(X) 取值范围为[0,1]2。联合概率:包含多个条件,且所有条件同时成立的概率:P(A, B)3。条件概率:就是事件A在另外一个事件B已经发生条件下的发生概率:P(A|B),P(A,C|B)4。相互独立:P(A, B) = P(A)P(B) <=> 事件A与事件B相互独立2 朴素贝叶斯算法2.1。朴素?假设:特征与特征之间是相互独立 !!!2.2。贝叶斯公式:P(C|W) = P(W|C)P© / P(W) 注:W 为原创 2020-05-29 09:40:42 · 911 阅读 · 1 评论 -
第四篇:机器学习基础之分类算法:K近邻knn算法原理、算法步骤、api、相关参数、KNN算法原理代码的实现及测试、实际应用及调参
1 KNN 算法原理1.1。k-近邻(k-Nearest Neighbour,简称KNN),常用于有监督学习。1.2。核心思想:根据你的’邻居’来推断你的类别 * 整个计算过程分为三步: A.计算待分类物体与其他物体之间的距离; B.统计距离最近的 K 个邻居; C.对于 K 个最近的邻居,它们属于哪个分类最多,待分类物体就属于哪一类1.3。定义:如果一个样本 x 在特征空间中的 K 个最相似的(即特征空间中最邻近)的样本大多属于类别A, 则该原创 2020-05-29 09:23:46 · 338 阅读 · 0 评论 -
第三篇:机器学习基础 Matplotlib:中文显示问题处理、常见图形、折线图(单画板单坐标系多图、单画板多坐标系多图)、案例:绘制交通流量折线图
导入模块库import matplotlib.pyplot as pltimport random中文显示问题显示中文字体:matplotlib显示中文 https://www.cnblogs.com/hhh5460/p/4323985.html常见图形及意义1。折线图(plot):显示数据变化趋势,反映事务的变化情况。(变化)2。散点图(scatter):判断变量之间是否存在数量关联趋势,展示离群点。(分布规律)3。柱状图(bar):绘制离散性的数据,可直观看出各个数据的大小,比较数据原创 2020-05-28 23:53:07 · 279 阅读 · 0 评论 -
第二篇:机器学习基础 Pandas:Series 与 DataFrame 与数据常见操作、列操作、统计函数、排序、shift、rolling、groupby、merge、去重、交叉&透视表、缺失值处理
0 本文学习来源:参考文献1: https://www.cnblogs.com/weidu/p/9831807.html1 为什么使用Pandas1. 增强图表可读性2. 便捷的数据处理能力3. 读取文件方便4. 封装了Matplotlib、Numpy的画图和计算2 Pandas数据结构1。Pandas中一共有三种数据结构,分别为:Series、DataFrame和MultiIndex(老版本中叫Panel )。2。其中Series是一维数据结构,DataFrame是二维的表格型数据原创 2020-05-28 23:40:21 · 1419 阅读 · 1 评论 -
第一篇:机器学习基础 Numpy: ndarray、数组的基本操作、生成随机数组、数组的索引与切片、ndarray的运算
1 numpy优势用于快速处理任意维度的数组:numpy使用ndarray对象来处理多维数组numpy支持常见的数据和矩阵操作2 ndarray的属性、ndarray的形状、ndarray的类型import numpy as npimport matplotlib.pyplot as plt# ndarray的属性、ndarray的形状、ndarray的类型def simple_numpy(): score = np.array( [[80, 89, 86, 6原创 2020-05-28 22:42:06 · 794 阅读 · 1 评论