为我喧哗-CSDN博客

原创人工神经网络是什么

经过几十年的发展，到目前为止，人工神经网络的发展进入了深度学习阶段，在这一阶段提出了许多新的神经网络模型，比如循环神经网络、卷积神经网络、生成对抗网络、深度信念网络等等。同时，深度学习又为人工神经网络引入了新的“部件”，比如卷积层、池化层等。如今深度学习已非“人工神经网络”一词所能完全替代，可谓是“青出于蓝，而胜于蓝”，它已发展出一整套复杂的知识体系，哪怕只进行概要性地介绍也都会花费大量的篇幅，因此这里不做重点讨论。

2024-08-08 11:28:15 1498

原创 K-means聚类算法的应用以及实现

聚类算法博大精深，每一种算法都有自己的实现原理，单拿 K-means 算法来说，就有多种基于它的衍生算法，比如二分 K-means 算法、K-means++ 算法、K-measn|| 算法、Canopy 算法，以及 Mini Batch K-means 算法等，这些算法的出现主要是为了弥补 K-means 算法的不足，比如随机选择初始簇质心点，以及 K 值敏感等问题。

2024-08-07 21:53:54 1295

原创 K-means聚类算法原理解析

上述式子中 "∑" 符号称为求和符号，与 sum 函数功能一致，闵氏距离是一组代数形式的公式，通过给 P 设定不同的值，就能用闵氏距离得到不同的距离表达式。通过数学定义，我们将“质心”具象化，既然要使“距离的总和最小”，那么第一步就是确定如何度量距离，K-means 算法通过『欧几里得距离』来衡量质心与样本点之间的距离。K-means 算法是属于无监督学习算法，常用于解决聚类问题，通过给算法模型输入一个包含多种特征信息的样本点，会返回一个相应的类别编号（或称簇别），从而完成样本数据点的类别划分。

2024-08-05 19:11:52 470

原创什么是K-means聚类算法

K-means 聚类算法的聚类过程，可以看成是不断寻找簇的质心的过程，这个过程从随机设定 K 个质心开始，直到找到 K 个真正质心为止。第一步，既然现在有了 K 个质心，对于其他数据点来说，根据其距离哪个质心近就归为哪个簇的办法，可以聚成 K 个簇。但请注意，这只是第一步，并不是最后完成聚类的结果；第二步，对于聚成的 K 个簇，需要重新选取质心。这里运用了多数表决原则，根据一个簇内所有样本点各自的维度值来求均值，得到该簇的新的坐标值；第三步是生成新的质心，其实就是重复上述过程。

2024-08-04 13:04:53 1473

原创 Python Sklearn库SVM算法应用

SVM 是一种有监督学习分类算法，输入值为样本特征值向量和其对应的类别标签，输出具有预测分类功能的模型，当给该模型喂入特征值时，该模型可以它对应的类别标签，从而实现分类。

2024-08-03 17:07:15 1195

原创从数学角度理解SVM分类算法

不过，在间隔最大化的运算中只使用了高维向量内积运算的结果，并没有单独使用高维向量，也就是说，如果能简单地求出高维向量的内积，那么也可以满足求解间隔最大化的条件。注意：对于已知的映射函数 φ，核函数是很容易计算的，但在大多数情况下，我们并不知道映射函数 φ 的具体形式，好在伟大的数学家们已经证明，在无法得出 φ 时，只要数学函数满足几个相应条件，同样可以将其作为核函数，因此不用担心找不到核函数。注意：上述公式中被除数是分子，除数是 L2 范式的简要写法，当 i = 3 时，与上述点到三维平面的距离公式相同。

2024-08-02 12:06:17 1591

原创 SVM解决线性不可分问题

通过这两节的学习，我们认识了 SVM 重要组部分间隔最大化和高维映射（将它与核函数看做一体），下面对已经学习的知识做简单总结：SVM 算法是用来解决线性不可分的“非线性”问题，从而突破线性分类的局限性，使得线性分类器依然可以适用于“非线性”问题。在这个过程中起到关键作用的就是“高维映射”。而“间隔最大化”可以看做支持向量机的损失函数，它衡量分类效果是否最佳的“标尺”，让间隔达到最大就是 SVM 追求的至臻境界，要实现这个目标就要不断地训练模型，使模型的泛化能力最佳。

2024-08-01 10:23:08 1111

原创初识支持向量机SVM分类算法

本节初步认识了“支持向量机（SVM）算法”，了解了组成支持向量机的三个重要部件。通过对支持向量机本质的讲解，我们知道支持向量机是从线性函数的基础上发展而来的，因此我们可以得出，支持向量机（SVM）是一种利用线性函数解决线性不可分（分类）问题的算法。

2024-07-31 11:56:29 351

原创 sklearn决策树分类算法应用

该参数有两个参数值，分别是 gini（基尼指数）和 entropy（信息增益），默认情况下使用“基尼指数”，其中“gini”用于创建 CART 分类决策树，而“entropy”用于创建 ID3 分类决策树。选择“特征维度”作为判别条件时具有随机性，它首先从特征集合中随机抽取 n 个特征维度来构建新的集合，然后再从新的集合中选取“判别条件”。确定纯度指标，用它来衡量不同“特征属性”所得到的纯度，并选取使得纯度取得最大值的“特征属性”作为的“判别条件”。随机过程类似，它主要解决机器学习中的回归问题。

2024-07-30 14:44:02 339

原创决策树算法和剪枝原理

我们知道，决策树算法是一种树形分类结构，要通过这棵树实现样本分类，就要根据 if -else 原理设置判别条件。因此您可以这样理解，决策树是由许多 if -else 分枝组合而成的树形模型。

2024-07-29 15:26:47 672

原创信息熵是什么

信息熵这一概念由于1948 年提出。香农是美国著名的数学家、信息论创始人，他提出的“信息熵”的概念，为信息论和数字通信奠定了基础。在理解“信息熵”这个词语前，我们应该理解什么是“信息”。信息是一个很抽象的概念，比如别人说的一段话就包含某些“信息”，或者我们所看到的一个新闻也包含“信息”，人们常常说信息很多，或者信息较少，但却很难说清楚信息到底有多少。比如一篇 10 万字的论文到底包含多少信息量？信息熵就是用来解决对信息的量化问题的。

2024-07-28 18:28:15 898

原创决策树算法：选择决策条件

首先来看一个“我想你来猜”的游戏，游戏规则很简单：一个人从脑海中构建一个事物，另外几个人最多可以向他提问 20 个问题，游戏规定，问题的答案只能用是或者否来回答。问问题的人通过回答者的“答案”来推分析、逐步缩小待猜测事物的范围，从而来判断他想的是什么。其实这个游戏与决策树工作过程相似。那么你有没有考虑过要怎样选择“问什么问题”呢，在这里“问什么问题”就相当于决策树算法中的“判别条件”。选择什么判别条件，可以让我们又快又准确的实现分类，这是本节介绍的重点知识。

2024-07-27 21:13:49 546

原创决策树分类算法（if-else原理）

决策树算法在“决策”领域有着广泛的应用，比如个人决策、公司管理决策等。其实更准确的来讲，决策树算法算是一类算法，这类算法逻辑模型以“树形结构”呈现，因此它比较容易理解，并不是很复杂，我们可以清楚的掌握分类过程中的每一个细节。

2024-07-26 09:55:20 846

原创 sklearn应用朴素贝叶斯算法

假设一个学校有 45% 的男生和 55% 的女生，学校规定不能穿奇装异服，男生的裤子只能穿长筒裤，而女生可以穿裙子或者长筒裤，已知该学校穿长筒裤的女生和穿裙子的女生数量相等，所有男生都必须穿长筒裤，请问如果你从远处看到一个穿裤子的学生，那么这个学生是女生的概率是多少？看完上述问题，你是不是已经很快的计算出了结果呢？还是丈二和尚，摸不到头脑呢？下面我们一起来分析一下，我们根据贝叶斯公式，列出要用到的事件概率：学校女生的概率：P(女生)= 0.55女生中穿裤子的概率：P(裤子|女)= 0.5。

2024-07-25 09:00:23 1139

原创朴素贝叶斯分类算法原理

们知道解决分类问题时，需要根据他们各自的特征来进行判断，比如区分“一对双胞胎不同之处”，虽然他们看起来相似，但是我们仍然可以根据细微的特征，来区分他们，并准确地叫出他们的名字。就像一句非常有哲理的话，“世界上没有完全相同的两片树叶”，因此被分类的事物会存在许多特征。比如现在有 A1 和 A2 两个类，其中 A1 具有 b、c 两个特征，A2 具有 b、d 两个特征，如果是你会怎么区分这两个类呢？很简单看看是存在 c ，存在的就是 A1，反之则是 A2。

2024-07-23 09:14:50 525

原创通俗地理解贝叶斯公式（定理）

朴素贝叶斯（Naive Bayesian algorithm）是有监督学习的一种分类算法，它基于“贝叶斯定理”实现，该原理的提出人是英国著名数学家。贝叶斯定理是基于概率论和统计学的相关知识实现的，因此在正式学习“朴素贝叶斯算法”前，我们有必要先认识“贝叶斯定理”。

2024-07-22 22:48:59 1851

原创 sklearn实现KNN分类算法

本节可以通过调用 KNeighborsClassifier 实现 KNN 分类算法。下面对 Sklearn 自带的“红酒数据集”进行 KNN 算法分类预测。最终输入数据的预测结果为 1 类别。分类结果：['class_1']

2024-07-21 18:37:29 540

原创 KNN最邻近分类算法

K 最近邻分类算法，简称 KNN（K-Nearest-Neighbor），它是有监督学习分类算法的一种。所谓 K 近邻，就是 K 个最近的邻居。比如对一个样本数据进行分类，我们可以用与它最邻近的 K 个样本来表示它，这与俗语“近朱者赤，近墨者黑”是一个道理。在学习 KNN 算法的过程中，你需要牢记两个关键词，一个是“少数服从多数”，另一个是“距离”，它们是实现 KNN 算法的核心知识。

2024-07-19 11:16:15 787

原创 Logistic回归算法（分类问题）

其实想要理解“分类”问题非常的简单，我们不妨拿最简单的“垃圾分类处理”的过程来认识一下这个词。现在考虑以下场景：小明拎着两个垃圾袋出门倒垃圾，等走到垃圾回收站的时候，小明发现摆放着两个垃圾桶，上面分别贴着“可回收”与“不可回收”。小明经过自己的判断后，把自己右手的垃圾放进了贴有“不可回收”的垃圾桶内，而左手的垃圾袋放进了“可回收”的垃圾桶内，最终完成了这次倒垃圾的过程。其实上述“倒垃圾”的案例就说明了“分类问题”的过程。

2024-07-18 12:10:53 975

原创 sklearn应用线性回归算法

Scikit-learn 简称是基于 Python 语言实现的机器学习算法库，它包含了常用的机器学习算法，比如回归、分类、聚类、支持向量机、随机森林等等。同时，它使用 NumPy 库进行高效的科学计算，比如线性代数、矩阵等等。Scikit-learn 是 GitHub 上最受欢迎的机器学习库之一，其最新版本是 2020 年12 月发布的 scikit-learn 0.24.1。

2024-07-17 10:36:01 1362

原创梯度下降求极值

其实很简单，以你所在的当前位置为基准，寻找该位置最陡峭的地方，然后沿着此方向向下走，并且每走一段距离，都要寻找当前位置“最陡峭的地方”，反复采用上述方法，最终就能以最快的时间抵达山脚下。也叫导函数，或者微商，它是微积分中的重要基础概念，从物理学角度来看，导数是研究物体某一时刻的瞬时速度，比如你开车从家 8:00 出发到公司上班，9:00 到到达公司，这一个小时内的平均车速是 80km/h，而途中。这一时刻的速度，就被称为瞬时速度，此刻的速度可能是 100km/h，也可能是 20km/h。

2024-07-16 20:12:16 896

原创线性回归：损失函数和假设函数

矩阵 A 的每一行分别与矩阵 B 的每一列相乘，比如 1*5+2*5+3*7 =36 、1*2+2*6+3*6=32、1*6+2*7+3*4=32，即可得出结果的第一行数据。在上述函数中 n、Y、X1 都是已知的，因此只需找到一组 w 与 b 使得上述函数取得最小值即可，这就转变成了数学上二次函数。在机器学习中使用损失函数的目的，是为了使用“优化方法”来求得最小的损失值，这样才能使预测值最逼近真实值。的问题，而这个求极值的过程也就我们所说的“优化方法”。表示用来调整预测结果的“偏差度量值”，而。

2024-07-15 22:53:33 483

原创如何构建线性回归模型

上述示例就构建了一个简单的的“线性模型”。对于机器学习而言，最关键的就是“学习”，在大量的数据中，通过不断优化参数，找到一条最佳的拟合“直线”，最终预测出一个理想的结果。机器学习是一门数学、统计学、计算机科学的结合技术，因此它有着独特的知识体系，比如会将数据集分为“训练集”与“测试集”，而且还会通过“损失函数”来不断优化预测结果，关于这些知识会在后需内容详细介绍。在机器学习中斜率 k 通常用 w 表示，也就是权重系数，因此“线性方程”通过控制 w 与 b 来实现“直线”与数据点最大程度的“拟合”。

2024-07-14 20:11:30 524

原创线性回归算法

构建完模型，我们需要对其进行训练，训练的过程就是将表格中的数据以矩阵的形式输入到模型中，模型则通过数学统计方法计算房屋价格与各个特征之间关联关系，也就是“权值参数”。其中 x 表示输入的样本数据，y 表示输出的预测结果，而 w1 指的是线性回归模型的权值参数，b 指的是线性回归模型的“偏差值”。在上述讲解过程中，我们反复提起“预测”与“历史数据”，既然是预测，那么就不能说它是 100 % 精确，所以线性回归只是无限地逼近“真实值”，而这个逼近的过程需要大量“历史数据”提供支持。

2024-07-13 10:01:59 907

原创 Python机器学习环境搭建

言道“工欲善其事，必先利其器”，在学习机器学习算法之前，我们需要做一些准备工作，首先要检查自己的知识体系是否完备，其次是要搭建机器学习的开发环境。本教程以讲解算法为主，不会涉及太复杂的应用案例，在讲解过程中会穿插一些示例代码，这样不仅能够帮助你理解算法原理，同时又能让你体会到算法的应用过程。机器学习的研究方向有很多，比如图像识别、语音识别、自然语言处理、以及深度学习等，因此它是一门较为复杂的技术，有一定的“门槛”要求。如果你对编程知识一无所知，就想熟练应用机器学习，这几乎是天方夜谭。

2024-07-12 21:59:13 1820

原创机器学习常用术语

机器学习是一门专业性很强的技术，它大量地应用了数学、统计学上的知识，因此总会有一些蹩脚的词汇，这些词汇就像“拦路虎”一样阻碍着我们前进，甚至把我们吓跑。因此认识，并理解这些词汇是首当其冲的任务。本节将介绍机器学习中常用的基本概念，为后续的知识学习打下坚实的基础。

2024-07-11 14:38:37 2882

原创什么是人工智能

机器学习是一门涉及了大量逻辑与算法的技术，令很多人望而却步，既想掌握，又害怕自己数学知识“拖后腿”，最终导致前功尽弃。本教程本着“讲一点，透一点”尽量绕开繁琐的数学公式，以简单、通俗易懂的形式讲解“机器学习算法”。对于必须讲解的数学公式，也会竭尽所能“讲透彻，讲细致”，其次也会结合算法的原理与应用场景讲解具体实例，最终打通你的“任督二脉”，助你走进人工智能的世界。在正式讲解机器学习算法之前，我们需要对人工智能做简单的认了解与认识。

2024-07-10 10:02:11 1068

原创数字化转型战略中的IT部门

在诊断和识别这些业务用例的时候，IT的职能需要凸显数字化的技术对业务应用的影响，即IT的职能需要承担的任务是让团队充分考虑数字化环境下着写业务场景会发生哪些变化，如，与人互动的业务场景，需要考虑围绕“人”的数字化因素如营销方面的用户行为数据分析，与机器/物的互动业务场景，需要考虑围绕“物”的数字化因素如IOT技术相关的智能设备等。IT的基础架构的变化，由统一的硬件投入，转变为以云为主的按需服务，这里需要关注的是，先从技术角度构建蓝图的整体规划，而从业务用例的最小可实现单元的需求来逐步扩充云的投入。

2024-07-09 09:49:19 591

原创浅谈银行IT数据系统

从功能架构上可以划分为4个层次，由下到上：基础设施层：支持各系统正常运行和扩展，包括运维、网管、系统可用性监控等渠道接入层：实现客户由多种渠道访问银行业务系统，如CALL CENTER、ATM、手机银行、短信平台、自助银行、外卡收单等交易处理层：处理银行经营活动中各种业务，包括核心系统、国结系统、信贷系统等，这一层的系统往往也被称为生产系统管理信息层：交易处理层之上，对交易处理层产生的各种业务数据、账务数据和管理数据进行统计分析，支持管理决策，包括财务系统、债项评级、绩效考核系统等。

2024-07-08 14:35:42 727

原创数字化转型与数字化创新的区别

数字化转型和创新是两个相关但不同的概念，通常可以互换使用。虽然两者都与适应新技术和改变商业模式有关，但它们的测重点和范围有所不同。数字化转型是指使用数字技术从根本上改变企业运营方式和向客户提供价值的过程。相比之下，创新是指创造新产品、服务或商业模式的过程，以解决现有问题或满足客户需求。虽然数字技术当然可以成为创新过程的一部分，但它们并不是唯一的焦点。创新通常是由打破现有市场或创造新市场的愿望驱动的，并且可能涉及重大风险和不确定性。

2024-07-08 00:13:35 988

原创 Spring Boot、微服务架构和大数据治理三大风云

微服务架构下，数据被分隔到 N 个独立的微服务中，如何应对市场、业务对大量数据的查询、分析就变的非常急迫，利用 Spring Boot 和 MongoDB 可以轻松的解决这个问题，通过技术手段将分裂到 N 个微服务的数据同步到 MongoDB 集群中，在同步的过程中进行数据清洗，来满足公司的各项业务需求。2）离线数据处理对微服务正常业务处理没有影响。随着微服务架构的落地，人们发现微服务架构虽然改进了开发模式，但同时也引入了一些问题，在这所有的问题中，最重要的也是马上要面临的一个问题就是数据的问题。

2024-07-07 09:34:38 965

原创数据治理这么久，怎么还找不到价值？是治理框架有问题？

百度百科是这样定义的：元数据（Metadata），又称中介数据、中继数据，为描述数据的数据，主要是描述数据属性（property）的信息，用来支持如指示存储位置、历史数据、资源查找、文件记录等功能。《DAMA数据管理知识体系指南》是这样定义的：元数据最常见的定义是“关于数据的数据”。这个定义非常简单，但也容易引起误解。可以归类为元数据的信息范围很广，不仅包括技术和业务流程、数据规则和约束，还包括逻辑数据结构与物理数据结构等。

2024-07-06 00:12:52 464

原创五大数据治理误区,直接影响数据治理工作的开展

工具作为数据治理4大核心要素之一，它的作用就是提升数据治理的效率，而且工具往往是与组织、制度、流程相辅相成的，它会将我们的数据治理咨询成果落地到平台中，保障数据治理这项活动的常态化运转，持续提升企业的数据管理能力。数据治理是一个长期的过程，开启之时要稳健，进行之时要全面，后续维护要一以贯之。数据治理需要聚焦数据：数据治理的本质是管理数据，因此需要加强元数据管理和主数据管理，从源头治理数据，补齐数据的相关属性和信息，比如：元数据、质量、安全、业务逻辑、血缘等，通过元数据驱动的方式管理数据生产、加工和使用。

2024-07-05 19:08:50 553