基础理论
文章平均质量分 88
基础理论与基础知识
对许
这个作者很懒,什么都没留下…
展开
-
Excel下拉菜单制作及选项修改
Excel支持下拉框制作,通过预设选项进行菜单选择,可以避免手动输入错误和重复工作,提升数据输入的准确性和效率。根据第一节的制作原理,我们只需要在原数据源的后面编辑要添加的选项,然后在步骤4中修改数据源区域即可。:在来源输入框中选择作为下拉选项的数据源区域,或手动输入选项(中间使用英文逗号隔开),点击确定。:数据 -> 数据验证(有效性) -> 数据验证(数据有效性)如果要在原来的选项基础上添加一个选项,应该如何操作?:选择设置选项卡,在允许中选择序列或列表。:选中要设置下拉框的单元格(区域)原创 2024-10-02 15:07:20 · 1006 阅读 · 0 评论 -
DevOps简介
1、DevOps的起源2、什么是DevOps3、DevOps的发展现状4、DevOps与虚拟化、容器DevOps,其实就是Development和Operations两个词的组合。维基百科词条定义是这样的:DevOps是一组过程、方法与系统的统称,用于促进开发、技术运营和质量保障(QA)部门之间的沟通、协作与整合这个定义稍微有点抽象,但是并不难理解。反正它不是一个特定软件、工具或平台的名字从目标来看,DevOps就是让开发人员和运维人员更好地沟通合作,通过自动化流程来使得软件整体过程更加快捷和可靠。原创 2023-11-09 11:35:31 · 600 阅读 · 0 评论 -
Excel常用函数
将在Course表A列区域中搜索A2的值,并返回查找到的值所在行的第C列的值,多个使用逗号分隔,忽略空白单元格。将在Course表A到D列区域中根据A列搜索A2的值,并返回查找到的第一个值所在行的第4列的值,使用精确匹配。:计算文本字符串的长度,返回文本字符串中的字符个数(中文汉字按双字节字符2计数)例如,Student表匹配Course表,根据学号在Course表中查找成绩,将判断成绩是否大于等于80,如果大于等于80,则返回及格;:计算文本字符串的长度,返回文本字符串中的字符个数(所有字符都按1计数)原创 2024-09-04 21:12:48 · 379 阅读 · 0 评论 -
Linux软件安装包rpm与tgz格式的区别
RPM(Red Hat Package Manager)即Red Hat包管理器,是由红帽公司最先发布的一种用来打包软件的的文件格式,它是一种特定的用来安装、卸载软件等操作的专门格式,它里面打包的内容是一个可以直接使用的具体软件。就是一个压缩包,类似于Windows上的ZIP、RAR等文件,它是为了便于传输所产生的一种专门用于网络流通的文件格式,这种文件格式与其他两种软件存在本质上的区别,例如,最后总结来说就是,通常,tgz格式的都是源程序,灵活但安装麻烦;:安装简单、速度快,还可以实现包的升级、卸载。原创 2024-06-01 16:56:28 · 939 阅读 · 0 评论 -
文档分词与词汇权重(TF-IDF)
这种处理文本的方式叫做词袋(Bag of Words)模型,该模型会忽略文本中的词汇出现的顺序以及相应的语法,将文档看做是由若干单词组成的,且单词之间相互独立,没有关联。它认为一个词汇出现在文档的数量越少,这个词汇对该文档就越重要,就越能通过这个词汇把该文档和其他文档区分开。某一特定文档内的高频词汇,以及该词汇在整个文档集合中的低频率文档,可以产生出高权重的TF-IDF。通过计算文档中词汇的TF-IDF值,我们就可以提取文档中的特征属性。我们知道,一篇文档是由若干词汇组成的,也就是文档的主要信息是词汇。原创 2024-05-23 15:43:00 · 947 阅读 · 0 评论 -
信息熵、条件熵、信息增益、信息增益比与基尼指数
例如,“太阳从东边升起”,这条信息并没有减少不确定性,因为太阳肯定是从东边升起的,这是一句废话,信息量为0。因为中国队进入世界杯的不确定性因素很大,而这句话消除了进入世界杯的不确定性,所以按照定义,这句话的信息量很大。例如,对于0-1分布的问题,由于其结果只用两种情况:发生与不发生,设某一件事情发生的概率为P(x) ,则该事情不发生的概率为1−P(x) ,则其信息熵为。上式表示Y的条件概率分布的熵对X的期望。信息增益表示信息X使信息Y的不确定性减少的程度,即信息X让信息Y的不确定性降低。原创 2024-04-28 15:37:56 · 782 阅读 · 0 评论 -
条件概率、全概率公式与贝叶斯公式
事件A与事件B互不影响(不相关),事件A与事件B同时发生的概率等于事件A发生的概率乘以事件B发生的概率,即原创 2024-04-24 16:20:43 · 954 阅读 · 0 评论 -
排列与组合
定义:从n个不同元素中,任取m(m≤n,n和m都为自然数)个不重复的元素组成一个子集,而不考虑其元素的顺序,叫做从n个不同元素中取m个元素的一个组合;从n个不同元素中取出m个元素的所有组合的个数,叫做从n个不同元素中取m个元素的组合数,用符号。定义:从n个不同元素中,任取m(m≤n,n和m都为自然数)个不重复的元素按照一定的顺序排成一列,叫做从n个不同元素中取m个元素的一个排列;从n个不同元素中取出m个元素的所有排列的个数,叫做从n个不同元素中取m个元素的排列数,用符号。是将由排列带来的有顺序的组合去重。原创 2024-02-22 11:16:02 · 441 阅读 · 0 评论 -
如何使用逻辑回归处理多标签问题?
OvO(One vs One)方法是指从多个类别中任意抽取出两个类别,然后将对应的样本输入到一个逻辑回归的模型中,学习到一个对这两个类别的分类器,然后重复以上的步骤,直到所有类别两两之间都学习到一个分类器。将新样本分别输入训练好的3个分类器:第一个分类器会认为它是一个十字星,第二个分类器会认为它偏向三角形,第三个分类器会认为它是十字星,经过3个分类器的投票之后,可以预测红色圆圈位置所代表的数据的类别为十字星。现在,我们有一个在红色圆圈位置的数据,如下图,通过上述方法,我们如何预测的这个数据是哪一类?原创 2024-02-22 10:47:57 · 759 阅读 · 0 评论 -
逻辑回归的输出值为什么可以作为概率?
函数是伯努利分布的联结函数的反函数,它将线性函数映射到了伯努利分布的期望上,而伯努利分布的期望本身就是概率,因此,逻辑回归得到的输出可以代表概率,也正是因为它代表概率,才落在。广义线性模型中,每一个分布都对应存在一个正则(规范)联结函数(Canonical Link Function),这一函数的反函数可以将线性函数映射到该分布的期望。每一个特定的广义线性模型对应一个特定的分布,例如我们之前提到的线性回归模型,对应的是正态分布。),该函数将线性函数映射到伯努利分布的期望上,使其输出可以作为概率。原创 2024-02-21 11:32:13 · 1071 阅读 · 0 评论 -
逻辑回归为什么使用交叉熵而不用均方差?
函数)的梯度成正比,当预测值接近于1或0时,梯度会变得非常小,几乎接近于0,这样会导致当真实值与预测值差距很大时,损失函数收敛的很慢,无法进行有效学习,与我们的期望不符合。而信息熵是一个常数,并且在计算的时候,交叉熵相较于KL散度更容易,所以我们直接使用了交叉熵作为损失函数。因此,如果使用均方差损失,训练的时候可能看到的情况是预测值和真实值之间的差距越大,参数调整的越小,训练的越慢。函数的梯度的影响,且真实值与预测值的差越大,损失函数的梯度就越大,更新的速度也就越快,这正是我们想要的。原创 2024-02-20 17:53:11 · 1356 阅读 · 0 评论 -
逻辑回归简介
1、情景描述2、逻辑回归2.1、逻辑回归的概念2.2、逻辑回归的原理及推导2.3、逻辑回归的解3、交叉熵与交叉熵损失函数3.1、交叉熵3.2、交叉熵损失函数。原创 2024-02-04 21:23:07 · 562 阅读 · 0 评论 -
机器学习数学基础
向量可以形象化地表示为带箭头的线段,箭头所指的方向代表向量的方向,线段的长度代表向量的大小。张量是一种泛化的多维数组概念,它可以是任何维度(秩)的,例如向量(矢量)是一阶张量,矩阵是二阶张量,高于二维的称为三阶张量、四阶张量等。总的来说,标量是最简单的数据形式,而向量、矩阵和更高维度的张量则是复杂度逐渐增加的多维数据结构,它们在现代科学和技术的许多领域中都扮演着重要角色。对于行列数相同的两个或多个向量,点积运算就是对这两个或多个向量对应位相乘后求和的操作,点积的结果是一个标量。原创 2024-01-31 17:56:06 · 2886 阅读 · 1 评论 -
最小二乘法简介
勒让德在原文中提到:使误差平方和达到最小,在各方程的误差之间建立了一种平衡,从而防止了某一极端误差取得支配地位,而这有助于揭示系统的更接近真实的状态。可以是所有观测点到直线的距离和最小,也可以是所有观测点到直线预测点(真实值-理论值)的绝对值和最小,还可以是所有观测点到直线预测点(真实值-理论值)的平方和最小。类似的,如果模型有n个参数,我们只需要n组观测值即可求解。因此我们可以这样说,最小二乘法其实就是误差满足正态分布的极大似然估计,最小化平方误差本质上等同于在误差服从高斯分布的假设下的最大似然估计。原创 2023-12-21 16:59:33 · 1424 阅读 · 0 评论 -
线性回归简介
简而言之,线性回归就是在N维空间中找一个类似直线方程`y=kx+b`一样的函数来拟合数据。线性回归模型则是利用线性函数对一个或多个自变量(x)和因变量(y)之间的关系进行拟合的模型。这里有一个问题,线性等于直线吗?原创 2023-12-21 16:58:08 · 736 阅读 · 0 评论 -
如何有效的禁止Google Chrome自动更新?
众所周知,当我们在使用Selenium进行Web自动化操作(如爬虫)时,一般会用到ChromeDriver。然而Driver的更新速度明显跟不上Chrome的自动更新。导致我们在使用Selenium进行一些操作时就很麻烦,每次都要重新下载Driver,费时费力。因此,禁止Chrome自动更新迫在眉睫。右键Update目录,点击属性->安全->修改权限为全拒绝->应用->确定。首先,在任务管理器禁用Google Update相关的服务。原创 2023-11-21 22:55:49 · 3035 阅读 · 2 评论 -
CI/CD简介
1、CI/CD流水线2、什么是CI/CD3、CI/CD的优点4、CI/CD的工作原理5、CI/CD流水线工具6、CI/CD的应用7、CI/CD的未来趋势CI/CD(持续集成/持续交付)是现代软件开发中的关键实践,旨在提高开发流程的效率、减少错误、缩短交付周期,以满足不断增长的市场需求持续集成(CI)是一种软件开发实践,将开发者的代码持续集成到共享代码库中,自动构建和测试,以确保每次代码更改都能正常工作。原创 2023-11-09 14:58:10 · 930 阅读 · 0 评论 -
NAS与SAN简介
3、NAS与SAN区别存储局域网(SAN)和网络附加存储(NAS)是目前两种主流网络存储架构。原创 2023-11-10 15:39:15 · 255 阅读 · 0 评论 -
UML与PlantUML简介
UML(Unified Modeling Language)是一种统一建模语言,为面向对象开发系统的产品进行说明、可视化、和编制文档的一种标准语言,独立于任何具体程序设计语言PlantUML是一款开源的UML图绘制工具,支持通过文本来生成图形,使用起来非常高效。可以支持时序图、类图、对象图、活动图、思维导图等图形的绘制。原创 2023-11-07 17:23:45 · 643 阅读 · 0 评论 -
Git基本原理及常用操作全集(超详细)
1)Git和SVN是我们最常用的版本控制系统(Version Control System, VCS)2)Git三大区域的划分(详见下文Git基本原理)工作区:能够看见的目录暂存区:也叫Index、Stage,通常存放在.git/index文件下版本库:分为本地版本库和远程版本库3)版本库状态几乎所有的版本控制系统都以某种形式支持分支。使用分支意味着可以把我们的工作从开发主线上分离开来,以免影响开发主线分支是一个代码的副本;原创 2023-07-30 16:06:44 · 1300 阅读 · 0 评论 -
Markdown常用语法及注意事项(附快捷键)
Markdown是一门轻量级文本标记语言。Markdown的工作过程是将.md或.markdown文件解析为HTML输出。原创 2023-06-24 19:17:27 · 6028 阅读 · 0 评论