机器学习
文章平均质量分 77
机器学习(Machine Learning)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心,是使计算机具有智能的根本
xvwen
尽量早睡、锻炼做一个不秃头程序员,励志做一个优秀的程序员!
展开
-
众多国产大模型百花齐放究竟谁能夺得最后的桂冠?
2023年是LLM年,GEN0-AL年,随着openal掀起NLP的浪潮,国内ai如雨后春笋般出现,选用一款优秀的大模型更更好的帮助使用者工作和生活。原创 2024-01-09 16:50:13 · 1387 阅读 · 0 评论 -
初识网络爬虫
网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。原创 2023-01-25 16:09:36 · 1885 阅读 · 0 评论 -
Jupyter的安装与默认目录的切换
Jupyter Notebook是基于网页的用于交互计算的应用程序。其可被应用于全过程计 …简而言之,Jupyter Notebook是以网页的形式打开,可以在网页页面中 直接编写代码 和 运行代码 ,代码的 运行结果 也会直接在代码块下显示的程序。原创 2023-01-25 14:55:39 · 1969 阅读 · 0 评论 -
线性回归与逻辑回归算法
线性回归线性回归原理线性回归算法是一种预测连续变量模型的方法。他额基本思想是通过已知样本点的因变量和自变量的关系。设定一个数学模型,来拟合这些样本。也就是说线性回归通过样本寻找模型的过程。简单来说,假设现在有一些数据点,我们用一条直线对这些点进行拟合(该线称为最佳拟合直线),这个拟合过程就称作回归。数学表示为: 自变量=x 因变量=y 线性回归模型:y=αx+β构建回归模型是要用到的数学公式:最小二乘法:(x0,y0是自变量,因变量的平均值)b=y0−b∗x0b原创 2021-12-02 16:39:24 · 1599 阅读 · 0 评论 -
朴素贝叶斯算法
朴素贝叶斯决策贝叶斯决策论是概率框架下的分类方法,相关概率已知的情况下,贝叶斯决策论考虑如何经济与这些概率和误判损失来选择最有标记。贝叶斯的主要知识是概率论,包括先验概率,条件概率,全概率(联合概率),后验概率,贝叶斯公式等;如对对上的一个行人的职业判断,行人有背包,发型,衣着,面容等四个特征,判断职业有学生,职场员工。用贝叶斯策略若在四个特征下是学生的概率大于是职场员工概率就是学生否则相反。核心就是计算后验概率。条件概率:在某个限定条件下事件发生的概率。p(B∣A)=p(AB)p(A)p(B|A原创 2021-11-29 13:50:14 · 784 阅读 · 0 评论 -
决策树C4.5算法
决策树-C4.5前面的ID3算法已经介绍了决策树的基本概念。C4.5算法在ID3算法上做了提升,使用信息增益比来构造决策树,且有剪枝功能防止过拟合,本模块将以C4.5算法介绍决策树的构造策略。欠拟合:训练得到的模型在训练集集测试中表现就很差,准确度很低。过拟合:训练得到的模型在训练集表现很好,但在测试集表现很差。信息增益比:特征A对训练集D的信息增益比定义为特征A的信息增益与训练集D对于A的信息熵之比。信息增益比Gain(D,A)=info(D,A)H(D,A)信息增益比Gain(D,A) =\原创 2021-11-29 11:33:57 · 5901 阅读 · 2 评论 -
K-邻近算法
K-邻近算法K-邻近算法概述K-邻近算法是几种基本的分类与回归算法,其输入位实例的特征向量,对应于特征空间的点,输出为实例的类别。算法的三要素为:K值的选择,距离的度量及分类决策。k-近邻算法(KNN),它的工作原理是:存在一个样本数据集合,也称作训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数据与所属分类的对应关系。输入没有标签的新数据后,将新数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本集中特征最相似数据(最近邻)的k个分类标签在这k个标签中出现次数最多的原创 2021-11-28 19:40:17 · 1097 阅读 · 0 评论 -
机器学习概念
机器学习概论1. 什么是机器学习?机器学习是计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,以达到不需要外部明显的指示,而可以自己通过数据(数据驱动)来学习、建模,并且利用建好的模型和新的输入来进行预测的学科。程序设计与机器学习2. 机器学习分类机器学习可分为有监督学习,无监督学习和半监督学习。有监督学习是有训练集和测试集的,通过训练集拟合函数即分类器,用测试集来测试数据;无监督学习是只有数据集,通过数据集的特点将特征相似的聚类;半监督原创 2021-11-28 19:06:28 · 487 阅读 · 0 评论 -
决策树-ID3
决策树基本概念决策树是一个树状结构,它包含一个根节点,若干内部节点和若干叶子节点。根节点包含样本全集,叶子节点对应决策结果,内部节点对应一个特征和属性或属性测试。从根节点到每个叶子节点的路径对应了一个判定测试序列,决策树学习的目的是为了产生一颗泛化能力强,即处理未见示例能力强的决策树,器基本流程遵循简单而直观的分而治之策略,决策树的生成是一个递归过程。构造决策树的核心问题在于每一步如何选择适当的特征对样本做拆分,其主要算法有CART, ID3, C4.5 ; CART使用Gini指数作为选择特征原创 2021-10-07 21:33:15 · 1676 阅读 · 1 评论 -
监督学习、无监督学习与半监督学习
机械学习中有三种常用的学习方法,就是标题的三种方法:1、监督学习;用已值的特征样本作为训练集,建立模型,通过分类方法预测测试集的类别。2、无监督学习;对未知特征样本作为训练集,通过对训练集的比较与总结,构建训练集的架构,而是训练集得到总结。3、半监督学习;在分类任务中既有具有特征的数据,又有未知特征的数据。用少部分的已知特征的数据作为训练集,构造分类器(相当与数学中的函数f)来对多数未知分类。...原创 2021-09-06 21:41:44 · 266 阅读 · 1 评论 -
KNN算法
KNN算法简述1、算法概述KNN算法的核心思想是一个样本空间中k个最相邻的样本中最多的类别是待测数据的类别,并有同样的特征。2、算法介绍当待测数据与数据集有相同的属性时,可以用knn算法判断是否为同一类别,具体计算,待测样本到数据集中每个样本的距离。有k决定范围,考虑k个距离样本距离最近的数据,其中多数属于某个类别则样本属于属于该类别。如上面图所示,当k=5时,绿色属于红三角类别,当k=7属于蓝方形类别,说明k值很大程度上决定样本类别。3、工作原理1.计算待分类数据与其他物体的距离。2.统原创 2021-09-05 21:23:10 · 2105 阅读 · 0 评论