
机器学习
文章平均质量分 91
做科研的周师兄
【学术底色】
中国科学院大学硕士在读
专注地理空间数据分析与建模
【技术图谱】
Python/GEE遥感处理 | Matlab算法开发
R地统计分析 | 开源工具链实践
持续更新SCI制图/数据挖掘实战笔记
【资源交互】
私信可获取完整实验代码框架
评论区开放技术问题交流
每周更新科研避坑指南
【成长叙事】
从遥感小白到独立开发项目
记录技术爬坡的真实轨迹
与你分享代码调试的苦与乐
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【机器学习入门】6.3 朴素贝叶斯的应用:从账号检测到文本分类的实战落地
本文介绍了朴素贝叶斯分类器在真实业务场景中的应用。通过社交账号检测和文本分类两个典型案例,详细展示了从特征选择、数据预处理到模型预测的完整流程。重点包括:1)社交账号真实性检测中关键特征(日志率、好友率等)的选取与离散化处理;2)文本分类中的词袋模型应用;3)避免零概率的平滑技巧。文章还总结了朴素贝叶斯"简单高效、小样本友好"的优势,并给出学习建议,建议读者通过实践掌握这一基础算法,为学习更复杂模型打下基础。原创 2025-09-06 12:02:43 · 748 阅读 · 0 评论 -
【机器学习入门】6.2 朴素贝叶斯分类器详解:从理论到西瓜数据集实战
本文介绍了朴素贝叶斯分类器的核心原理与应用。文章首先解释了为什么需要"朴素"假设(特征条件独立),以简化多特征联合概率计算。随后详细拆解了算法的三大步骤:数据准备、训练阶段(计算先验概率和条件概率)和应用阶段(分类预测),并通过西瓜数据集2.0的实战案例演示了具体计算过程。最后总结了该算法的优缺点(简单高效但对特征独立性敏感)和适用场景(文本分类、小样本问题等),指出其作为机器学习入门算法的价值。全文以通俗语言配合实例,帮助读者理解这个基础但实用的分类方法。原创 2025-09-06 11:38:11 · 1056 阅读 · 0 评论 -
【机器学习入门】6.1 贝叶斯决策论:从概率到最优决策
贝叶斯决策论是机器学习中实现最优分类决策的核心方法,其本质是通过概率解决不确定性问题。文章从"抽奖"案例切入,区分了传统频率概率(已知总体算局部)和贝叶斯关注的逆概率(已知局部推总体),指出现实问题90%都是逆概率问题。通过"女神是否喜欢我"的生动例子,详细拆解了贝叶斯定理中先验概率、似然概率、证据因子等概念,并展示了如何用新证据更新初始判断的过程。最后说明贝叶斯决策论在分类任务中的应用逻辑:选择后验概率最大的类别以最小化误判损失。文章强调先验概率需基于数据而非主观猜原创 2025-09-05 16:39:06 · 626 阅读 · 0 评论 -
【机器学习入门】5.5 线性回归模型小结——从基础到扩展,梳理完整知识链
本文系统梳理了线性回归模型的核心原理与应用扩展。首先回顾线性回归的本质——通过最小化平方损失函数求解最优参数,介绍了求导和最小二乘法两种参数求解方法。然后扩展到非线性回归(处理曲线趋势数据)和多元回归(多特征场景),并列举了在经济学、金融、流行病学等领域的实际应用案例。最后总结了从回归概念到模型扩展的完整知识链,强调线性回归作为基础模型的重要性,并为后续学习逻辑回归、神经网络等模型奠定基础。文章旨在帮助读者巩固线性回归知识,理解其扩展价值与实际应用。原创 2025-09-05 13:07:11 · 1059 阅读 · 0 评论 -
【机器学习入门】5.4 线性回归模型的应用——从CO₂浓度预测学透实战全流程
本文以夏威夷莫纳罗亚山CO₂浓度预测为例,详解线性回归的实战应用。通过1970-2018年实测数据,验证了年份与CO₂浓度间的线性关系,建立y=1.75x-3120.44的预测模型,并成功预测2020年(414.56ppm)和2100年(517.56ppm)的CO₂浓度。文章重点阐述了线性回归的适用条件(线性因果关系、连续值预测)、核心参数计算方法和模型验证流程,同时指出其局限性(非线性数据不适用、长期预测风险)。为初学者提供了清晰的线性回归应用框架,强调数据预处理和模型验证的重要性,适合刚入门的数据分析学原创 2025-09-03 23:52:00 · 849 阅读 · 0 评论 -
【机器学习入门】5.4 线性回归模型的应用——从CO₂浓度预测学透实战全流程
本文以夏威夷莫纳罗亚山CO₂浓度预测为例,系统讲解线性回归的实战应用。通过1970-2018年的真实观测数据,从数据梳理、线性验证、参数计算到模型建立,完整演示预测流程。重点解析了如何计算斜率a(1.75ppm/年)和截距b(-3120.44),并预测2020年(411.56ppm)和2100年(552.56ppm)的CO₂浓度。文章强调线性回归适用的两个核心前提:线性因果关系和离群值处理,并总结了通用六步法。案例显示线性回归在连续值预测中的实用价值,同时也指出其不适用于非线性数据和长期外推的局限性。原创 2025-09-03 23:50:49 · 957 阅读 · 0 评论 -
【机器学习入门】5.3 线性回归原理——从模型定义到参数求解,手把手带练
本文系统讲解了线性回归模型的原理与应用,围绕"模型定义-参数学习-损失计算-优化求解"四个核心步骤展开。首先介绍了线性回归的基本形式y=ax+b及其参数含义,通过身高预测案例说明斜率和截距的物理意义。接着详细讲解了如何利用训练数据最小化平方损失函数来求解最优参数,包括损失函数的计算示例和参数求解的数学推导过程。文章通过具体数据逐步演示了参数a和b的计算方法,并验证了最优模型的有效性。最后总结了线性回归的核心四步流程,强调理解参数意义和计算过程的重要性,为后续学习更复杂模型奠定基础。全文注原创 2025-09-02 21:40:48 · 1225 阅读 · 0 评论 -
【机器学习入门】5.2 回归的起源——从身高遗传到线性模型的百年演变
摘要:回归分析源于19世纪高尔顿对身高遗传的研究,他通过收集近千个家庭数据,首次发现"向均值回归"现象——高个子父母的后代身高会向平均值靠拢。这一发现不仅解释了人类身高稳定的原因,还催生了"回归"术语。高尔顿进一步用最小二乘法拟合出首个线性预测公式,奠定了线性回归模型的基础。从最初的身高预测到现代机器学习应用,回归分析的发展历程展示了如何用数据揭示规律、用简单模型解决复杂问题。理解这段历史,能帮助初学者掌握回归分析的本质——通过统计规律实现预测。原创 2025-09-02 21:26:14 · 1143 阅读 · 0 评论 -
【机器学习入门】5.1 线性回归基本形式——从“选西瓜”看懂线性模型的核心逻辑
本文介绍了机器学习中最基础的预测模型——线性回归。文章从房价预测、西瓜好坏判断等生活化案例入手,解析线性回归的核心思想:通过特征的线性组合预测连续结果。重点讲解了模型的权重和偏置参数的实际意义,并以"选西瓜"为例演示了公式应用。文章强调线性回归因其逻辑简单、可解释性强而成为入门首选,同时介绍了其参数学习方法(正规方程和梯度下降)和实际应用场景(房价、成绩、销量预测等)。最后总结线性回归三要素:特征权重、偏置和线性组合,为后续学习复杂模型奠定基础。原创 2025-09-01 22:56:07 · 989 阅读 · 0 评论 -
【机器学习入门】4.4 聚类的应用——从西瓜分类到防控,看无监督学习如何落地
聚类的核心价值在于 “无需标签,从数据中找规律”—— 它不像分类需要 “老师教答案”,而是靠数据自身的相似性自动分组,尤其适合 “不知道结果是什么” 的探索性场景。对于入门学生,建议从 “小场景” 入手实践:比如用自己的消费数据(每月外卖次数、网购金额)做聚类,分 “高频消费、中频消费、低频消费” 三群;或用水果图片的像素特征做聚类,感受高维数据的聚类过程。聚类是无监督学习的 “敲门砖”,学好它,后续学习异常检测、降维等技术会更轻松。如果本文有哪个场景或步骤没看懂,欢迎在评论区留言,我们一起拆解!原创 2025-09-01 22:06:49 · 1159 阅读 · 0 评论 -
【机器学习入门】4.3 K-means算法——从原理到代码,手把手实现聚类
K-means是一种简单高效的无监督聚类算法,通过迭代优化簇心实现数据自动分组。文章通过生活化例子(如分水果)和具体坐标数据演示了算法核心流程:随机选K个初始簇心→计算距离划分簇→重新计算簇心→迭代至稳定。同时指出了K值选择、初始簇心敏感性和数据标准化等注意事项。最后用Python代码实战复现了二维数据的聚类过程,展示了算法在用户分群、商品聚类等场景的应用价值。全文注重实践性,所有计算步骤均可手动验证,适合初学者理解K-means的核心原理和实现方法。原创 2025-08-31 22:16:24 · 899 阅读 · 0 评论 -
【机器学习入门】4.2 相似性度量——聚类的“尺子”,帮你判断“像不像”
摘要: 相似性度量是聚类的核心工具,用于量化数据间的相似程度。文章介绍了4种常用方法: 欧氏距离:计算直线距离,适用于连续数值(如消费金额); 曼哈顿距离:模拟网格路径,适合地图坐标等场景; 余弦相似度:关注向量方向,用于高维数据(如文本聚类); 皮尔逊系数:衡量趋势一致性,适合用户偏好分析。 选择依据:数据类型(连续/高维)和业务需求(距离/趋势)。实操建议先手动计算,再用Python工具实现,结合聚类算法验证效果。相似性度量是机器学习的基础,后续将应用于K-Means等算法中。原创 2025-08-31 22:03:48 · 980 阅读 · 0 评论 -
【机器学习入门】4.1 聚类简介——从“物以类聚”看懂无监督分组的核心逻辑
摘要: 聚类是无监督学习的核心方法,通过"相似性分组"将数据自动归类(如按味道区分糖和盐)。其核心思想是:特征决定分组(选择不同特征,聚类结果不同),相似性是分组的依据(同簇对象特征相似,异簇对象相异)。与分类不同,聚类无需预设标签,而是自主发现数据规律。关键概念包括簇(相似对象集合)、簇中心(代表簇特征的点)、距离(衡量相似性的标准,如欧氏距离)。聚类广泛应用于电商用户分群、图像分割、金融风控等领域,帮助挖掘数据内在结构。学习建议从生活实例入手,逐步理解算法逻辑。(150字)原创 2025-08-30 21:11:36 · 1000 阅读 · 0 评论 -
【机器学习实战】3.3 FP 树算法——从原理到代码,轻松搞定频繁项集挖掘
本文介绍了FP树算法在频繁项集挖掘中的优势与应用。相比传统Apriori算法需要多次扫描数据、生成大量候选项集的缺点,FP树通过两次扫描数据并构建前缀树结构,实现高效挖掘。文章详细解析了FP树的三个核心概念(频繁项集、前缀树、项头表),并逐步演示了构建FP树的过程。通过购物篮数据实例和Python代码实战,展示了如何从FP树中挖掘频繁项集。FP树凭借数据压缩和无候选项集的特点,特别适合处理电商推荐、零售优化等大规模数据场景。最后提供了常见问题解答,帮助读者深入理解算法原理和实际应用。原创 2025-08-30 21:07:56 · 883 阅读 · 0 评论 -
【机器学习入门】3.3 FP树算法——高效挖掘频繁项集的“树状神器”
FP树算法是一种高效的频繁项集挖掘方法,相比传统Apriori算法具有显著优势。文章通过购物篮案例详细解析了FP树的工作原理:首先通过两次扫描数据构建压缩的前缀树(FP树)和项头表,然后通过逆序遍历项头表挖掘频繁项集。FP树仅需扫描两次数据,避免了Apriori算法的多次扫描和候选项集生成问题,大大提高了处理大规模事务数据的效率。该方法适用于电商推荐、零售促销等需要挖掘频繁模式的场景。文章强调通过手动复现案例和工具实践来理解算法核心逻辑,为初学者提供了清晰的学习路径。原创 2025-08-30 20:57:27 · 659 阅读 · 0 评论 -
【机器学习入门】3.2 ALS算法——从评分矩阵到精准推荐的核心技术
本文介绍了ALS算法在推荐系统中的应用。ALS(交替最小二乘法)通过矩阵分解解决用户-物品评分矩阵稀疏性问题,能有效预测未评分项。文章从实际问题出发,用数独游戏类比ALS原理,详细拆解了矩阵分解、损失函数和交替优化过程,并通过电影推荐案例演示了算法实现步骤。ALS具有处理稀疏数据高效、计算成本低、可解释性强等优势,广泛应用于视频平台、电商、社交网络等场景。理解ALS算法是学习推荐系统的重要基础,为后续掌握更复杂算法奠定基础。原创 2025-08-29 19:11:37 · 1101 阅读 · 0 评论 -
【机器学习入门】3.1 关联分析——从“购物篮”到推荐系统的核心逻辑
关联分析是挖掘数据内在联系的技术,常用于购物篮分析,如"啤酒与尿不湿"的经典案例。核心概念包括关联规则(X→Y)、支持度(衡量规则出现频率)和置信度(衡量规则可靠性)。算法方面,FP算法通过构建FP树高效挖掘频繁项集,适用于海量交易数据分析;ALS算法则通过矩阵分解实现协同过滤推荐,解决稀疏矩阵问题。关联分析可应用于基于内容的直接推荐或基于协同的评分预测,是推荐系统的重要技术基础。理解关联分析的核心逻辑链,能帮助在实际场景中合理选择算法,挖掘有价值的数据关联规律。原创 2025-08-29 18:49:38 · 571 阅读 · 0 评论 -
【机器学习入门】2.4 偏差与方差——搞懂这对“冤家”,才会调优模型
本文通过生活化的"打靶"类比,深入浅出地讲解了机器学习中偏差和方差的概念。偏差反映模型未能捕捉数据核心规律的系统性误差(类似打靶偏离靶心),方差则体现模型对数据噪声敏感的随机性误差(类似子弹分散)。文章详细解析了"偏差-方差分解公式",指出泛化误差由偏差平方、方差和噪声组成,并阐述了模型复杂度与两者的反向关系:简单模型偏差大、方差小,复杂模型偏差小、方差大。针对不同情况,提供了调优建议:高偏差需增加模型复杂度或特征,高方差则可通过增加数据、正则化等方法解决。全文强调模原创 2025-08-28 21:42:51 · 842 阅读 · 0 评论 -
【机器学习入门】2.3 比较检验——用统计学告诉你“哪个模型更优”
【摘要】本文针对机器学习模型比较中的关键问题——如何科学判断模型性能差异是否显著,系统介绍了三种统计学检验方法。通过生活化类比(学生考试案例)阐明了直接比较测试误差的不可靠性,提出必须采用统计检验来区分真实差异与随机波动。文章依次讲解了:(1)二项检验(用于验证单个模型是否达标);(2)t检验(评估模型多次测试的稳定性);(3)交叉验证t检验(比较两个模型优劣的核心方法)。特别强调交叉验证t检验必须使用相同训练/测试集的重要前提,并给出三者的适用场景对比表。最后指出统计检验的本质是通过假设检验框架,用数据量原创 2025-08-28 21:32:28 · 920 阅读 · 0 评论 -
【机器学习入门】2.2 评估方法——手把手教你判断模型“真本事”
本文系统介绍了机器学习中评估模型泛化能力的三种核心方法:留出法、交叉验证法和自助法。留出法通过简单划分训练/测试集(通常7:3比例)实现快速验证,但需注意分层抽样和多次划分取平均;交叉验证法(如10折)通过多轮训练测试提高数据利用率,尤其适合中等规模数据集;自助法采用有放回抽样,是小样本场景的首选。文章强调训练/测试集必须互斥,并给出方法选择指南:大样本用留出法,中样本用交叉验证,小样本用自助法。这些评估方法是确保模型实用性的关键环节。原创 2025-08-27 21:17:09 · 765 阅读 · 0 评论 -
【机器学习入门】2.1 经验误差(检验误差)——搞懂这篇,才知道你的模型好不好用
本文系统介绍了机器学习模型评估的核心概念与方法。首先解释了误差、错误率和精度等基础术语,强调泛化误差(模型在新数据上的表现)比训练误差更重要。然后详细讲解了两种评估方法:留出法(简单划分训练/测试集)和交叉验证法(k轮测试取平均),后者更稳定但计算成本更高。文章还介绍了比较模型性能的统计检验方法(二项检验、t检验等),并深入剖析了误差来源——偏差(欠拟合)和方差(过拟合)的权衡关系。最后总结了完整的评估逻辑链,为模型调优提供依据。这些内容是机器学习入门必须掌握的核心知识体系。原创 2025-08-26 12:32:45 · 1047 阅读 · 0 评论 -
【机器学习入门】1.4 吃透这些基本术语,才算真正入门
本文通过"挑西瓜"的生活案例,形象解释了机器学习的基本术语。样本对应单个西瓜,特征如色泽、根蒂等是观察维度,特征值是其具体表现,标签是西瓜的好坏判断。数据集是样本集合,特征向量是样本的数学表达,特征空间是所有可能的样本组合。文章强调数据集需划分为训练集、验证集和测试集,以评估模型的泛化能力。最后整理了术语对照表,并解答了常见问题。这些基础概念是理解机器学习的关键,建议读者重点掌握。原创 2025-08-26 00:18:28 · 456 阅读 · 0 评论 -
【机器学习入门】1.2 初识机器学习:从数据到智能的认知之旅
摘要: 机器学习(ML)是一种让计算机从数据中自主归纳规律并解决实际问题的技术,其核心是通过数据训练模型,而非依赖预设规则。与人类学习类似,ML分为监督学习(带标签数据)、无监督学习(无标签数据)、半监督学习和强化学习(试错优化)四大范式。典型应用涵盖垃圾邮件过滤、商品推荐、医疗诊断等领域。完整ML项目流程包括问题定义、数据预处理、模型训练与评估等步骤,需避免过拟合并注重数据质量。初学者建议从基础算法(如决策树、线性回归)入手,结合实践项目理解原理,而非过度追求数学理论或直接学习深度学习。ML正推动金融、医原创 2025-08-25 21:50:40 · 607 阅读 · 0 评论 -
【机器学习入门】1.1 绪论:从数据到智能的认知革命
机器学习是人工智能的核心技术,通过从数据中学习规律完成特定任务。其发展经历了推理期、知识期、统计学习时代到如今的深度学习革命。机器学习任务主要分为监督学习、无监督学习和强化学习,评估指标因任务类型而异。作为交叉学科,机器学习与统计学、计算机科学等密切相关。应用场景涵盖计算机视觉、自然语言处理、金融和医疗等领域。初学者应避免追求完美数学基础或直接学习深度学习等误区,建议从Python编程和经典算法入手,通过实践项目逐步提升。未来机器学习将面临可解释性、公平性等挑战,需要技术创新和跨学科合作共同解决。原创 2025-08-25 21:36:26 · 791 阅读 · 0 评论