- 博客(19)
- 收藏
- 关注
原创 皮尔森与斯皮尔曼相关系数:原理、步骤与公式解析
本文系统介绍了两种常用相关系数的原理与应用。皮尔森相关系数适用于衡量线性关系,要求数据接近正态分布;斯皮尔曼秩相关系数则适用于单调关系,对数据分布无要求且更抗异常值干扰。文章通过身高体重、复习时间与成绩等生活案例,详细讲解了两者的计算步骤与公式含义,并提供了直观的对比表格。建议数据分析时先绘制散点图观察关系形态,根据数据特征选择合适的相关系数,同时强调相关不等于因果。掌握这两种相关系数能帮助新手更准确分析变量间关系。
2025-12-22 17:36:34
799
原创 马氏距离:超越欧氏距离的智能距离度量
马氏距离是一种考虑数据相关性和尺度差异的距离度量方法,由印度统计学家马哈拉诺比斯于1936年提出。与欧氏距离相比,它能消除不同特征的量纲差异,并通过协方差矩阵的逆矩阵调整特征权重和相关性。马氏距离的计算步骤包括确定均值向量、计算协方差矩阵及其逆矩阵,最终通过矩阵运算得到距离值。该方法特别适用于多维数据分析,在异常检测、分类任务和聚类分析等场景中表现优异。使用时需注意协方差矩阵的可逆性,确保样本数量大于特征数量且特征间不完全共线。随着数据科学的发展,马氏距离在深度学习、金融风控等领域的应用前景广阔。
2025-12-22 17:32:40
931
原创 协方差(covariance)与相关系数(correlation):数据关系的量化语言
协方差和相关系数是衡量变量间线性关系的统计工具。协方差反映变量同向或反向变化的趋势,数值受量纲影响;相关系数通过标准化将结果限定在[-1,1]范围内,更直观可比。通过早餐热量与体重、气温与冰淇淋销量等案例,展示了二者计算过程:协方差计算变量偏离均值的乘积均值,相关系数则用协方差除以变量标准差的乘积。二者在特征选择、降维和异常检测中有广泛应用,但需注意仅反映线性关系、对异常值敏感等局限。实际应用中,相关系数因标准化特性更便于比较不同变量间的关系强度。
2025-12-18 15:18:37
1009
原创 余弦相似度算法:方向决定相似性
余弦相似度是一种衡量向量方向相似性的数学工具,通过计算向量夹角的余弦值来评估相似度,不考虑向量长度。其计算步骤包括向量化表示、点积运算、模长计算和归一化处理。与欧几里得距离和Jaccard相似度不同,余弦相似度专注于方向一致性而非绝对距离或集合交集。该方法广泛应用于文本分析、推荐系统、图像识别和情感分析等领域,特别适合比较不同规模但模式相似的对象。通过具体实例展示了如何计算两个向量的余弦相似度,并解释了结果的实际意义。
2025-12-18 14:57:25
1032
原创 基于价格型相似度算法(绝对差值法、相对比例法、归一化法、多维度加权法、余弦相似度、欧氏距离、皮尔逊相关系数和DTW算法)分析对比
价格型相似度算法是量化价格数据相似程度的计算方法,广泛应用于电商比价、金融投资和推荐系统等领域。其核心算法包括:绝对差值法(简单直观)、相对比例法(消除量级影响)、归一化法(全局公平)、多维度加权法(综合评估)以及时间序列法(趋势分析)。不同算法各有优劣,选择需结合业务场景和数据特性。未来发展方向包括结合深度学习、增强实时监控能力及跨平台数据整合。该算法是重要辅助工具,但需结合专业判断使用。
2025-12-17 09:16:05
888
原创 欧氏距离相似算法:两点之间的直线距离
欧氏距离是一种基于几何直线距离的相似性度量方法,通过计算多维空间中两点间的直线距离来判断相似度,距离越小越相似。其核心公式源自勾股定理,适用于K-NN分类、K-Means聚类、图像识别等场景。优势在于直观易计算,但对量纲敏感且易受异常值影响,需配合数据标准化使用。典型应用包括推荐系统匹配相似用户、GIS计算坐标距离等,是数据科学中基础而重要的距离度量工具。使用时需注意其在高维空间的局限性,并与其他距离度量方法(如曼哈顿距离、余弦相似度)互补使用。
2025-12-17 09:15:49
581
原创 曼哈顿距离相似算法:从城市街道到数据空间
曼哈顿距离(L1距离)是衡量网格空间中两点差异的度量方法,模拟城市街区只能垂直移动的路径长度。其计算为坐标绝对差之和,值通常大于欧氏距离。应用包括城市规划、算法搜索、图像处理等,因其对异常值不敏感且反映实际移动成本而优于欧氏距离。可视化表现为菱形等距线,适用于网格约束场景。
2025-12-16 09:55:10
505
原创 Jaccard算法及其扩展(token、加权)原理详解
Jaccard算法是一种基于集合的相似性度量方法,通过计算交集与并集的比值来衡量对象间的相似度。基础形式适用于二元属性数据,如用户兴趣比较。其扩展形式包括:1)分词扩展,将文本转换为token集合后计算相似度;2)加权扩展,引入权重函数处理非对称数据(如浏览频次)。算法具有计算简单、直观易懂的优点,但也存在忽略词序和语义关系的局限。Jaccard算法广泛应用于文本处理、推荐系统和生物信息学等领域,其变体形式不断丰富以适应复杂场景需求。随着技术进步,未来可能结合词嵌入等技术进一步提升性能。
2025-12-16 09:38:41
1069
原创 Monge-Elkan算法是一种高效的字符串相似度计算方法
摘要:Monge-Elkan算法是一种高效的字符串相似度计算方法,适用于处理包含多个词的复杂字符串(如地址、人名等)。该算法通过分词后逐词比较,结合编辑距离等相似度计算方式,能有效处理拼写错误、词序变化等问题。相比简单编辑距离或余弦相似度,它在保留字符串结构的同时提供更精确的相似性评估。算法实现包括分词、词级相似度计算、最佳匹配查找和相似度平均化等步骤,广泛应用于实体识别、数据清洗等领域。实际应用中需根据语言特点选择合适的分词方式和相似度函数,并通过优化策略提高计算效率。
2025-12-15 14:48:31
751
原创 Soft TF-IDF算法与传统TF-IDF的区别
SoftTF-IDF算法是传统TF-IDF方法的优化版本,通过引入平滑处理和动态阈值策略提升文本相似度计算的准确性和灵活性。该算法采用对数平滑等技巧优化TF和IDF计算,构建文档向量后通过余弦相似度度量文本相似度,并应用动态阈值进行最终判定。相比传统方法,SoftTF-IDF在文本去重、内容相似度检测等场景表现更优,具有计算高效、抗噪声能力强等优势,但仍存在无法处理语义关系、阈值设定主观等局限性。该算法为文本分析提供了一种平衡效率与准确性的解决方案。
2025-12-15 14:05:59
1023
原创 破除机器学习中的过拟合问题
机器学习中的过拟合问题是指模型过度拟合训练数据中的细节和噪声,导致在新数据上表现不佳。这种现象类似于学生死记硬背考试题却不会解决新问题。过拟合通常发生在模型复杂度过高、训练数据不足或训练时间过长的情况下。其数学本质表现为模型方差过高,训练误差低但测试误差高。解决方法包括正则化、数据增强、Dropout机制等。关键是要在模型复杂度与泛化能力之间找到平衡点,避免过拟合和欠拟合两个极端,使模型既能学习数据本质规律,又能适应新情况。
2025-12-13 07:31:11
575
原创 Jaro相似度算法解析:原理、步骤与公式详解
Jaro相似度算法是一种专为短字符串(如人名、地址)设计的相似度评估方法。它通过计算匹配字符数、位置差异和顺序一致性来评估相似度,其核心优势在于同时考虑字符匹配和顺序排列。算法计算过程包括确定匹配窗口、找出匹配字符、计算换位数目等步骤,最终得出0-1之间的相似度评分。Jaro-Winkler是其改进版本,增加了对前缀匹配的敏感性。该算法广泛应用于数据清洗、拼写纠错等领域,但也存在对长字符串敏感度不足等局限。相比Levenshtein等其他算法,Jaro更适用于短字符串的精确匹配。
2025-12-12 10:06:57
633
原创 Jaro-Winkler距离算法详解:从拼写纠错到相似度计算
Jaro-Winkler距离是一种专为短字符串设计的相似度算法,通过字符匹配、顺序分析和前缀加权三个维度评估相似性。相比传统编辑距离,它更注重字符串开头部分的匹配,特别适合处理拼写错误和名称变体。算法核心包括:确定匹配窗口、计算匹配字符、统计换位数,最终通过Jaro相似度公式结合前缀加权得出0-1之间的相似度值。其优势在于对短字符串的高效处理,但存在对长字符串效果有限、参数依赖性强的局限。该算法广泛应用于数据清洗、拼写纠错等场景,实际应用中可通过调整前缀长度和权重因子优化效果。
2025-12-12 10:02:03
1153
原创 Levenshtein距离算法详解:从简单例子到完整知识体系
本文系统介绍了Levenshtein距离算法,这是一种通过计算字符串间最小编辑操作次数来衡量相似度的经典方法。文章从基本概念入手,通过“CAT→BAT”等示例直观展示插入、删除和替换三种操作;详细解析了动态规划实现原理,包括表格初始化、填充规则和Kitten→Sitting的完整计算过程;提供了Python和JavaScript实现代码,并探讨了空间优化、阈值截断等策略。该算法在拼写检查、DNA比对、语音识别等领域有广泛应用。
2025-12-11 16:20:14
829
原创 基于TF-IDF的相似度算法原理:从基础到应用
摘要:TF-IDF相似度算法通过量化词语在文档中的重要性(词频TF和逆文档频率IDF)构建文本向量表示,再通过计算向量间余弦相似度评估文档相似性。该算法简单高效,适用于搜索引擎、内容推荐、抄袭检测等场景,但存在忽略词序和语义等局限性。实现过程包括文本预处理、TF-IDF矩阵构建和余弦相似度计算,可通过Python等工具快速实现。尽管存在更复杂的替代方法,TF-IDF因其透明性和计算效率仍被广泛应用。(149字)
2025-12-11 11:10:21
928
原创 分类与回归树(CART)生成匹配规则原理
摘要:CART(分类与回归树)是一种基于二叉树的机器学习算法,通过递归分割数据自动生成直观的"如果-那么"规则。其核心原理是通过基尼系数(分类)或均方误差(回归)选择最优特征进行二分,最终形成决策树。以银行贷款审批为例,CART能生成诸如"贷款金额>30万且工作年限>5年则通过"的易解释规则。该算法具有灵活性高、解释性强的优点,但也存在易过拟合等问题,广泛应用于金融风控、医疗诊断等领域,并可作为随机森林等集成方法的基础组件。
2025-12-10 15:29:46
1144
原创 基于Q-Grams的文本相似度算法:从日常例子到数学公式
Q-Grams相似度算法是一种基于连续子串匹配的文本相似度计算方法,通过将字符串分解为固定长度的子串集合,利用Jaccard系数计算相似度。该算法计算效率高,对拼写错误和短文本匹配效果显著,适合实时应用。文章详细介绍了Q-Grams的生成过程、相似度计算步骤和数学公式,对比了其他相似度算法,并给出了文本去重、拼写纠错等应用实例。虽然该算法无法捕捉语义信息,但通过调整q值、结合其他算法等方式可进一步优化,是NLP领域基础且实用的文本匹配方法。
2025-12-09 17:21:49
825
原创 基于Jaccard相似度算法原理:从日常例子到数学公式
Jaccard相似度是一种简单有效的集合相似性度量方法,通过计算两个集合的交集与并集比值来评估相似程度。其核心公式为J(A,B)=|A∩B|/|A∪B|,结果在0到1之间,值越大表示相似度越高。该方法广泛应用于推荐系统(用户协同过滤)、文本分析和生物信息学等领域,特别适合处理稀疏数据。虽然计算简单直观,但对集合大小差异敏感且不考虑元素权重。可通过Python或Java等语言轻松实现,是入门级数据分析的有力工具。
2025-12-09 16:25:24
815
原创 基于Canopy聚类的分块方法:从生活化例子到数学公式
Canopy分块方法是一种高效的大数据预聚类技术,通过两个距离阈值(T1>T2)将数据快速划分为可重叠的子集。算法流程包括随机选中心点、计算距离、阈值分类和迭代处理,最终生成多个Canopy。其优势在于无需预设簇数、计算成本低且能作为K-means的预处理步骤,但存在精度较低和阈值选择困难等缺点。典型应用场景包括用户行为分析和文本分类等大数据处理领域,常与K-means结合使用以提高聚类效率。未来可能结合深度学习优化阈值选择并拓展到物联网等新兴领域。
2025-12-08 17:48:34
1194
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅