- 博客(132)
- 收藏
- 关注
原创 推荐算法培训课件:评分预测的矩阵分解算法
一句话:利用“人群的智慧”来做推荐。如果你和我喜欢过相似的东西,那么你喜欢的东西我也可能喜欢。943个用户,1682部电影,100000条评分(1-5分),稀疏度约93.7%。常用作推荐算法基准测试。从协同过滤到矩阵分解:解决了稀疏性、可扩展性问题,是推荐系统史上的里程碑。核心思想:将高维评分矩阵分解为低维用户矩阵和物品矩阵,用内积预测评分。学习过程:SGD最小化预测误差 + 正则化,可解释为隐因子向量的逐步调整。实践要点:注意偏置项、冷启动处理、超参数调优。进阶方向。
2026-04-04 17:00:00
99
原创 推荐系统实战:通俗易懂的Apriori关联规则算法
本文介绍了Apriori关联规则算法在推荐系统中的应用。首先通过超市购物案例指出协同过滤算法的局限性,引出Apriori算法能发现跨类别商品间的隐藏关联。文章详细讲解了支持度、置信度和提升度三个核心指标的计算方法,以及Apriori算法的剪枝原理。通过一个完整的购物篮数据实例,演示了如何手动计算频繁项集和生成关联规则,最终发现"购买牛奶和面包的顾客有66.6%概率会购买尿布"这一强关联规则。最后提到可用Python的mlxtend库实现该算法验证结果。全文通俗易懂,适合数据分析师和算法工
2026-04-03 15:54:29
290
原创 使用python给pdf文档自动添加目录书签
本文介绍了一种为无目录PDF电子书自动添加书签的方法。首先通过图片识别技术提取目录结构,生成包含章节标题和页码的JSON数据;然后使用Python脚本解析JSON数据,利用PyMuPDF库将目录信息写入PDF文件。该方法支持多级目录结构,能自动处理页码偏移和边界检查,最终生成带完整书签的PDF文件。整个过程实现了从目录图片识别到PDF书签添加的自动化处理,解决了无目录PDF阅读不便的问题。
2026-04-03 10:37:12
42
原创 培训课件:基于关联规则的协同过滤推荐算法
关联规则挖掘,最著名的场景就是“啤酒与尿布”。定义:描述在同一个事务(Transaction,如一次购物车)中,物品之间同时出现的规律和模式。形式化表达X→YX→YXXX称为前项 (Antecedent / Left-hand side)。YYY称为后项 (Consequent / Right-hand side)。解读:如果一个用户购买了XXX,那么他有很大概率也会购买YYY。核心思想回顾:今天我们从“协同过滤”无法挖掘组合模式的痛点出发,学习了基于关联规则的推荐。技术要点。
2026-03-29 09:30:00
347
原创 推荐算法中基于二部图的协同过滤培训课件
节点:左边是用户,右边是物品。边:用户对物品有正向行为(购买、点击、评分等)。用户U1 —— 物品A用户U1 —— 物品B用户U2 —— 物品B用户U2 —— 物品C用户U3 —— 物品C用户U3 —— 物品D这个图就是二部图。二部图是连接用户和物品的自然桥梁,利用图传播可以挖掘协同过滤的核心思想。四种算法各有侧重:激活扩散简单直观,物质扩散平衡精准,热传导擅长长尾,PersonalRank理论严谨。选择算法。
2026-03-28 16:00:00
875
原创 培训课件:推荐系统中的 Slope One 协同过滤算法
Slope One 是推荐算法中“极简主义”的代表。它没有复杂的矩阵分解,没有多层的神经网络,仅仅依靠简单的加减乘除和平均,实现了高效的推荐。它舍弃了传统协同过滤中的“相似度”计算,换来了无参数、易解释、易更新的优势。虽然在极致精度上可能不如 SVD 或深度学习模型,但在特定场景(如快速上线、实时更新)下,它是一个非常有力的工具。理解 Slope One 不仅仅是学会了一个算法,更是理解了在推荐系统中,简单并不代表无效,复杂的模型往往需要匹配复杂的业务场景。
2026-03-27 19:00:00
333
原创 推荐算法核心课:基于距离的相似度度量
本文介绍了推荐系统中基于距离的相似度度量方法。首先回顾了余弦相似度的局限,指出其无法反映用户消费能力等量级差异。然后重点讲解了欧几里得距离的计算公式和原理,通过图书推荐案例进行手动演算和Python代码验证。最后对比了余弦相似度与欧氏距离的特点,分析了各自适用场景,并列举了LBS推荐等实际应用案例。文章强调在包含明显数值差异的场景中,基于距离的相似度度量更具优势,但需注意数据归一化处理。
2026-03-27 15:00:00
371
原创 培训课件:推荐算法之基于项目的协同过滤 (Item-Based CF)
本文介绍了基于项目的协同过滤(Item-Based CF)算法,重点讲解了其核心思想、计算公式和实际应用。首先通过与基于用户的协同过滤(User-Based CF)对比,指出Item-Based CF在计算效率和实时性上的优势。随后详细解析了物品相似度计算(余弦相似度)和评分预测的数学公式,并通过电影推荐案例进行手算演示,验证算法逻辑。最后提供Python代码实现,帮助读者理解算法在实际系统中的运用。该算法通过"物以类聚"的思想,有效解决了大规模推荐系统的计算瓶颈问题。
2026-03-27 12:00:00
318
原创 对数函数与算法应用
对数把“乘除”变成“加减”,把“幂”变成“乘”,把大范围的数值压缩到可学习范围,是推荐系统中处理概率、长尾分布和数值稳定性的核心工具。如果你在某个具体算法(比如逻辑回归、Wide & Deep、双塔召回)中看到 (\log) 不知道为何出现,可以随时把那段公式发给我,我帮你解释它在其中扮演的角色。数学是工具,用多了自然就熟悉了。
2026-03-26 10:00:00
279
原创 推荐算法面试题:皮尔逊系数的值很高(如 0.9),是否一定代表用户很相似?
情况数据皮尔逊系数分析1A: [1,2,3]B: [2,4,6]1.0完全正相关,倍数关系,喜好顺序完全一致2A: [1,2,3]B: [2,3,4]1.0完全正相关,常数偏移,喜好顺序完全一致3B: [2,3,4]≈1.0几乎完全正相关,但数值量级差异巨大,皮尔逊仅捕捉到顺序趋势,忽略了差异程度面试题答案的补充说明皮尔逊系数高(如 0.9)并不一定代表两个用户“相似”,因为它只考虑了线性关系的强弱,而没有考虑评分的绝对差异。
2026-03-25 12:00:00
346
原创 推荐系统相似度权重偏差培训课件
问题根源:传统的协同过滤相似度计算中,热门物品因为覆盖人群广,容易成为“社交货币”,导致计算出的相似度偏离了真正的兴趣相似度。核心解法:借鉴TF-IDF的思想,引入权重,即 ( w_i = \log(\frac{N}{n_i}) )。让冷门物品在相似度计算中拥有更高的话语权。实际效果:通过手动演算和Python代码验证,我们可以看到,同样的共同行为数量,由于物品权重的差异,相似度结果得到了合理的区分。生产落地。
2026-03-24 15:30:00
710
原创 推荐算法核心:皮尔逊相关系数培训课件
皮尔逊相关系数(Pearson Correlation Coefficient)衡量的是两个变量之间的线性相关程度。在推荐系统中,它衡量的是两个用户评分步调的一致性。核心思想:通过减去用户的平均分,将每个人的评分“归零”(中心化),然后再计算相似度。核心记忆:皮尔逊相关系数 =去掉平均值后的余弦相似度。适用场景:凡是涉及“用户主观评分”的推荐系统,皮尔逊通常是比余弦相似度更优的选择,因为它能剔除个人打分风格(严格派 vs 宽松派)的影响。工程实践在计算时,务必处理分母为 0 的异常(如所有评分相同)
2026-03-24 10:00:00
355
原创 协同过滤之余弦相似度培训课件
协同过滤是推荐系统中最经典的方法之一,核心是利用用户(或物品)之间的相似性进行推荐。余弦相似度通过计算向量夹角来衡量相似性,具有消除量纲影响、适合稀疏数据的优点。我们通过手动演算和代码验证,完整实现了基于用户的协同过滤流程。虽然协同过滤在工业界广泛应用,但也面临冷启动、稀疏性、可解释性等挑战,通常需要与其他技术(如内容过滤、矩阵分解、深度学习)结合使用。希望本课件能帮助您从原理到实践全面掌握协同过滤与余弦相似度!
2026-03-23 11:37:49
376
原创 推荐算法之协同过滤分类
协同过滤推荐系统主要分为基于记忆和基于模型两大类。基于记忆的方法包括基于用户邻域(寻找相似用户偏好)和基于项目邻域(寻找相似物品);基于模型的方法则包含隐语义模型(匹配隐藏特征)、关联规则模型(挖掘购买关联)和机器学习模型(复杂算法预测)。实际应用中,基于模型的方法(特别是机器学习)因精准度高成为主流,而基于记忆的方法常用于冷启动等场景。
2026-01-28 11:00:00
532
原创 推荐算法优缺点及通俗解读
人口统计学:像按班级发同样的课外书(按人群分类)。基于内容:像喜欢《哈利波特》就再推荐《魔戒》(同类推荐)。协同过滤:像朋友推荐:“咱俩口味像,这个好吃你试试”(利用群体行为)。基于知识:像导购员问你需要什么功能,再给你选商品(基于规则匹配)。这些算法在真实系统中常常混合使用,比如新用户先用人口统计学,有行为后用协同过滤,遇到冷门商品再用基于知识推荐。
2025-12-09 18:30:00
514
原创 git如何回退已提交的代码
本文介绍了四种Git代码回退方法:1)使用git reset --soft撤销提交但保留修改;2)使用git reset --hard完全删除提交;3)使用git revert创建反向提交(推荐共享分支使用);4)回退到指定提交。文章建议个人分支可使用强制推送,共享分支应采用revert方式,并推荐使用更安全的--force-with-lease参数。最后提示可根据具体需求选择合适的方法执行回退操作。
2025-11-28 10:00:00
579
原创 推荐算法之:协同过滤
你可以把协同过滤想象成一个非常智能的、数据驱动的“朋友推荐系统”。它通过分析大量用户的历史行为(你做了什么),来预测你未来可能喜欢什么。亚马逊/淘宝:“购买此商品的顾客也购买了…”Netflix/豆瓣:“根据你喜欢的XXX,为你推荐…”
2025-11-26 11:00:00
718
原创 面试题:agent智能体面试题,多智能体间是如何通信的
多智能体系统通信的核心在于信息交换与协调,主要分为直接通信和间接通信两大类。直接通信通过消息传递、RPC或发布-订阅模式实现明确交互,适用于精确控制场景;间接通信则通过共享环境(如黑板模型、数字信息素)实现解耦协作,适合大规模自适应系统。关键技术包括FIPA ACL、gRPC、Kafka等通信协议和中间件。设计时需权衡语义理解、通信开销、可扩展性等挑战,实际应用中常混合使用多种范式。这一框架展示了多智能体通信的本质特征、技术实现和设计考量。
2025-11-25 17:17:59
1140
原创 TradingAgents多智能体金融交易框架详解
代表了一种构建下一代智能交易系统的前沿范式。它通过分工、协作与专业化的设计哲学,将人工智能在金融领域的应用从单一的“预测模型”提升到了一个更接近人类组织决策的“系统性AI”高度。它不是一个“即插即用”的盈利神器,而是一个强大的、灵活的、高可解释性的研究框架和基础设施。对于量化研究人员和开发者而言,它提供了探索更复杂、更稳健、更智能的交易策略的无限可能,但其最终效能高度依赖于其内部各个智能体的质量以及整个系统的协调设计。好的,以下是框架的入门使用步骤。
2025-11-23 12:30:00
1546
原创 推荐算法之:GBDT、GBDT LR、XGBoost详细解读与案例实现
GBDT是一种集成学习方法,通过多轮迭代逐步修正预测误差。它由多个决策树组成,每棵树专注于纠正前序模型的残差,最终组合成一个强预测模型。在推荐系统中,GBDT广泛应用于点击率预测、搜索排序等场景。经典的GBDT+LR组合利用GBDT自动生成特征组合,再通过逻辑回归进行最终预测,能有效处理高维特征。代码示例展示了如何使用GBDT+LR模型进行商品推荐,包括数据生成、特征转换和模型训练流程。这种组合方法既保留了GBDT的特征组合能力,又发挥了LR处理稀疏特征的优势。
2025-11-22 15:42:19
1167
原创 推荐算法之高阶交叉(XGBoost、LightGBM、DeepFM、xDeepFM)实现解析
想象一下,你是一个电商平台的推荐系统。原始特征:你拥有的用户数据可能是“年龄”、“性别”、“城市”;商品数据可能是“品牌”、“品类”、“价格”。一阶特征:这些就是最原始的特征,比如“年龄=25岁”、“品牌=耐克”。它们本身就有信息量,但往往不够。二阶交叉:考虑两个特征组合在一起产生的新信号。例如,“年龄=25岁且品牌=耐克” 这个组合,可能比单独的特征更能代表一个年轻的运动爱好者。再比如,“性别=女且品类=口红” 是一个非常强的购买信号。高阶交叉:顾名思义,就是三个及三个以上特征的组合。
2025-11-19 09:09:32
1148
原创 推荐算法之:FNN、PNN、ONN、NFM深度神经网络模型详解
模型核心比喻如何做特征交叉?特点与场景FNN两步走学徒先用FM预训练,再用DNN学习起点高,训练快。是早期思想的代表。PNN主动红娘在输入后立即加入“乘积层”显式捕捉二阶交叉,适合强交叉信号场景。ONN灵活红娘用多种“核函数”进行交叉PNN的升级版,交叉方式更灵活,能力更强。NFM精华汤厨师用“交互池化层”浓缩二阶交叉,再送DNN经典且高效,平衡了效果与复杂度,应用广泛。FNN (预热) -> PNN (显式交叉) -> ONN (更灵活交叉) -> NFM (优雅且高效的结合)
2025-11-18 20:15:27
814
原创 推荐算法之FM、FFM讲解与使用案例
因子分解机(FM)是一种推荐系统模型,通过为每个特征学习低维隐向量来捕捉特征间的交互作用。相比传统线性模型,FM能有效解决数据稀疏问题,提高泛化能力。其核心思想是用特征隐向量的内积代替直接学习组合权重。应用FM分为三步:1)特征工程(数值特征标准化、类别特征One-Hot编码);2)使用xLearn等工具训练模型;3)预测评分并排序推荐。FM尤其适合用户-物品交互稀疏的推荐场景,是推荐系统的重要基础模型。
2025-11-18 14:55:28
815
原创 推荐算法-逻辑回归稀疏性问题解决方案
所以,这段话讲的“稀疏性”问题,可以通俗地理解为:在一个超大型逻辑回归模型里,存在着海量的、像灰尘一样微小但又确实存在的权重。如果每个都去计算,成本太高;如果粗暴地忽略它们,又会影响结果的准确性。分组:把零散的特征归类,减少需要管理的“货架”总数。压缩:在模型训练时,就通过技术手段强制把不重要的“灰尘权重”清理掉,只保留那些有显著影响的权重。这样,就能在保证结果足够准确的前提下,让模型的训练和预测变得高效、经济。
2025-11-18 14:41:55
883
原创 逻辑回归在个性化推荐中的原理与应用
文章摘要:逻辑回归在个性化推荐中的应用原理可类比为"智能媒人"的工作机制:1)收集用户和商品的多维度特征(年龄、历史行为等);2)通过权重计算综合得分;3)利用Sigmoid函数将得分转化为概率预测。电商平台使用该模型时,会结合用户特征、商品特征和交互特征训练模型,最终根据点击概率排序推荐商品。演示代码展示了如何模拟电商数据并训练逻辑回归模型预测用户点击行为。该技术核心是通过特征权重和概率转换实现精准的二分类预测。
2025-11-13 14:29:08
723
原创 大模型个性化推荐面试指南
这是一个非常重要且热门的方向。大模型在个性化推荐领域的应用是当前面试(尤其是大厂推荐算法、NLP应用方向)的高频考点。下面我将从和几个方面,为你整理一份全面的攻略。
2025-11-13 10:42:54
491
原创 双塔模型:高效推荐系统解析
摘要:双塔模型是一种高效的推荐系统架构,通过分别处理用户和商品特征的"双塔"结构实现快速匹配。用户塔分析用户属性(如年龄、浏览记录),商品塔分析商品特征(如类别、价格),各自输出数字向量表示其核心特征。通过计算两向量的相似度(如余弦相似度),系统能快速推荐最匹配的商品。这种架构优势在于:1)双塔独立处理,计算高效;2)将推荐问题转化为向量相似度计算,适用于大规模实时推荐;3)端到端训练优化用户-商品匹配度。典型应用包括电商推荐(淘宝)、短视频推荐(抖音)等场景。
2025-11-10 19:30:30
1147
原创 管道设计模式及Python代码实现
管道设计模式将复杂流程分解为独立步骤,如电商订单处理中的验证、计价、库存检查等阶段。本文通过Python实现展示了该模式的核心特点:每个阶段专注单一职责,数据依次流动,各环节松耦合且可灵活组合。示例代码构建了订单处理管道,包含验证、价格计算、库存检查、订单号生成和保存五个阶段,演示了如何通过串联处理单元高效完成业务逻辑。这种设计提高了代码的可维护性和扩展性,是处理复杂流程的理想选择。
2025-11-07 09:38:55
423
原创 Excel表格自适应大小设置方法
Excel表格自适应内容显示方法总结 自动调整行高/列宽:双击列或行边线,快速适配内容长度 自动换行:保持固定列宽,内容多行显示(需配合行高调整) 缩小字体填充:不改变单元格尺寸,自动缩放字体 转换为智能表格(Ctrl+T):获得自动扩展、固定标题等高级功能 推荐方案:组合使用自动换行+行高调整,兼顾内容完整性与布局美观性。
2025-11-07 09:20:16
8502
原创 LangChain企业知识库权限控制方案
本文提出基于LangChain框架的企业知识库文档权限控制解决方案。系统采用多层次权限设计架构,包括: 文档元数据层:为每个文档添加部门归属、可见范围、安全等级等权限属性; 用户权限层:基于部门和角色动态计算用户权限集合; 访问控制层:在文档存储和检索时实施权限过滤。 关键技术实现包含: 权限感知文档对象(PermissionAwareDocument)扩展标准文档模型 基于部门的权限继承体系(department_permissions) 双重权限验证机制(部门隶属+安全等级) 向量检索结果实时权限过滤
2025-10-31 17:44:10
552
原创 HuggingFace生态模型部署与应用培训课件
本文系统介绍了HuggingFace生态模型部署与应用的全流程。主要内容包括:HuggingFace核心组件(Models Hub、Transformers库等)的功能特点;部署前的模型选型、调优及硬件评估;主流部署工具(如TGI、Diffusers)的对比分析;从环境准备到服务上线的完整部署流程;以及电商客服、内容审核等实际生产案例的经验分享。特别强调了监控指标设置(QPS、延迟、错误率)和优化策略(量化、缓存、动态批处理),为AI模型从研发到生产落地提供了实用指导。
2025-09-19 15:58:18
621
原创 大模型训练与微调实战培训课件
大模型训练与微调实战培训摘要 本培训课程系统讲解大模型从基础理论到工程实践的完整知识体系,包含32学时的理论+实操内容。课程涵盖8大核心模块:大模型基础理论、训练环境配置、数据处理、预训练技术、微调方法、模型评估、生产部署及行业案例。重点内容包括Transformer架构演进、分布式训练框架(DeepSpeed/FairScale)、数据清洗流程(去噪/PII脱敏)、高效微调技术(LoRA/Prefix-Tuning)等。课程提供完整的代码示例,如环境检查脚本和数据预处理流水线,帮助学员掌握从千亿参数模型训
2025-09-18 20:44:28
837
原创 需求:如何高效的推荐产品
该方案针对5000万用户每日推荐50个未推送产品(共100亿历史记录)的需求,提出基于Spark的分布式处理框架。核心思路是维护用户已推送产品表,通过增量更新和广播变量优化性能。具体分三步:1)初始构建用户已推送产品表;2)每日增量更新推送记录;3)通过产品全集与已推送集合差值计算推荐结果。采用分区存储、广播小表和分布式计算优化处理效率,每日仅需处理增量数据而非全量记录,显著降低计算开销。方案需注意产品表更新、作业调度和资源监控。
2025-09-16 17:40:28
922
原创 huggingFace学习之编码工具
本文介绍了使用transformers框架中的BertTokenizer进行中文文本编码的实践方法。主要内容包括:1)加载预训练的中文BERT模型tokenizer;2)使用encode()、encode_plus()和batch_encode_plus()等不同方法对单句、句对和批量文本进行编码;3)演示了截断、填充等参数设置;4)展示了如何通过add_tokens()和add_special_tokens()方法扩展词典,添加新词和特殊标记。文中以中国现代诗歌为例,详细说明了编码后的输出结构(如inpu
2025-09-09 19:14:36
266
原创 大模型应用开发模拟面试
本文提供了一份针对大模型应用开发工程师岗位的结构化面试指南,涵盖技术基础、工程化能力、前沿探索等核心考察维度。面试问题分为四个部分:1)技术基础与项目经验,重点考察RAG系统、模型优化等实战能力;2)工程化与系统设计,关注MLOps、高并发架构等落地经验;3)多模态应用和伦理安全等前沿话题;4)动机评估与反向提问。文章建议应聘者采用STAR法则回答项目问题,突出技术选型背后的工程权衡,并强调对性能、成本等落地指标的关注。同时提供了准备建议,包括深度复盘项目细节、理解关键技术原理、准备有深度的反问问题等,以全
2025-07-29 14:48:58
800
原创 模型面试题:agent智能体有那些模块
(大模型作为中枢)协调各模块运行,例如LangChain、AutoGPT等框架均基于此架构设计。理解这些模块及其交互逻辑,是设计高效智能体的基础,也是面试中考察系统设计能力的重点!“特斯拉2023年Q3营收为233.5亿美元。“特斯拉Q3营收多少?
2025-07-10 16:05:11
772
原创 大模型面试:如何解决幻觉问题
摘要: 大模型幻觉问题可通过分层解决方案应对:数据层(清洗数据、知识增强)、训练层(SFT、RAG、推理显式化)、推理层(约束解码、自验证)和反馈层(RLHF)。核心方案是**检索增强生成(RAG)**结合事实性微调,平衡成本与效果。面试中需展现技术深度(如引用CRITIC框架)、工程权衡(场景适配)及伦理意识,强调多环节协同(预防-控制-纠正)和评估工具(FactScore)的使用。示例说明与前沿方案引用可加分。
2025-07-08 15:46:36
526
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅