- 博客(644)
- 资源 (35)
- 收藏
- 关注

原创 vscode的安装并配置c语言环境
Visual Studio Code的下载和安装没有任何难度,直接找到官网https://code.visualstudio.com/进行下载安装即可。比较有难度的是搭建C语言的开发环境,网上有一大堆的教程,但是对于初学者来说确实还是很有难度,经常会出现很多莫名其妙的错误。无论安装什么软件,官方给出的官方文档都是最有说服力的https://code.visualstudio.com/docs/cpp/config-mingw,在这里很多问题都可以找到答案,但是阅读官方文档也有比较大的难度,因此在CSDN、
2020-09-20 21:23:01
5064
原创 李沐《动手学深度学习》53:语言模型
本文分析了H.G.威尔斯的《时间机器》文本数据,展示了自然语言统计方法的应用。首先通过单字词频统计显示高频词如"the"、"i"等;随后扩展到二元和三元语法分析,揭示常见词组合模式。实验采用两种序列采样方法:随机采样和顺序分区,分别生成批量训练数据。最后构建了SeqDataLoader数据加载器,支持不同采样方式的选择。研究为文本数据的统计分析和序列建模提供了实用工具和方法,其中频率分布图显示词频遵循幂律分布,为语言模型训练奠定了基础。(150字)
2025-06-07 21:27:27
61
原创 李沐《动手学深度学习》d2l安装教程
摘要 使用最新版d2l(1.0.3)时出现AttributeError: module 'd2l.torch' has no attribute 'read_time_machine'错误。官方文档显示示例代码基于d2l 0.17.6版本。尝试降级安装时遇到pandas库编译问题,需要确保系统已安装完整的Visual Studio Build Tools(包括C++生成工具和Windows SDK)。当前环境存在无效的Python包分布警告(-pencv-python),可能影响依赖安装。建议先解决环境问题
2025-06-07 00:04:48
523
原创 层次分析法(Analytic Hierarchy Process, AHP)介绍及使用教程
层次分析法(AHP)是一种多准则决策方法,通过将复杂问题分解为目标层、准则层和方案层,进行两两比较确定权重。其步骤包括构建层次模型、构造判断矩阵、一致性检验、层次总排序和方案优选。AHP结合定性与定量分析,适用于供应商选择、投资评估等场景,但依赖主观判断且复杂度随指标增多而提高。Python代码示例展示了权重计算和一致性检验的实现。使用时需确保判断矩阵合理性和层次简洁性。
2025-06-05 19:50:49
80
原创 互信息量(Mutual Information,MI)计算及应用
互信息量(MI)是信息论中衡量两个随机变量依赖关系的核心指标,能够揭示线性与非线性关联。其数学定义为联合概率分布与边缘分布的比值对数期望,通过熵差量化变量间的信息共享程度。MI具有非负性、对称性等特性,可通过概率统计或数值方法计算,广泛应用于特征选择、NLP、图像处理等领域。尽管功能强大,但需注意尺度依赖、计算复杂度等局限性。与相关系数不同,MI能捕捉非线性关系,为数据分析提供更全面的依赖度量。
2025-06-03 00:15:11
42
原创 deep forest安装及使用教程
摘要: 深度森林(Deep Forest)是周志华团队提出的集成学习方法,结合传统机器学习与深度学习优势。其核心包括级联结构(多层森林逐步增强特征)和多粒度扫描(捕捉不同层次信息)。特点包括超参数少、模型复杂度自适应、无需反向传播及可解释性强,适用于分类、回归及特征工程任务。示例代码展示了如何安装deep-forest库并构建级联森林分类器,模拟生成销售数据(含数值和分类特征)进行多分类预测,体现了模型的实际应用流程。
2025-06-02 21:01:46
329
原创 RAG混合检索:倒数秩融合RRF算法
摘要:检索增强生成(RAG)结合检索与生成模型的优势,其性能依赖于检索效果。倒数秩融合(RRF)通过聚合多检索器的排名提升稳健性,公式为RRF(d)=∑(1/(k+r(d))),其中k=60为平衡因子,赋予高排名更大权重。RRF使最终排名更准确,减少单一检索器偏差。该技术在用户查询时并行调用多检索器,融合结果后生成答案,有效提升RAG系统表现。k值选择基于经验平衡,但可针对特定场景调整。
2025-05-30 21:01:31
259
原创 推荐系统排序指标:MRR、MAP和NDCG
摘要: 本文介绍了推荐系统中的三种关键评估指标:MRR、MAP和NDCG,分别来自基于二进制相关性和基于应用的两类度量家族。MRR关注首个相关结果的位置,适用于问答系统等场景;MAP通过计算平均精度衡量排序质量,适合二元相关性评估但对多级评分不敏感;NDCG支持多级相关性,通过折损累计增益和归一化处理,综合评估排序整体性能。各指标各有优劣:MRR简单但忽略后续结果,MAP对高排序错误敏感,NDCG计算复杂但更全面。实际应用中需根据场景需求选择合适指标。
2025-05-30 20:01:06
117
原创 RAG应用:交叉编码器(cross-encoder)和重排序(rerank)
Sentence Transformers提供两种模型类型:Bi-encoders和Cross-encoders。Bi-encoders适合快速检索大量句子,通过独立编码实现高效搜索;Cross-encoders则通过联合编码句子对获得更高精度,但计算复杂度随数据量平方级增长,适合小规模分类或重排序任务。实际应用中可结合两者优势,先用Bi-encoder粗筛候选,再用Cross-encoder精排。文中以AI论文检索为例,展示了这种混合方案在处理10万级语料时的有效性,并提供了交叉编码器在QA和语义相似度任
2025-05-30 19:32:29
498
原创 Cross-Encoder(交叉编码器)和 Bi-Encoder(双编码器)
摘要: Cross-Encoder(交叉编码器)和Bi-Encoder(双编码器)是NLP中处理文本匹配的两种模型。Bi-Encoder通过独立编码双文本生成向量后计算相似度,适合大规模检索(高效但精度较低);Cross-Encoder联合编码双文本,利用交叉注意力捕获细粒度交互,精度高但计算成本大,适用于精细匹配。实际应用中常结合两者:先用Bi-Encoder快速筛选候选,再用Cross-Encoder重排序以平衡效率与精度。
2025-05-30 18:01:40
127
原创 Pydantic:数据验证和序列化
Pydantic 是一个用于数据验证和序列化的 Python 库,它通过类型注解定义数据模型,并在运行时强制执行类型检查。本文介绍了 Pydantic 的核心功能:1)模型定义与实例化,支持默认值和可选字段;2)内置数据类型验证及自定义验证器;3)高级特性如配置类、数据解析与序列化;4)与 ORM 集成的 ORM 模式;5)实用技巧包括环境变量配置和版本控制;6)性能优化方法如使用 dataclass 装饰器。Pydantic 特别适用于 API 开发、数据解析和配置管理场景,是 FastAPI 框架的核心
2025-05-29 13:07:17
872
原创 MMR算法(最大边际相关算法)原理与应用
MMR算法通过平衡相关性与多样性,成为大模型领域优化检索和生成的重要工具。在RAG、对话系统、推荐场景中,其结合大模型的语义理解能力,可显著提升信息利用效率和用户体验。未来,随着自适应算法和轻量化技术的发展,MMR将在更多复杂场景中发挥关键作用。在MMR(最大边际相关)算法中,Rel(d,Q)和Div(d,S)是两个核心变量,分别表示文档与查询的相关性以及文档与已选集合的多样性。Rel(d,Q)通常用余弦相似度或BM25计算,衡量“文档与查询的匹配程度”。Div(d,S)
2025-05-29 00:20:42
109
原创 LLM+RAG:文本分块处理策略
本文探讨了文本分块的意义、常见策略及工具应用。文本分块对RAG系统性能至关重要,不合理分块会导致上下文不完整或噪声过多。常见方法包括固定大小分块(通过重叠和智能截断优化)、基于NLTK/spaCy的自然语言分块(需自定义中文模型)、特殊格式分块(如HTML/Markdown)等。LangChain提供了多种分块工具,如RecursiveCharacterTextSplitter可按层级递归分割,并支持自定义编程语言的分隔符。合理选择分块策略能提升检索质量和大模型生成效果。
2025-05-27 22:23:17
343
原创 向量数据库对比和选择:Pinecone、Chroma、FAISS、Milvus、Weaviate
摘要 本文对比了五种主流向量数据库(Pinecone、Chroma、FAISS、Milvus、Weaviate)的功能、性能、生态及成本。功能方面,Pinecone和Milvus适合大规模实时场景,Chroma轻量易用,FAISS适合离线分析,Weaviate支持多模态检索。性能上,FAISS查询最快,Pinecone和Milvus吞吐量高。生态方面,Pinecone和Milvus集成丰富,Chroma适合快速开发。成本上,FAISS和Chroma开源免费,Pinecone为云服务付费。选型建议:小规模选C
2025-05-27 19:49:35
288
原创 两种主流检索技术:BM25(基于关键词匹配)和向量相似度检索
摘要: 检索层是信息检索系统的核心模块,支持文本匹配、知识库检索和RAG(检索增强生成)等应用。主流技术包括BM25(基于关键词匹配)和向量相似度检索(基于语义向量)。 BM25作为无监督模型,通过词频统计和逆文档频率(IDF)计算文档相关性,适合短文本关键词检索(如电商搜索),具有高效、可解释性强的特点,但无法处理语义和长查询。示例代码展示了BM25的中文实现流程。 对比:BM25依赖关键词匹配,轻量快速;向量检索捕捉语义但需预训练模型。两者适用于不同场景,如传统搜索(BM25)或语义敏感任务(向量检索)
2025-05-27 16:47:15
107
原创 算法与数据结构:质数、互质判定和裴蜀定理
本文介绍了质数的定义、判定方法、筛选算法、质因数分解、互质判定以及裴蜀定理。质数是只能被1和自身整除的正整数,常见的质数有2、3、5等。质数判定通常使用试除法,时间复杂度为O(√N)。质数筛选可以使用埃拉托斯特尼筛法,时间复杂度为O(N log(log N))。质因数分解基于唯一分解定理,将正整数分解为质数的乘积。互质判定通过最大公约数(gcd)实现,若gcd(a,b)=1,则a和b互质。裴蜀定理指出,方程ax+by=m有解当且仅当m是gcd(a,b)的倍数,且a和b互质的充要条件是存在整数x,y使ax+b
2025-05-20 16:21:19
909
原创 算法与数据结构:位运算与快速幂
本文介绍了位运算和快速幂算法。位运算是基于二进制的运算,包括与、或、异或、取反、左移和右移六种操作,适用于计算机中的二进制数据处理。快速幂算法则是一种高效的指数运算方法,通过将指数转化为二进制形式,减少乘法次数,从而将时间复杂度从O(x)降低到O(log(x))。文章通过具体例子和代码展示了如何实现快速幂算法,强调了其在计算大指数时的效率优势。
2025-05-20 13:54:59
1036
原创 Mysql相关知识2:Mysql隔离级别、MVCC、锁
保证了事务在读取数据时可以看到一致的数据版本,避免了不可重复读问题,而间隙锁则进一步解决了幻读问题,使得可重复读隔离级别更加可靠。中,隔离级别定义了事务之间相互隔离的程度,用于控制一个事务对数据的修改在何时以及如何被其他事务可见。存储引擎中,可重复读隔离级别主要通过多版本并发控制(
2025-04-20 11:18:27
759
原创 大数据开发知识1:数据仓库
定期对数据仓库进行评估和优化,根据业务需求的变化和数据使用情况,调整数据仓库的架构、数据模型和数据处理流程,提高数据仓库的性能和可用性。管理数据仓库的元数据,包括数据定义、数据来源、数据转换规则、数据使用情况等。将转换后的数据加载到数据仓库的目标表中。致力于实现实体的统一,以商业要素资产化为核心,实现全域链接、标签萃取、立体画像,让数据融通而非以孤岛存在,为精准的用户画像提供基础。致力于实现数据的标准与统一,从设计、开发、部署和使用上保障数据口径规范和统一,实现数据资产全链路管理,提供标准数据输出。
2025-04-20 11:14:18
826
原创 SQL:CASE WHEN使用详解
这些巧妙用法可以让你在处理复杂的 SQL 查询时更加灵活和高效,根据具体的业务需求选择合适的用法来实现所需的功能。
2025-03-29 20:10:25
830
原创 LangChain从入门到精通最全教程
LangChain是一个用于构建基于大语言模型(LLM数据感知:连接外部数据源(文档、API等)智能代理:通过工具调用实现自主决策模块化设计:支持链式调用、记忆管理、提示词工程等from langchain . llms import BaseLLM class CustomLLM(BaseLLM) : def _call(self , prompt : str , ** kwargs) - > str : return f"自定义响应: {
2025-03-19 16:02:51
417
原创 python类方法和类的实例化
Python调用类的__new__方法创建对象实例。调用对象的__init__方法对对象进行初始化。返回初始化好的对象实例。需要注意的是,如果__new__方法没有返回该类的实例,那么__init__方法将不会被调用。print("调用 __init__ 方法")# 这里不会输出 "调用 __init__ 方法",因为 __new__ 方法返回了 None。
2025-03-18 20:37:57
115
原创 Django:内置和自定义中间件
除了使用内置中间件,你还可以根据项目的需求自定义中间件。:中间件类的初始化方法,是一个可调用对象,用于获取视图函数的响应。:处理请求和响应的主要方法,在这个方法中可以对请求进行预处理,然后调用获取视图函数的响应,最后对响应进行后处理。:在视图函数调用之前被调用,可以对视图函数的参数进行修改或拦截请求。:当视图函数抛出异常时被调用,可以对异常进行处理,返回一个自定义的响应。:当视图函数返回一个对象时被调用,可以对响应的模板和上下文进行修改。.2f要使用这个中间件,需要将其添加到文件的。
2025-03-18 20:18:33
1044
原创 Mysql相关知识1:存储引擎、sql执行流程、索引失效
存储引擎是MySQL的核心组件,负责数据的存储、读取和管理。不同的引擎在事务支持、锁机制、性能等方面有显著差异。MySQL引擎事务锁粒度索引类型数据安全适用场景InnoDB支持行级锁聚簇索引高(崩溃恢复)通用型、高并发写MyISAM不支持表级锁非聚簇索引 + 全文索引低读多写少、静态数据Memory不支持表级锁哈希索引无(内存存储)临时数据、缓存根据业务需求选择合适的引擎是数据库设计的关键步骤!如果需要进一步探讨特定场景的引擎优化,可以继续交流。
2025-03-18 20:06:06
1054
原创 数据科学/数据分析暑期实习题目汇总
这里定义了一个名为Animal的类,它是一个自定义的数据类型,可用于创建具有特定属性和方法的对象。这个例子展示了Python中私有属性的定义和访问方式。虽然Python提供了私有属性的概念,但并没有严格限制对它们的访问,这与其他一些编程语言(如Java)有所不同。在实际编程中,应该遵循封装原则,尽量避免直接访问私有属性,而是通过类提供的公共方法来操作私有属性。
2025-03-15 22:24:27
158
原创 无监督异常检测算法:孤立森林(Isolation Forest)
孤立森林(Isolation Forest)是一种高效的无监督异常检测算法,特别适用于处理高维和大规模数据集。异常点(Outliers)与正常点相比,更容易被“孤立”(Isolate)。通过构建多棵随机树(),算法利用异常点在树中路径较短的特点,快速识别出异常。孤立森林通过随机分割快速识别异常,凭借其高效性和无监督特性,成为工业界异常检测的首选工具之一。理解其核心思想与参数调优,能在实际应用中有效提升检测效果。
2025-03-15 15:22:52
610
原创 数据分析/数据科学常见SQL题目:连续登录用户、留存率、最大观看人数
d表内容和上一题一样,但我们需要考虑某天新增用户为0的情况,并输出新增用户的次日留存率0以及日期。如果一个用户连续登录或者同一天多次登录,那么他的登录日期与序号的差值是相同的,所以可以根据。是为了排除一个用户多次连续登录,比如:连续登录两天,第三天未登录,接着又连续登录两天。得到的就是有考试成绩的名字,通过外连接,我们就可以得到全班人的名字以及成绩。班的所有学生的成绩,但是班上有人缺考,也就是成绩表里没有姓名,我们先用。,差值分组,便可以求得用户的连续登录和同一天多次登录的累计天数。
2025-03-07 16:30:06
1099
原创 AB测试的统计学基础
AB实验设计:随机分组、单一变量、样本量计算。分析方法:选择正确的检验方法、解读p值和置信区间。业务结合:统计显著不等于业务有效,需权衡效应量与成本。通过严谨的统计学流程,AB测试可最大化减少主观偏差,为决策提供可靠依据。
2025-03-03 15:33:34
185
原创 机器学习中的谱方法(Spectral Methods)与核方法(Kernel Methods)
谱方法:通过矩阵分解揭示数据底层结构,适合图分析和流形学习。核方法:通过核函数隐式映射到高维空间,解决非线性问题。两者均通过数学变换将复杂问题转化为线性可解形式,是机器学习中处理非线性数据的核心工具。
2025-03-02 19:51:03
320
原创 XGBoost和LightGBM机器学习算法对比及实战
XGBoost:理论严谨,适合精细化调参,在中小数据集上表现优异。LightGBM:通过直方图、GOSS、EFB等技术优化效率,适合大规模数据和高维特征,工业界应用广泛。两者均支持分布式训练,实际应用中可根据数据规模、特征复杂度和硬件资源灵活选择。以下是XGBoost和LightGBM的代码示例,使用Python的xgboost和lightgbm库实现分类任务(以鸢尾花数据集为例)。
2025-03-02 17:15:03
135
原创 KL 散度介绍及使用场景
不过需要注意的是,KL 散度不具有对称性,即 ,所以它并不是一个真正意义上的距离度量(距离度量需要满足对称性、非负性和三角不等式)。机器学习:在变分自编码器(VAE)中,KL 散度用于衡量近似后验分布与先验分布之间的差异,从而在训练过程中对模型进行约束,使得近似后验分布尽量接近先验分布。统计学:在模型选择和假设检验中,KL 散度可以作为一种衡量模型分布与真实数据分布之间差异的指标,帮助选择更合适的模型。同样,当 且 时,积分中的被积函数无定义,KL 散度为无穷大。如果以 2 为底,单位则是比特(
2025-02-24 21:05:48
494
原创 Brier 分数定义及应用
在概率预测的评估场景下,需要一种有效的方式来衡量预测概率与实际结果之间的差异。布赖尔提出的Brier分数就是这样一种用于评估概率预测准确性的指标。它主要用于评估二分分类(如事件发生或不发生)或多分类问题中预测概率的质量。
2025-02-21 20:34:52
222
原创 sklearn TfidfVectorizer使用教程
这个正则表达式的含义是匹配由两个或两个以上字母、数字或下划线组成的单词边界。对于中文文本来说,由于中文没有像英文那样明确的单词边界(空格分隔),所以它会将连续的中文文本当作一个整体来处理,从而出现较长的短语作为特征的情况。下面为你提供一个详细的使用教程,涵盖基本使用、参数设置、中文处理等方面。得到较长的 “词汇”(实际上这些可能并不是传统意义上的单个词,而是短语)且未进行分词处理,主要和。能够正确处理中文文本,你需要先对中文文本进行分词处理。默认是基于英文的分词规则,它使用正则表达式。
2025-02-20 23:14:06
355
原创 随机森林(Random Forest)class_weight=balanced处理类别不平衡
在类别不平衡的数据集中,多数类样本数量多,少数类样本数量少。这样一来,模型在多数类上的表现可能很好,但在少数类上的表现会很差,比如在医学诊断中,患病样本(少数类)可能被错误分类为健康样本(多数类),从而导致严重的后果。权重较大的样本在决策树的构建过程中会产生更大的影响,使得模型更加关注少数类样本,从而在一定程度上平衡了类别之间的影响,提高了模型对少数类的分类性能。进行分类任务时,当数据集中的类别分布不平衡,即某些类别的样本数量远多于其他类别时,模型可能会偏向于多数类,导致对少数类的预测性能较差。
2025-02-20 20:47:27
325
原创 sklearn.mutual_info_classif计算特征与类别之间的互信息
,在特征选择中是一种常用的方法。互信息可以衡量两个随机变量之间的依赖程度,在特征选择的场景下,它能帮助我们评估每个特征对于分类任务的重要性,互信息值越高,说明该特征与类别之间的相关性越强,也就意味着该特征对于分类任务越有价值。互信息值越大,表明该特征能够为类别标签的预测提供更多的信息。其中 p(x,y) 是 X 和 Y 的联合概率分布,p(x) 和 p(y) 分别是 X 和 Y 的边缘概率分布。的一维数组,其中每个元素表示对应特征与类别标签之间的互信息值。库中的一个函数,用于计算特征与类别之间的互信息(
2025-02-18 08:40:55
60
原创 imblearn.combine处理类别不平衡问题
库中的一个模块,该模块提供了结合过采样和欠采样技术来处理类别不平衡问题的方法。类别不平衡问题在机器学习中很常见,即数据集中不同类别的样本数量存在显著差异,这可能导致模型偏向于多数类,而对少数类的预测性能较差。中的方法通过综合过采样少数类和欠采样多数类,来改善数据集的类别分布,从而提高模型在少数类上的性能。
2025-02-17 11:57:55
159
原创 sklearn.ConfusionMatrixDisplay可视化混淆矩阵
库中用于可视化混淆矩阵的一个实用工具。混淆矩阵是一种常用的评估分类模型性能的工具,它可以直观地展示模型在各个类别上的预测结果与真实标签之间的关系。下面详细介绍如何使用。函数计算模型在测试集上的混淆矩阵。混淆矩阵的行表示真实标签,列表示预测标签。你还可以对混淆矩阵的可视化进行更多定制化,例如更改颜色映射、添加百分比显示等。使用逻辑回归模型对训练集进行训练,并在测试集上进行预测。个特征的二分类数据集,并将其划分为训练集和测试集。对分类模型的性能进行直观的混淆矩阵分析。通过以上步骤,你可以使用。
2025-02-17 11:23:35
252
ChromeSetup .exe
2020-10-15
50部TED精选合集.docx
2020-09-11
2020全国大学生数学建模竞赛.rar
2020-09-10
ARCTIME_PRO_2.4_WIN64.zip
2020-09-01
四六级真题链接.docx
2020-09-11
Anaconda3.zip
2020-08-19
npp.7.9.portable.x64.zip
2020-10-15
新媒体管家_7_4_8__3.crx
2020-10-15
【微信下载】2019软科中国最好学科排名.xlsx
2020-10-06
Dev-Cpp 5.11 TDM-GCC 4.9.2 Setup.zip
2020-09-01
codeblocks-20.03-setup.zip
2020-09-01
HBuilderX.2.8.3.20200728.zip
2020-08-31
typora.zip
2020-08-31
eclipse.zip
2020-08-31
Microsoft VS Code.zip
2020-08-31
全国CO2分析可视化资料
2022-11-26
Zotero-5.0.96_setup.exe
2021-03-31
RStudio-1.4.1106.exe
2021-03-03
卷积神经网络vgg19.npy
2020-12-13
rapidminer-studio-9.9.0-win64-install.exe
2021-06-02
mathpixsnippingtool.rar
2021-04-30
Image-Caption-Generator-master.zip_Ticketmaster
2020-12-30
Texture-Synthesis-Using-Convolutional-Neural-Networks-master.zip
2021-01-16
GeoGebraGeometry-Windows-Installer-6-0-609-0.exe
2020-12-07
vgg16. neural network
2020-12-07
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人