- 博客(134)
- 问答 (4)
- 收藏
- 关注
原创 【大模型入门3】算法优化与性能调优
本文探讨了大模型优化的核心要素与实用策略。首先提出模型优化的"不可能三角":模型性能、训练成本和推理成本之间的平衡关系。在提升模型性能方面,介绍了超参数调优和高级训练策略(RLHF、DPO);在训练效率方面,解析了数据并行、张量并行和流水线并行三种分布式训练方法;在推理效率方面,阐述了量化、剪枝和知识蒸馏三种优化技术。文章最后通过概念题和应用题帮助读者巩固知识,为实际业务场景中的模型优化提供了系统化的解决方案框架和技术路线图。
2025-11-05 09:15:00
796
原创 【大模型入门1】大模型基础与架构
本文摘要: Transformer架构通过自注意力机制突破了RNN/LSTM的序列处理瓶颈,其核心包括:1)并行计算的自注意力机制;2)多视角学习的多头注意力;3)位置编码处理词序;4)残差连接和层归一化稳定训练。主流框架对比显示,Decoder-only结构(如GPT/LLaMA)最适合文本生成任务,而Encoder-only(BERT)侧重文本理解。预训练目标(如因果语言建模)使模型通过预测下一个词来学习语言规律和知识。该架构特别适用于需要文本生成能力的监所智能体项目。
2025-11-02 17:07:14
700
原创 【RAG架构】RAG架构概要
RAG(检索增强生成)是一种将信息检索与文本生成结合的技术架构。基础RAG分为两大阶段:离线阶段进行数据处理、分块、向量化并存入向量数据库;在线阶段根据用户查询检索相关文本,增强提示后由大模型生成回答。RAG的优势包括知识可更新、减少幻觉、可解释性强,但也面临检索质量依赖、分块策略敏感等挑战。在智能体架构中,RAG从核心组件转变为可调用工具,由智能体主动触发并动态生成查询,实现更灵活的迭代式知识获取。这种转变使RAG从简单问答系统升级为智能体的知识模块,支持更复杂的多步骤任务处理。
2025-10-29 15:58:13
890
原创 【图像恢复算法】 ESRGAN & Real-ESRGAN的配置和应用
ESRGAN 由 Xintao Wang 等人于 2018 年提出,旨在通过对抗生成网络(GAN)进一步提升图像超分辨率重建的视觉效果。它是在 SRGAN(Super‑Resolution GAN)的基础上改进而来,重点解决了高频细节表现不足和生成结果偏“平滑”的问题。优点:生成的细节更丰富、纹理更自然;在多项基准测试(如 DIV2K)上视觉效果显著提升。局限:主要针对“理想降采样”场景(bicubic 降采样);对真实世界的噪声、模糊等退化情况适应性较差。
2025-06-13 18:00:15
3742
2
原创 Mask_RCNN 环境配置及训练
本文介绍了Mask R-CNN模型的代码获取、环境配置及测试流程。代码和权重文件均从GitHub获取,需要特别注意Python版本(3.6)和各依赖库的版本兼容性(如TensorFlow 1.15、Keras 2.2.5等)。环境配置需创建虚拟环境并安装指定版本的库,否则会出现函数参数不匹配等错误。测试阶段提供了COCO数据集和balloon数据集两种选择,并给出了相应的训练和评估命令。最后说明了如何加载训练好的权重进行图像分割测试。全文强调了版本控制的重要性,并提供了完整的实施路径。
2025-06-01 20:25:54
1259
原创 【OpenCV基础2】图像运算、水印、加密、摄像头
本文介绍了使用OpenCV进行图像处理和摄像头操作的基本方法。首先,通过“+”运算符和cv2.add()函数实现图像相加,并展示了掩膜异或操作的应用。其次,详细说明了如何读取摄像头视频流并将其保存为不同格式(如I420、XVID、MP4V),同时演示了人脸检测的实现,包括调整分辨率、使用Haar级联分类器检测人脸并绘制矩形框。接着,介绍了数字水印的嵌入与提取过程,包括水印图像的预处理、嵌入策略(如LSB法)以及水印的提取与后处理。最后,展示了图像加密的基本操作,包括人脸检测、打码处理以及解码还原。这些方法为
2025-05-19 21:54:45
544
原创 【OpenCV基础 1】几何变换、形态学处理、阈值分割、区域提取和脱敏处理
本文介绍了图像处理中的多种技术,包括几何变换、形态学处理、阈值分割和基础图像处理。首先,通过OpenCV库对lena图片进行了放大、缩小、旋转等几何变换操作。接着,使用形态学处理技术进行了梯度运算、闭运算、礼帽和黑帽运算。在阈值分割部分,展示了二值化、反二值化、截断阈值、超阈值零处理、低阈值零处理、自适应阈值和Otsu处理等方法。最后,文章还涉及了感兴趣区域的提取和人脸脱敏处理,展示了如何从图像中提取特定区域并对人脸进行隐私保护处理。这些技术为图像处理提供了基础工具和方法,适用于多种应用场景。
2025-05-18 17:08:26
805
1
原创 【论文阅读笔记】TokLIP: Marry Visual Tokens to CLIP for Multimodal Comprehension and Generation
本文介绍了TokLIP模型,一种结合离散视觉分词器与连续语义理解的多模态统一模型。研究背景指出当前多模态模型在理解与生成任务上的挑战,TokLIP通过三个阶段解决这些问题:首先,使用VQGAN将图像转换为离散令牌,再通过MLP和Transformer编码器映射到CLIP的语义空间;其次,通过对比学习和语义蒸馏优化模型;最后,将处理后的令牌输入自回归Transformer,实现端到端的图文生成与理解。TokLIP的核心优势在于解耦语义与生成目标,高效利用数据,并在多项任务上超越现有模型。工作流程通过“拼图工坊
2025-05-12 22:42:07
1214
1
原创 【Agent搭建】利用coze平台搭建一个AI销售?
这是一次用Coze搭建Agent的记录,因为接触的不多,也没有什么很系统的教程参考,所以都是一步一步摸索着搭建的。总的来说Coze还是很简单易上手的,像我这样的小白都可以轻松地(×)搭建起一个可直接投入使用的Agent。如果文中内容理解有误,欢迎私信我指出改正৲₍˄·͈w ·͈˄*₎◞ ̑̑。
2025-05-03 20:03:44
1152
原创 【RAG 框架部署】LangChain-Chatchat (原 Langchain-ChatGLM) + Ollama
本文介绍了基于RAG(检索增强生成)技术的LangChain-Chatchat框架搭建过程。首先通过conda创建Python虚拟环境,安装Ollama并下载必要的中英文模型。然后详细说明了LangChain-Chatchat的安装步骤,包括框架安装、配置文件修改、知识库初始化等关键环节。配置完成后,通过命令行启动服务即可在浏览器中使用对话功能。该方案支持在普通轻薄本(仅核显)上运行,适用于处理大规模外部知识库,通过检索相关信息辅助生成更准确的回答。文中还提供了模型API申请、参数配置等实用指引,帮助用户快
2025-04-30 23:10:29
1520
3
原创 基于阿里qwen2.5的大模型微调
《大模型微调实战:基于阿里Qwen2.5的SFT技术解析》摘要:大模型微调(Fine-tuning)是通过领域数据调整预训练模型参数使其适配特定任务的技术,解决基座模型"通才困境"(如专业深度不足、格式不符等问题)。常见方法包括全参数微调、LoRA等,本文以监督微调(SFT)为例,在阿里云魔搭社区实操Qwen2.5-7B模型微调:1)环境配置采用LLaMA-Factory框架;2)通过LoRA进行参数高效调整;3)配置训练参数(学习率1e-4、3训练轮次等);4)使用hwtcm_deepseek_r1_di
2025-04-23 15:24:17
1226
原创 【深度学习基础 2】 PyTorch 框架
PyTorch 是由 Facebook 开发的开源深度学习框架,以动态计算图(Dynamic Computational Graph)著称,允许在运行时即时定义和修改模型结构,便于调试和研究。它支持 GPU 加速,并拥有丰富的生态系统,适用于自然语言处理、计算机视觉等众多领域。
2025-03-26 21:57:35
3588
原创 【深度学习基础 1】 TensorFlow 框架
TensorFlow 是 Google 开发的一个开源机器学习和深度学习框架,广泛用于构建和训练神经网络。它支持 CPU、GPU 和 TPU 加速计算,并且提供了灵活的 API 以适应研究和生产环境。高效的数值计算:基于数据流图(DataFlow Graph)进行计算。灵活的模型构建:支持 高级 API 进行快速建模。跨平台支持:可在 CPU、GPU、TPU、移动设备和云端运行。自动微分:方便进行梯度计算和优化。丰富的生态系统:包括 TensorBoard(可视化工具)、TF-Serving(模型部署)等
2025-03-25 20:14:31
3746
原创 【机器学习基础 4】 Pandas库
Pandas 是一个开源的 Python 数据分析库,主要用于数据清洗、处理、探索与分析。其核心数据结构是(一维数据)和(二维表格数据),可以让我们高效地操作结构化数据。Pandas 提供了许多灵活且高效的数据操作方法,能够快速地进行数据筛选、聚合、转换和可视化,是数据科学和机器学习工作流中非常重要的一环。
2025-03-24 22:40:55
1977
原创 【PTA】线性表练习
已知一组数据,采用顺序存储结构存储,其中所有的元素为整数。给定一批严格递增排列的整型数据,给定一个x,若x不存在,则插入x,要求插入后保持有序。输入包含三行数据,第一行是表中元素个数,第二行是顺序表的各个元素,第三行是区间x和y。删除元素值在[x,y]之间的所有元素后,输出新的顺序表。第一个数是n值,表示链表中有n个数据。输出插入后的链表数据,以空格分开。输出n个整数,以空格分隔(最后一个数的后面没有空格)。在这里给出相应的输出。在这里给出相应的输出。在这里给出相应的输出。在这里给出相应的输出。
2023-06-07 22:01:05
1396
原创 【机器学习基础 3】 sklearn库
Scikit-learn(简称sklearn)是一个用于机器学习的Python库,它包含了许多常用的机器学习算法、预处理技术、模型选择和评估工具等,可以方便地进行数据挖掘和数据分析。Scikit-learn建立在NumPy、SciPy和Matplotlib之上。
2023-03-25 16:05:33
13374
1
原创 【机器学习基础 2】matplotlib库
matplotlib是一个用于绘制各种类型图表的Python绘图库,它以各种硬拷贝格式和跨平台的交互式环境生成出版质量级别的图形。它支持各种不同的图表类型,包括线图、散点图、条形图、饼图等。
2023-03-13 08:00:00
5962
原创 【机器学习基础 1】numpy库
NumPy(Numerical Python)是Python的一种开源的数值计算扩展。这种工具可用来存储和处理大型矩阵,比Python自身的嵌套列表(nested list structure)结构要高效的多(该结构也可以用来表示矩阵(matrix)),支持大量的维度数组与矩阵运算,此外也针对数组运算提供大量的数学函数库。(转自在开始之前,我们要知道numpy库在使用时,通常会简化为“np”(),因此我们会像这样:(接下来np即指numpy)
2023-03-11 11:30:14
904
原创 我的创作纪念日
不知不觉已经在CSDN待了有一年的时间……说到创作的机缘,我觉得是整理题解帮助他人的快乐以及与Python结下的孽缘,这些都推动着我在编程的海洋里遨游。但这些都不是重点,重要的是在这里结识到了许多编程领域的大佬们,跟着他们前进的足迹前行,总能少走许多弯路,同时受益良多。这段时间倒是有些断更了,临近期末,手头要处理的事也越发多。没能持续性创作,说明了我的时间分配尚有不足之处,希望假期能好好调整下。见证者,为见证而来;铭记者,因铭记而生。愿自己能始终保持最初的那份心,向更远的地方前进。
2022-11-26 09:50:17
251
2
原创 【Python基础入门6】Python的输入与运算符
Python中的sys.stdin.readline() 和 input() 输入方式 及 运算符的使用
2022-08-30 17:27:26
3606
原创 【Python】P1143 进制转换
共三行,第一行是一个正整数,表示需要转换的数的进制n(2≤n≤16),第二行是一个n进制数,若n>10则用大写字母A-F表示数码10-15,并且该n进制数对应的十进制的值不超过1000000000,第三行也是一个正整数,表示转换之后的数的进制m(2≤m≤16)。请你编一程序实现两种不同进制之间的数据转换。一个正整数,表示转换之后的m进制数。...
2022-08-19 09:02:38
531
空空如也
PTA练习 R7-7 猜数字*
2022-05-24
PTA练习 R7-4 h0034. 平方矩阵 II
2022-05-25
PTA&C语言的新猴子吃桃
2021-12-22
PTA&C语言的新猴子吃桃
2021-12-23
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅