- 博客(228)
- 收藏
- 关注
原创 PostgreSQL表膨胀到崩溃?我用OpenTeleDB彻底解决了这个老大难问题
OpenTeleDB通过XStore的原位更新和XProxy的智能连接池,完美解决了传统PostgreSQL在高并发、频繁更新场景下的表膨胀和连接数瓶颈问题,为企业级应用提供了更高效、更稳定的数据库解决方案。在4核8G服务器上,OpenTeleDB以50并发连接在120秒内完成86万次多租户事务,实现了7,182 TPS的卓越性能和6.96ms的超低延迟,零失败率验证了XStore存储引擎在高频更新场景下的稳定性和高效性。从这个对比测试中可以看到,XStore实现了真正的原位更新,表大小没有任何变化。
2026-01-05 15:40:22
675
原创 用 openGauss DataVec 构建向量化知识库与 RAG:Python 实战 + gsql 操作全流程
摘要:本文介绍了使用openGauss构建RAG系统的实践过程。openGauss内置DataVec向量引擎,支持向量存储与语义检索,无需额外部署向量数据库。文章详细演示了环境配置步骤,包括Docker部署openGauss、Navicat连接测试、Python接口验证等核心环节。同时提供了gsql基础操作指南,涵盖数据库创建、表管理、数据CRUD等操作示例。通过openGauss的原生向量支持与Sentence-BERT结合,可高效实现知识检索与生成功能。实验环境采用CentOS 7.6、openGaus
2025-11-18 12:19:28
18862
原创 Cursor编程实战——用需求文档一站式生成爬虫+可视化代码
本文介绍了使用Cursor工具实现AI辅助编程的高效方法,通过实战项目演示如何通过需求文档一站式生成代码。主要内容包括:1)Cursor的安装与登录;2)通过编写需求文档(以豆瓣电影Top100爬虫与可视化项目为例)自动生成详细的项目规划;3)生成的需求文档包含项目背景、技术栈、目录结构、功能需求(爬虫、数据存储、可视化)和非功能性需求等完整内容。相比传统Copilot的分段迭代方式,Cursor能够基于完整需求文档生成更系统化的代码解决方案,显著提高开发效率。文章还展示了自动生成的需求文档样例,涵盖项目各
2025-11-17 18:50:32
2077
原创 openGauss × AI:打造一个能识图、能讲解、还能推荐的智慧博物馆导览师
本文介绍了基于openGauss数据库和AI技术构建智慧博物馆导览系统的实践方案。系统利用openGauss的原生向量支持(DataVec)、智能自调优引擎(DBMind)等特性,存储藏品信息并实现高效检索。通过Python连接数据库,将文物图片转化为向量嵌入,结合Gradio构建交互界面,实现图片检索、智能讲解等功能。该系统展示了openGauss在AI应用中的优势,包括统一处理结构化与非结构化数据、支持高性能向量检索等特点,为博物馆数字化转型提供了创新解决方案。
2025-11-13 10:44:02
6522
原创 一次数据库“翻身仗”:我用 openGauss 打造 AI 向量知识库的周末实录
本文记录了作者在构建RAG知识库过程中,针对不同数据库方案的实践与评测。作者先后尝试了PgVector、Elastic+KNN和Milvus方案,均遇到性能、成本或运维问题。最终选择测试openGauss数据库,发现其原生支持向量检索和AI优化特性,并提供了DataVec扩展。文章详细演示了openGauss的Docker部署、DataVec插件安装以及向量存储实现,通过Python代码展示了完整的RAG系统开发流程,包括文本嵌入生成、向量存储和检索功能。测试结果表明,openGauss在向量相似度检索上的
2025-11-13 10:43:11
6698
原创 探索仓颉编程语言:从Hello World到性能实战
仓颉编程语言是一款面向全场景开发的现代编程语言,具备高效编程、安全可靠、轻松并发和卓越性能等特性。本文介绍了仓颉的安装方法,通过Hello World示例展示其基本语法,并与Python进行了性能对比测试。在计算密集型任务中,仓颉展现出6倍以上的性能优势,同时内存占用减少73%。虽然Python在开发便捷性上仍有优势,但仓颉凭借静态类型系统、本地代码编译等特性,为高性能应用开发提供了新选择。
2025-11-10 18:43:13
910
原创 零代码构建TikTok视频分析Agent:Dify与Bright Data MCP的完美融合
Dify:AI应用的“组装车间”它是什么?一个开源的、用户友好的平台,让你通过可视化界面(点点鼠标、填填表单)就能构建、部署和管理AI应用。你不需要关心复杂的模型训练和API调用,Dify帮你搞定一切。扮演的角色:在我们这个项目中,Dify是大脑和指挥中心。它负责接收你的问题(Prompt),协调各个步骤,并最终生成答案。Bright Data MCP Server for TikTok:专业的“数据抓手”MCP是什么?
2025-09-17 14:40:52
1399
原创 Plt画图中文显示问题:findfont: Generic family ‘sans-serif‘ not found because none of the following families w
在用matplotlib画图出现findfont: Generic family ‘sans-serif’ not found because none of the following families were found: SimHei。如果还是不行,打开/home/username/.cache/matplotlib/fontlist-v390.json查看SimeHei.ttf路径即可。:手动下载SimHei.ttf字体上传。
2025-08-19 19:13:24
642
2
原创 CVPR2024最佳论文奖候选 场景图建立工作EGTR复现(附可视化代码)
主要参考官方的代码仓库进行环境配置egtr,创建一个conda环境:clone官方的代码库:安装需要的第三方包及依赖库,pytorch-lightning版本需要改成1.9.4,其他不变。二、下载需要的数据集和模型项目支持 和这两个数据集,这篇博客以为例,下载地址如下:Visual Genomew,按照教程分别下载Part1、Part2和COCO-format文件,文件不是很大,本地下载后上传到服务器上即可。解压后组织成如下的格式:下载需要的模型,需要下载两个模型,一个是骨干模型,另外的一个是在
2025-08-14 09:42:06
987
原创 linux运行clear命令报错terminals database is inaccessible
在 Conda 环境中安装 ncurses。
2025-08-13 16:47:26
6114
原创 非root用户在linux中配置zsh(已解决ncurses-devel报错)
下载最新版本的zsh,可以从这个链接看最新的zsh版本是什么download zsh,点击就会下载最新的zsh,看看后面的版本号是什么,我这里是5.9,下面就下载5.9的,如果是其他版本的话,记得一起改。解压下载后文件编译文件这时候报错:(如果没有报错,可以直接跳到安装on my zsh)解决方案:先配置好环境变量:配置好环境变量后,安装最新版本的ncurses,可以点击ncurses download查看最新版本,我这里是6.5,如果有更新的版本记得修改。配制好环境安装好ncu
2025-08-13 15:23:19
1031
2
原创 Error while loading conda entry point: conda-content-trust (OpenSSL 3.0‘s legacy provider failed to
这个错误是由于 OpenSSL 3.0 的遗留(legacy)提供程序未能加载导致的。OpenSSL 3.0 默认禁用了某些旧的加密算法(如 MD5、SHA1 等),而 conda-content-trust 或其依赖的 cryptography 库可能尝试调用了这些旧算法,从而触发了这个错误。
2025-08-04 14:57:27
529
原创 RuntimeError: Tried to instantiate class ‘_core_C.ScalarType‘, but it does not exist! Ensure that it
使用Vllm起模型的时候报错RuntimeError: Tried to instantiate class '输入查看vllm需要哪个版本的torch。原因:vllm与torch版本不匹配。pip 重新安装即可。
2025-07-29 19:12:36
332
原创 ImageRAG复现已跑通(含免费OpenAI API key申请方法)
可以看到对于“非洲灰鹦鹉”这个没有出现的概念时,生成模型不能很好地生成,但是使用RAG检索到相应的鹦鹉图片后,生成模型生成的会更符合要求。需要下载stable-diffusion-xl-base-1.0和IP-Adapter两个模型。使用conda创建虚拟环境,注意把environment.yml。这里申请的免费OpenAI API key在其他地方还是能用的。耐心等待下载完成即可。
2025-07-24 17:13:25
878
2
原创 什么是GCN?GCN与GNN有哪些区别?
图卷积网络(GCN)是图神经网络(GNN)家族中的代表性模型,专门用于处理图结构数据。本文系统性地介绍了:1) GNN的基本原理与通用计算框架;2) GCN的谱域理论基础和层级传播机制;3) 两者的核心区别在于理论来源(谱图理论vs通用框架)、信息聚合方式(固定加权平均vs可自定义)和表达能力;4) 不同场景下的选型建议,其中GCN适合快速开发中小规模同构图,而其他GNN变体更适合复杂异构图;5) 通过PyTorch代码示例展示GCN实现,并展望了动态图、可解释性等前沿方向。理解二者的区别有助于在实际应用中
2025-07-22 21:46:36
1930
原创 什么是GNN?——聚合、更新与循环
图神经网络(GNN)专为图结构数据设计,通过聚合邻居信息→更新节点状态→多层循环传播的核心流程学习节点表示。聚合阶段(如均值、求和)收集邻居特征,更新阶段融合自身与邻居信息,多层堆叠使信息远距离传播。GNN在节点分类、链接预测等任务中表现优异,但面临过度平滑、计算效率等挑战。其显式利用图拓扑的能力,使其在社交网络、推荐系统等领域具有独特优势,成为处理关系数据的强大工具。
2025-07-21 22:04:11
1696
原创 ImportError: cannot import name ‘Markup‘ from ‘jinja2‘
【代码】ImportError: cannot import name 'Markup' from 'jinja2'
2025-04-16 10:57:58
339
原创 pip install 出现 error: subprocess-exited-with-error 错误的方法
【代码】pip install 出现 error: subprocess-exited-with-error 错误的方法。
2025-04-16 10:54:54
254
原创 ImportError: cannot import name ‘Geo‘ from ‘pyecharts‘
ImportError: cannot import name ‘Geo‘ from ‘pyecharts‘
2025-04-15 15:22:57
219
原创 error: RPC failed; HTTP 408 curl 22 The requested URL returned error: 408
将本地 http.postBuffer 数值调整到500MB,可以根据自己的需求设置。:可能是推送的文件太大,要么是缓存不够,要么是网络不行。再次git push成功。
2025-04-09 15:46:44
1211
原创 亮数据——无代码快速爬取数据并做可视化
当需要数据收集时,人们往往会想到爬虫技术。通过代码模拟人点击鼠标的过程,向服务器发送请求,再解析获得的响应,从而收集到想要的数据。但是对于没有接触过爬虫的同学来说,想要写好一段爬虫代码是很困难的,尤其是要爬取的网页有一些反爬机制的时候,就更加难写。今天给大家推荐一款无代码的数据爬取工具——亮数据
2025-03-28 10:14:33
910
原创 Nano-GraphRAG复现——只使用Ollama,无需API Key
在微软GraphRAG复现过程中,因其复杂的程序和源代码的错误,导致很难复现。因此,github中出现了graphrag的平替版本——NanoGraphRAG,该项目提供了一个更小、更快、更干净的 GraphRAG,同时保留了核心功能。** 但是很多小伙伴困扰于没有OpenAI的API key,因此本文介绍了如何使用Ollama跑通Graphrag,只需简单的操作即可!欢迎点赞收藏!
2025-03-06 19:09:55
976
5
原创 快速离线配置新版vscode-server,绝对避雷!
当生产环境是离线的时候,vscode-server没法自动下载配置,这就需要手动配置.下面,跟着本篇博客带你轻松配制好新版的vscode-server.觉得有帮助的小伙伴可以点个收藏和赞哦!
2025-02-24 10:02:50
2922
原创 PageRank代码实战——水浒传人物重要度排序与可视化
在数据分析和网络科学中,然而,PageRank不仅仅适用于网页排名,它还可以用于分析其他类型的网络结构,比如社交网络、引用网络,甚至是小说中的人物关系网络。在这篇博客中,我们将使用PageRank算法来分析《水浒传》中的人物关系,并对人物的重要性进行排序和可视化。
2025-02-21 14:49:35
974
原创 Jupyter Notebook报错500 : Internal Server Error/ImportError: cannot import name ‘Self‘ from ‘typing_ex
Jupyter Notebook的问题,已经成功解决,下面跟随这篇博客进行Debug吧!然后就可以正常打开啦!
2025-02-20 18:10:31
543
原创 DeepSeek r1+RAG:基于langchain实现RAG系统
在人工智能蓬勃发展的当下,大语言模型的应用越来越广泛。然而,如何让大模型更加智能,能够结合特定的知识给出更准确的回答,成为了许多开发者关注的焦点。今天,我们就来探讨一下如何基于 langchain 实现一个强大的 RAG 系统,并结合 DeepSeek 模型!
2025-02-19 18:33:19
1266
原创 2024年度总结——理想的风,吹进现实
2024年悄然过去,留下了太多美好的回忆,不得不感慨一声时间过得真快啊!旧年风雪尽,新岁星河明。写下这篇博客,记录我独一无二的2024年。如果用一句话总结这一年,我想用的是,如果用三个词总结这一年,我想用的是。这一年,结束了我的大三下和大四上时光,成功保研到了,离家更近了一些。这一年,我拿到了,圆了大学的梦想。这一年,我,留下了自己的身影。这一年,我,甚至会为一场球赛热泪盈眶。这一年,我更加明白,明白家是心灵的港湾。
2025-01-26 19:50:27
2278
25
原创 Docker与虚拟机的区别及常用指令详解
Docker和虚拟机各有优缺点,选择哪种技术取决于具体的应用场景和需求。Docker以其轻量级和快速部署的特性,在现代开发中得到了广泛应用。通过掌握Docker的常用指令,开发者可以更高效地管理和部署应用程序。希望本文能帮助你更好地理解Docker与虚拟机的区别,并在实际工作中灵活运用Docker技术。
2025-01-14 18:14:49
1069
转载 FlashAttention的原理及其优势
FlashAttention 是一种高效且内存优化的注意力机制实现方法,通过分块计算和内存访问优化,显著降低了注意力机制的计算开销。它不仅适用于现有的Transformer模型,还为未来更大规模的模型提供了可能性。随着深度学习模型的不断扩展,FlashAttention 将成为解决计算和内存瓶颈的重要工具。
2025-01-13 17:24:55
1779
原创 为什么Transformer使用LayerNorm而不是BatchNorm?
在深度学习的Transformer架构中,有一个有趣的细节是它使用了Layer Normalization()而非Batch Normalization(这两种归一化方法在不同的神经网络架构中都发挥着重要的作用,但为什么Transformer选择了LayerNorm呢?让我们来一探究竟。
2025-01-13 17:16:08
1633
原创 什么是大模型复读机问题:原因和解决方案
复读机问题是大语言模型生成文本时的一种常见现象。重复相同的词语或短语。反复表达相同的意思,尽管用词可能略有不同。在长文本生成中,模型忘记之前的内容,重新生成相似段落。例如,当用户向模型提问“如何提高写作能力?”时,模型可能会反复强调“多读书”或“多练习”,而缺乏更深层次的建议。这种现象不仅降低了生成文本的质量,还可能让用户感到困惑或不耐烦。复读机问题是大语言模型在文本生成过程中面临的一个重要挑战。其成因复杂,涉及训练数据、解码策略、模型架构等多个方面。
2025-01-11 15:51:00
1853
原创 为何SFT之后模型反而变傻了,有什么解决方案?
在当今的人工智能领域,SFT(Supervised Fine - Tuning)是提升模型性能以适应特定任务的常用手段。然而,不少开发者都遭遇过一个头疼的问题:模型经过SFT后,表现不但没有提升,反而“变傻”了。今天咱们就来深入探讨一下这背后的原因以及行之有效的解决方案。
2025-01-11 15:50:45
1827
原创 Prefix LM 和 Causal LM 区别是什么?
Causal LM是严格单向的,只能利用前面的词,适合纯生成任务(如 GPT)。Prefix LM允许前缀部分双向编码,适合需要结合上下文的任务(如 T5、BART)。虽然两者都基于前面的内容预测后续内容,但Prefix LM对前缀的处理更灵活,能够利用更多的上下文信息。希望这篇博客能帮助你更好地理解Prefix LM和Causal LM的区别!如果还有疑问,欢迎继续讨论!
2025-01-10 08:40:53
1519
原创 RAG项目实战——基于Llamaindex微调BGE Embedding模型(附完整源码和转化好的数据集下载)
RAG模型通过结合检索和生成两个步骤来回答问题。首先,模型从大量文档中检索出与问题相关的文档片段,然后基于这些片段生成最终的回答。检索步骤的准确性直接影响到生成步骤的效果,而检索的准确性又依赖于嵌入模型的质量。嵌入模型的作用是将文本转换为向量表示,使得语义相似的文本在向量空间中距离较近。然而,通用的预训练嵌入模型可能无法很好地适应特定领域或任务的需求。因此,通过对嵌入模型进行微调,可以使其更好地适应特定的任务和数据集,从而提高检索的准确性。
2025-01-10 08:40:36
2015
原创 多模态RAG项目实战——结合CLIP与MLLM实现图像检索与理解(附源码、数据集下载和模型下载方式)
多模态图文检索实战——基于CLIP实现图文检索系统(附源码):生成文本嵌入。:从本地路径读取图像并生成图像嵌入。:计算两个向量之间的余弦相似度。:计算查询与候选图像之间的相似度,并返回最匹配的图像。:批量生成候选图像的嵌入。# 函数:生成文本嵌入try:# 从本地路径读入图片。
2025-01-09 14:11:25
3597
原创 卷积参数量和计算量怎么计算?
在深度学习领域,卷积操作是非常重要且常用的一种运算方式,了解其参数量和计算量的估计方法对于模型的设计、优化以及资源评估等方面都有着关键的意义。
2025-01-09 09:50:46
1457
原创 大模型实战——基于langchain实现AdvanceRAG(附完整源代码、包括Query改写、Prompt、Reranker重排)
通过本文,我们详细介绍了AdvanceRAG的工作流程,包括Query改写、使用集成检索器进行文档检索、通过CrossEncoder进行文档重排以及最终使用LLM生成回答。这一流程展示了如何利用先进的自然语言处理技术,实现高效、准确的信息检索与回答生成。希望本文能帮助你更好地理解并应用AdvanceRAG技术,解决实际的自然语言处理任务。希望大家喜欢,我们下篇博客再见!
2025-01-08 17:13:42
2367
原创 什么是隐马尔可夫模型?
隐马尔可夫模型(Hidden Markov Model,HMM)是一种统计模型,用于描述一个含有隐含未知参数的马尔可夫过程。它由两个部分组成:一个是隐藏的马尔可夫链,其状态不能被直接观察到;另一个是与隐藏状态相关的可观察的输出序列。简单来说,它可以根据已知的观测序列来推测隐藏的状态序列。
2025-01-08 10:22:52
1193
原创 多模态图文检索实战——基于CLIP实现图文检索系统(附源码)
利用CLIP模型实现图文检索为我们在多媒体数据处理等诸多领域提供了很大的便利,比如在图像搜索引擎、内容推荐系统等方面都有着广阔的应用前景。这也是RAG最核心的部分可以说这是多模态RAG的一个简单尝试,在实际应用中,我们还可以进一步优化模型参数、增加更多的图片和文本数据进行训练、改进相似度计算的策略等,来不断提升图文检索的准确性和效率,希望这篇博客能够帮助大家对利用CLIP实现图文检索有一个初步的了解和实践思路哦。
2025-01-07 18:44:01
3315
2
LLM八股文知识点集合
2025-02-26
全国大学生学科竞赛全览-涵盖多项领域及具体实施细则
2025-02-26
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅