NLP
文章平均质量分 81
向日葵花籽儿
AI工程师:
NLP+AIGC+LLM+后端+DB(向量/非向量)
深度学习/算法优化/基础提升
Python/C++/(Java/JS/HTML)
近期专注内容:RAG | Langchain
展开
-
#RAG | AIGC # RAG召回率提升的方法以及优劣势
RAG(Retrieval-Augmented Generation)是一种结合了检索(Retrieval)和生成(Generation)的模型,用于增强大型语言模型(LLMs)的性能。召回率(Recall)是衡量RAG系统性能的关键指标之一,它表示系统能够检索到的相关文档占所有相关文档的比例。:通过改进召回过程来提高从大规模语料库中检索与给定查询相关的文档的准确性和效率[:在召回过程中纳入查询和文档的上下文信息,可以更准确地判断文档与查询的相似度[原创 2024-05-22 15:06:37 · 2830 阅读 · 0 评论 -
#RAG#llm时代-RAG各模块痛点总结及解决办法,强化rag认知
RAG相关目前遇到的痛点及解决流程原创 2024-01-31 17:56:35 · 934 阅读 · 0 评论 -
#RAG|NLP|Jieba|PDF2WORD# pdf转word-换行问题
文档在生成PDF时,文宁都发生了什么。本文讲解了配置对象、resources对象和content对象的作用,以及字体、宇号、坐标、文本摆放等过程。同时,还解释了为什么PDF转word或转文字都是一行一行的以及为什么页眉页脚的问题会加大识别难度。最后提到了文本的编码和PDF中缺少文档结构标记的问题。PDF转word更像是一种逆向工程。原创 2024-01-31 17:32:00 · 1451 阅读 · 3 评论 -
#NLP|jieba分词词性对照
jieba词性对照表。原创 2024-01-30 17:13:35 · 769 阅读 · 0 评论 -
#资源#llm训练 获取数据集的网站
llm训练需要获取数据,互联网上会有一些别人开源的数据集,我们可以拿来即用原创 2024-01-27 11:43:28 · 442 阅读 · 0 评论 -
# AIGC应用 ## 深度学习#向量数据库知识问答前期操作:文档切割/文档向量/chatgpt + langchain| NLTK | BERT | text2vect |
本文是利用chatgpt + langchain| NLTK | BERT | text2vect |四种文档切割的效果测试研究,附上源码可以自己实践原创 2024-01-22 15:00:42 · 1306 阅读 · 0 评论 -
#RAG##AIGC#检索增强生成 (RAG) 基本介绍和入门实操示例
RAG 将信息检索组件与文本生成器模型相结合。RAG 可以进行微调,并且可以有效地修改其内部知识,而无需重新训练整个模型。原创 2024-01-15 15:21:47 · 1758 阅读 · 0 评论 -
#LLMOps##AIGC# Dify_构建本地知识库问答应用-生成Al应用的创新引擎 用于构建助手API和GPT的开源开发平台
Dify 使快速搭建生产级的生成式 AI 应用。即使你是非技术人员,也能参与到 AI 应用的定义和数据运营过程中。原创 2024-01-15 11:27:10 · 1891 阅读 · 0 评论 -
#AIGC##VDB# 【一篇入门VDB】矢量数据库-从技术介绍到选型方向
矢量数据库,为复杂数据应用铺开未知领域。无论是语义搜索、推荐引擎还是人工智能,它在高效处理高维数据、改进搜索和提升机器学习集成等方面发挥关键作用。探索矢量数据库,解锁数据的全新可能性。原创 2024-01-15 17:03:21 · 1356 阅读 · 0 评论 -
#AIGC##LLM##RAG# RAG:专补LLMs短板_减少LLM幻觉并多模态/RAG 技术最新进展
通过检索与生成目标相关的信息,来增强生成模型性能的技术。弥补LLMs“黑盒”导致的幻觉、信息来源单一、信息缺乏是时效性、模态单一、内容不透明不可追溯等短板。以便有效地控制成本并确保数据隐私的保护。原创 2024-01-15 10:22:16 · 1776 阅读 · 0 评论 -
#NLP|Chunking|RAG|AIGC#文档拆分(Chunking)方法全流程总结
在构建RAG这类基于LLM的应用程序中,分块(chunking)是将大块文本分解成小段的过程。当我们使用LLM embedding内容时,这是一项必要的技术,可以帮助我们优化从向量数据库被召回的内容的准确性。在本文中,我们将探讨它是否以及如何帮助提高RAG应用程序的效率和准确性。在向量数据库(如:Pinecone)中索引的任何内容都需要首先Embedding。分块的主要原因是尽量减少我们Embedding内容的噪音。例如,在语义搜索中,我们索引一个文档语料库,每个文档包含一个特定主题的有价值的信息。转载 2024-01-23 09:51:49 · 1728 阅读 · 0 评论 -
#NLP|TextRank #使用 TextRank 算法为文本生成关键字和摘要
TextRank算法基于PageRank,用于为文本生成关键字和摘要。转载 2024-01-25 11:12:57 · 204 阅读 · 0 评论 -
#NLP|文本生成#全网最全方法 一篇搞定文本摘要\关键字提取,包含SnowNLP|TextRank4ZH|大模型|TF-IDF
算法具体原理我会放在下一篇文章,本文重点在应用,这里不详细介绍了将每个句子看成图中的一个节点,若两个句子之间有相似性,认为对应的两个节点之间有一个无向有权边,权值是相似度。通过pagerank算法计算得到的重要性最高的若干句子可以当作摘要。智谱AI是一家诞生于清华大学计算机系,以技术转化成果为基础的公司,专注于研发和提供新一代的认知智能通用模型。ChatGLM,清华技术成果转化的公司智谱AI研发的支持中英双语的对话机器人。开发文档获取api-key。原创 2024-01-25 10:58:23 · 1757 阅读 · 0 评论