自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(570)
  • 资源 (9)
  • 收藏
  • 关注

原创 从零搭建机器学习平台Kubeflow

来自官网的一段介绍: Kubeflow 项目致力于使机器学习 (ML) 工作流在 Kubernetes 上的部署变得简单、可移植和可扩展。Kubeflow的目标不是重新创建其他服务,而是提供一种直接的方法,将用于 ML 的同类最佳开源系统部署到不同的基础设施中。在任何运行 Kubernetes 的地方,开发者都应该能够运行 Kubeflow。从官网这段介绍可以看出,Kubeflow与Kubernetes是形影不离的。

2022-12-25 03:59:33 9130 5

原创 Python人工智能之图片识别,Python3一行代码实现图片文字识别

自学Python3第5天,今天突发奇想,想用Python识别图片里的文字。没想到Python实现图片文字识别这么简单,只需要一行代码就能搞定#作者微信:2501902696from PIL import Imageimport pytesseract#上面都是导包,只需要下面这一行就能实现图片文字识别text=pytesseract.image_...

2017-09-20 14:15:00 23796

原创 Python爬虫系列(三)多线程爬取斗图网站(皮皮虾,我们上车)

斗图我不怕最近看了Python多线程的相关内容,并且前几天观看了腾讯课堂潭州学院上面的关于斗图网爬取的公开课,课程内容大致是利用Python多线程爬取斗图(多页),并将图片保存到本地。自己写这篇文章总结下这个项目的所涉及的知识,并将实现过程分享给大家。首先:分析网站,找到图片的src地址打开网址:https://www.doutula.com/a

2017-05-06 17:05:54 7512 20

原创 Python爬虫系列(一)初期学习爬虫的拾遗与总结

最近,为了提取裁判文书网的有关信息,自己迈入Python的学习之路,写了快两周的代码,自己写这篇文章总结下踩过的坑,还有遇到一些好的资料和博客等总结下,以便自己后期复习和参考和、分享给大家交流学习,也欢迎大家补充些精彩内容。一、环境搭建和工具准备1、为了省去时间投入学习,推荐直接安装集成环境 Anaconda2、IDE:Pycharm、Pydev3、工具:Jup

2017-04-16 20:22:01 2642

原创 【GoMate框架案例】讯飞大模型RAG智能问答挑战赛top10 Baseline

【RAG框架】GoMate:RAG Framework within Reliable input,Trusted output【项目链接】:https://github.com/gomate-community/GoMate。

2024-09-10 16:24:29 593

原创 基于MinerU的PDF解析API

基于MinerU的PDF解析API

2024-09-07 01:34:45 710 2

原创 【保姆级教程】如何在Win11上搭建一个GPU环境

然后添加环境变量,鼠标右键此电脑 => 属性 => 高级系统设置 => 环境变量,将CUDA的安装目录添加到CUDA_PATH变量中。:https://developer.nvidia.com/cuda-downloads,图片下载的是。默认情况下,安装的 Linux 分发版为 Ubuntu。我们将文件夹覆盖到上面的CUDA安装目录下,比如我的CUDA的安装目录是。,将压缩包内对应的文件夹复制到bin、include、lib目录下即可。将 替换为要安装的发行版的名称。,能够正确显示各种信息就安装完成了。

2024-09-03 22:06:26 476 2

原创 IJCAI-信也科技杯全球AI大赛-华东师范大学亚军队伍分享

这是我们首次参加语音领域的比赛,最初只是抱着试一试的心态,想借此机会打磨一下DL的基本功。凭借一点点运气,我们最终斩获了亚军。同时,我们也有幸向包括来自小米AI实验室的冠军团队在内的众多优秀团队学习,收获颇丰。非常庆幸能在如此大规模的语音比赛中拿到名次,我们也在IJCAI workshop (2024) 中分享了方案(还见到了周志华大佬,非常激动)。接下来,我们将从语音领域初学者的视角,分享一些在比赛中的方案与心得,希望能为大家带来一些启发,也期望能激励更多人工智能爱好者勇敢参与比赛,探索更多的可能性。

2024-09-02 14:34:04 1278

原创 【RAG数据集】中文信息检索数据集整合

信息检索数据集

2024-09-02 10:44:35 557

原创 【RAG论文】HyDE:Precise Zero-Shot Dense Retrieval without Relevance Labels

这篇文章主要做zero-shot场景下的稠密检索,通过借助LLM的力量不需要Relevance Labels,开箱即用。作者提出Hypothetical Document Embeddings (HyDE)方法,即“假设”文档嵌入。具体的做法是通过GPT生成虚构的文档,并使用无监督检索器对其进行编码,并在其嵌入空间中进行搜索,从而不需要任何人工标注数据。模型结构如下图所示,HyDE将密集检索分解为两个任务,即 instruction-following的LM生成任务和对比编码器执行的文档相似性任务。

2024-06-26 23:49:10 556

翻译 【RAG入门教程05】Langchian框架-Vector Stores

向量存储是一种专门用于存储和管理向量嵌入的数据库。向量存储旨在高效处理大量向量,提供根据特定标准添加、查询和检索向量的功能。它可用于支持语义搜索等应用程序,在这些应用程序中,您可以查找与给定查询在语义上相似的文本段落或文档。嵌入向量是文本的数字表示,可以捕捉文本的内容和含义。内容和含义相似的文本会具有相似的向量,也就是说,它们在嵌入空间中的向量之间的距离会很小。例如,“猫在沙发上睡觉”和“小猫在沙发上打盹”这两个句子的单词不同,但含义相似。

2024-06-09 23:13:34 280

原创 【RAG入门教程04】Langchian的文档切分

在 Langchain 中,文档转换器是一种在将文档提供给其他 Langchain 组件之前对其进行处理的工具。通过清理、处理和转换文档,这些工具可确保 LLM 和其他 Langchain 组件以优化其性能的格式接收数据。上一章我们了解了文档加载器,加载完文档之后还需要对文档进行转换。

2024-06-09 23:05:19 2300 1

原创 【RAG入门教程03】Langchian框架-文档加载

Langchain 使用文档加载器从各种来源获取信息并准备处理。这些加载器充当数据连接器,获取信息并将其转换为 Langchain 可以理解的格式。LangChain 中有几十个文档加载器,可以在这查看https://python.langchain.com/v0.2/docs/integrations/document_loaders/

2024-06-09 22:46:56 985

原创 【RAG入门教程02】Langchian的Embedding介绍与使用

词向量是 NLP 中的一种表示形式,其中词汇表中的单词或短语被映射到实数向量。它们用于捕获高维空间中单词之间的语义和句法相似性。在词嵌入的背景下,我们可以将单词表示为高维空间中的向量,其中每个维度对应一个特定的特征,例如“生物”、“猫科动物”、“人类”、“性别”等。每个单词在每个维度上都分配有一个数值,通常在 -1 到 1 之间,表示该词与该特征的关联程度。

2024-06-09 22:18:47 490

原创 【RAG入门教程01】Langchian框架 v0.2介绍

迁移文档:https://python.langchain.com/v0.2/docs/versions/v0_2/langchain v0.2导入方式发生了变化,具体模块可以参考以下API文档。

2024-06-09 21:27:42 1140

原创 【RAG提升技巧】查询改写HyDE

提高 RAG 推理能力的一个好方法是添加查询理解层 ——在实际查询向量存储之前添加查询转换。路由:保留初始查询,同时查明其所属的适当工具子集。然后,将这些工具指定为合适的选项。查询重写:维护选定的工具,但以多种方式重新编写查询,以将其应用于同一组工具。子问题:将查询分解为几个较小的问题,每个问题针对由其元数据确定的不同工具。ReAct Agent 工具选择:根据原始查询,确定要使用的工具并制定要在该工具上运行的特定查询。

2024-06-06 23:45:55 753

原创 【RAG入门必备技能】Faiss框架使用与FaissRetriever实现

faiss是一个Facebook AI团队开源的库,全称为Facebook AI Similarity Search,该开源库针对高维空间中的海量数据(稠密向量),提供了高效且可靠的相似性聚类和检索方法,可支持十亿级别向量的搜索,是目前最为成熟的近似近邻搜索库官方资源地址https://github.com/facebookresearch/faiss。

2024-06-05 23:33:09 1230

原创 BM25算法以及变种算法简介

Okapi BM25,一般简称 BM25 算法,在 20 世纪 70 年代到 80 年代,由英国一批信息检索领域的计算机科学家发明。这里的 BM 是 “最佳匹配”(Best Match)的缩写,Okapi 是第一个使用这种方法的信息获取系统的名称。在信息检索领域,BM25 算法是工程实践中举足轻重的重要的 Baseline 算法。迄今为止距 BM25 的提出已经过去三十多年,但是这个算法依然在很多信息检索的任务中表现优异,是很多工程师首选的算法之一。

2024-06-04 17:33:37 1559

原创 BM25Retriever检索器实现

原理下一篇讲,先贴出代码。

2024-06-01 23:52:45 565

原创 tree2retriever:面向RAG场景的递归摘要树检索器实现

面向RAG场景的递归摘要树检索器实现运行日志如下:

2024-05-30 21:41:36 374

原创 【RAG论文】文档树:如何提升长上下文、非连续文档、跨文档主题时的检索效果

使用LLM来总结每个簇(cluster)中所有chunks生成捕获关键信息的简明摘要实验中使用gpt-3.5-turbo来生成摘要。尽管摘要模型通常产生可靠的摘要,但是会有大约4%的摘要包含轻微的幻觉。这些幻觉没有传播到父节点,并且对问答任务没有可辨别的影响。重复 steps 2-5: 重新嵌入摘要,集群节点,生成更高级别的摘要从下向上形成多层树直到聚类不可行在不同层次的多个级别上构建了语义表示并实施嵌入,提高了检索的召回能力。

2024-05-29 21:46:26 1255

原创 【RAG论文】检索信息中的噪音是如何影响大模型生成的?

从相关文档的位置应靠近查询,否则模型很难关注到它。与查询语义相关但不包含答案文档对RAG系统极为有害,后续研究应该想办法从检索到的文档中剔除这些干扰项。与预期相反,无关的噪声文档在正确放置时有助于RAG提高系统的准确性。论文代码:https://github.com/florin-git/The-Power-of-Noise。

2024-05-27 16:07:52 1394

原创 【RAG论文】RAG中半结构化数据的解析和向量化方法

论文题目:论文链接:代码:这篇论文提出了一种新方法,用于解析和向量化半结构化数据,以增强大型语言模型(LLMs)中的检索增强生成(RAG)功能。但是读下来感觉并不是很“新”,基本是常见文本解析的流程,不过通过论文效果图看起来不同文件解析效果还可以,并且公开了源码,大家可以借鉴下。

2024-05-12 18:44:48 859

原创 【中科院计算所】WSDM 2024冠军方案:基于大模型进行多文档问答

对话式问答旨在根据对话中识别的用户意图生成正确且有意义的答案,在现代搜索引擎中发挥着至关重要的作用和对话系统。然而,这仍然具有挑战性,特别是对于当前或趋势主题,因为在语言模型的训练阶段无法获得及时的知识。尽管提供多个相关文档作为上下文信息似乎可行,但该模型仍然面临着被大量输入淹没或误导的风险。基于来自小红书的真实文本数据,WSDM Cup 20241提出了“对话式多文档QA”的挑战,以鼓励对问题的进一步探索。最近,ChatGPT 等大模型在多项自然语言处理任务上表现出了令人印象深刻的性能。

2024-02-29 22:25:45 1559

原创 千帆杯第二期赛题:贺岁灵感模型

报名链接:https://cloud.baidu.com/qianfandev/aimatch?

2024-02-14 12:16:54 957

原创 vllm的SamplingParams参数

【代码】vllm的SamplingParams参数。

2024-02-02 22:20:17 3307

原创 千帆杯AI原生应用开发挑战赛,每期10万,等你而战!

随着大模型技术的飞速发展,2024年将会成为AI原生应用爆发的元年,引领千行百业的创新变革。在这一时代背景下,百度智能云重磅推出千帆杯·AI原生应用开发挑战赛,旨在激发广大开发者的创意潜能,推动AI原生应用在中国市场的蓬勃发展。大赛以“创意无限·生成未来”为主题,紧密围绕当前AI技术的前沿动态和应用趋势,借助百度智能云千帆AppBuilder和ModelBuilder两大智能开发助手,鼓励参赛者打造出更多具有创新性、实用性和社会价值的AI原生应用。

2024-01-29 21:40:31 523

原创 500行Python代码构建的AI搜索工具!

后端是Mixtral-8x7b 模型,托管在 LeptonAI 上,输出速度能达到每秒大约200个 token,用的搜索引擎是 Bing 的搜索 API。一个500行Python代码构建的AI搜索工具,而且还会开源,试了一下麻雀虽小该有的都有。(2) 适当加入一些虚构内容实际上有助于补充摘要片段中缺失的“常识性信息”。(1) 搜索质量至关重要。优质的摘要片段是形成精准概括的关键。(3) 在进行内容概括时,开源模型表现出了卓越的效果。

2024-01-27 00:45:30 607

转载 【隐私保护】Presidio实现PII匿名化

当我们将PII匿名化应用于现实世界的应用程序时,可能会有不同的业务需求,这使得直接使用预训练的模型具有挑战性。例如,想象一下,挪威的一家公司联系你,希望你为他们开发一个文本匿名器。他们希望它支持英文和挪威文中的匿名PII。除了常见的PII实体外,您还需要检测遵循某些校验和规则的挪威国民身份证号码。预先训练的NER模型很好,但如果不使用额外的标记数据来微调模型以获得良好的性能,就无法轻松添加新的实体类型。因此,有一个工具可以利用预先训练的模型,并且很容易定制和扩展功能,这是很好的。

2024-01-25 23:54:48 293

原创 【推荐】️大模型课程,免费开源!

课程链接:https://github.com/mlabonne/llm-course。

2024-01-22 22:26:20 622

原创 推荐两个工具:DeepSpeed-FastGen和DataTrove

为了更好地理解问题空间,我们提供了详细的示例,说明LLM文本生成如何在两个不同的阶段(称为提示处理和生成)工作。虽然 DeepSpeed、PyTorch 等框架可以在 LLM 训练期间定期实现良好的硬件利用率,但这些应用程序的交互性和开放式文本生成等任务的较差算术强度已成为现有系统中推理吞吐量的瓶颈。DeepSpeed官方推出 DeepSpeed-FastGen,该系统通过利用所提出的动态 SplitFuse 技术克服了这些限制,与 vLLM 等最先进的系统相比,有效吞吐量提高了 2.3 倍。

2024-01-20 23:44:31 767

原创 使用KTO进行更好、更便宜、更快速的LLM对齐

KTO全称为Kahneman-Tversky Optimisation,这种对齐方法使在我们的数据上对大型语言模型(LLM)进行对齐变得前所未有地容易和便宜,而且不会损害性能。大型语言模型的成功在很大程度上得益于与人类反馈的对齐。如果ChatGPT曾经拒绝回答您的问题,很可能是因为它被训练为避免说出有争议的内容。然而,对于公司来说,对他们自己的LLM进行对齐一直是困难的。下面我们简单介绍下KTO方法,这种方法可以提高LLM的整体性能和质量,同时节省成本。

2024-01-19 23:48:20 4074

原创 RLHF 和 DPO:简化和增强语言模型的微调

人类反馈强化学习 (RLHF) 是人工智能领域的一种前沿方法,它利用人类偏好和指导来训练和改进机器学习模型。RLHF的核心是一种机器学习范式,它结合了强化学习和监督学习的元素,使人工智能系统能够以更加人性化的方式学习和做出决策。RLHF的重要性在于它有可能解决人工智能中的一些基本挑战,例如需要模型来理解和尊重人类的价值观和偏好。传统的强化学习模型通过与环境交互产生的奖励来学习,而 RLHF 则不同,它引入了人类反馈作为宝贵的指导来源。

2024-01-16 22:30:16 2636

原创 RAG常见七大坑

Meta AI 的研究人员引入了一种叫做检索增强生成(Retrieval Augmented Generation,RAG)的方法来完成这类知识密集型的任务。RAG 把一个信息检索组件和文本生成模型结合在一起。RAG 可以微调,其内部知识的修改方式很高效,不需要对整个模型进行重新训练。RAG 会接受输入并检索出一组相关/支撑的文档,并给出文档的来源(例如维基百科)。这些文档作为上下文和输入的原始提示词组合,送给文本生成器得到最终的输出。这样 RAG 更加适应事实会随时间变化的情况。

2024-01-15 22:14:14 1157

原创 大模型关于Lora论文集合

COLA 采用残差学习过程,将学习到的 LoRA 模块合并到预先训练的语言模型参数中,并重新启动对新诞生的 LoRA 模块的优化。在实验中,与由 9 个专家组成的不带注意层适配器的 MixLoRA 模型相比,由 8 个具有注意层适配器的专家组成的 MixLoRA 模型表现出更快的损失减少速度。但是,需要注意的是,这些模型必须基于相同的预训练模型。MixLora地址:https://github.com/TUDB-Labs/multi-lora-fine-tune/blob/main/MixLoRA.md。

2024-01-11 21:57:05 1364

原创 【LLM 论文阅读】NEFTU N E: LLM微调的免费午餐

在Alpaca-NEFT回复中,该模型提供了一个更流畅的答案,对这些主题,更清晰的解释了叠加和量子纠缠,并提到了潜在的应用。然而,性能的提高没有全面微调的明显。然而,在NEFTune中,我们看到了相当大的额外性能增长10%,尽管我们注意到这个检查点模型的一些功能可能会受到影响,比如它避免输出有毒行为的能力。在本文中,我们提出在微调正向传递的过程中,在训练数据的嵌入向量中添加随机噪声,论文实验显示这个简单的技巧可以提高指令微调的效果,通常有很大的优势,而不需要额外的计算或数据开销。

2024-01-09 23:28:27 1480

原创 大模型生成解码参数速查

https://huggingface.co/docs/transformers/main_classes/text_generation

2024-01-08 23:18:40 506

原创 通义千问 - Code Qwen能力算法赛道季军方案

Human Eval- HumanEval是一个用于评估代码生成模型性能的数据集,由OpenAI在2021年推出。这个数据集包含164个手工编写的编程问题,每个问题都包括一个函数签名、文档字符串(docstring)、函数体以及几个单元测试。这些问题涵盖了语言理解、推理、算法和简单数学等方面。这些问题的难度也各不相同,有些甚至与简单的软件面试问题相当。这个数据集的一个重要特点是,它不仅仅依赖于代码的语法正确性,还依赖于功能正确性。也就是说,生成的代码需要通过所有相关的单元测试才能被认为是正确的。

2024-01-07 11:59:59 1900

原创 百度智能云千帆大模型平台黑客马拉松报名开启!

创造是生成式 AI 的核心。无论是智能导购带来的线上购物体验升级,还是主图生成带来的素材生产效率提升,又或是游戏场景的快速设置、智能 NPC 的全新交互、数字广告的精准推荐和个性化定制,亦或者是为学生提供更符合真实的口语练习环境,生成式 AI 这一人工智能的范式升级,正在深入产业,引领效能革命。

2023-11-01 16:53:08 1422

原创 记录一次“top负1”比赛经历

自己在复现方案里面如实提到了,也不是故意使用的,后来和他们沟通,重新跑一次没有使用去年数据的模型提交也不行,就是直接取消成绩!你在键盘巧了几百字,几十行微信消息,可能被别人搪塞一句“我和主办方沟通了,确实不行”,其实是不是她下班回家,懒的管你?“各位评委老师,我是来自WOT团队的选手AMBT,口号是将中文语义病句识别与纠正提升到新高度”某日下午,“叮叮叮”,“叮叮叮”,“叮叮叮”,扭头一看桌面上手机响了,接了电话。后来扯皮了很久,后来苦苦婆心解释了一达通,就是直接取消成绩,对,就是这么残忍。

2023-08-26 00:40:32 1163 6

doutu-master

斗图网站表情包下载

2017-05-06

qt-Txt编辑器图标

qt-Txt编辑器图标

2016-06-27

Qt小实例-记事本notepad

Qt小实例-记事本notepad

2016-06-24

Yii2中文手册(完整版)pdf

Yii中文手册

2016-06-04

JSP实例编程100例

JSP实例编程100例

2016-05-12

C++编程实例100篇

C++编程实例100篇

2016-05-12

HTML5 Canvas核心技术 图形、动画与游戏开发

HTML5 Canvas核心技术 图形、动画与游戏开发 希望可以帮助大家,

2016-05-12

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除