自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(614)
  • 收藏
  • 关注

原创 程序员挣够了钱,到中年失业真的很可怕吗?

最近一刷知乎全部都是大龄程序员失业危机真的有这么可怕吗?程序员35岁就真的到了瓶颈期?我不这么认为挣够了钱,当然不可怕,问题是没挣够啊~!!!按题主的算法是,大城市薪资1w以上,45岁失业,工作20年可以挣够钱:那我们现在来算一下,20年12个月1w=240w没错,这样算下来的确是可以挣到240w左右,但是你还有很多地方需要花钱,如:房租/房贷、孩子学费、赡养老人、家庭日常开支、朋友聚会……等等,这样全部算下来,你觉得你真的挣够钱了吗???而且按照题主说的是45岁失业,但现实是35岁很多程序员

2022-01-05 22:40:31 19761 37

原创 如果一名程序员一个月拿两万,得知一对夫妇卖猪肉可以赚五万一个月后会怎么选择,做程序员还是卖猪肉?

在知乎上看到这么个帖子,觉得挺有意思,大家一起瞧瞧?对此,我也看到了许多犀利的回答哈**A:**我反过来问你,如果一对夫妇卖猪肉一个月只能挣一万,听说一名程序员一个月拿五万,他们能选择去当程序员拿五万吗?这时候你知道不是谁都能当程序员,不是哪个程序员都能拿五万了,那你怎么就觉得谁都能卖猪肉、谁卖猪肉都能赚五万一个月了?你拿得动刀吗?你有超过常人的进货和销售渠道吗?你有人家的口碑吗?**B:**有时候可能会有一些莫名的优越感,将这个世界按照一条线性的赛道来理解,就像从小到大好好学习,一路考大学,唯一的

2022-01-04 21:58:55 15806 32

原创 一天高中的女同桌突然问我是不是程序员,满脸黑人问号?

背景昨天一个我高中的女同桌突然发微信问我“你是不是程序猿 我有问题求助”,先是激动后是茫然再是冷静,毕业多年不见联系,突然发个信息求助,感觉大脑有点反应不过来…再说我一个搞Python的,这点要求大家懂的,人生苦短,我用Python!为了大家的面子,为了程序猿们的脸,不就简单的小Python嘛,必须答应!梳理需求现有excel表格记录着 有效图片的名字,如:要从一个文件夹里把excel表格里记录名字的图片筛选出来;需求也不是很难,代码思路就有了:读取Excel表格第一列的信息并放入

2021-12-30 22:31:31 30793 36

原创 10G显存,使用Unsloth微调Qwen2并使用Ollama推理

使用ollama create命令创建自定义模型!!

2024-09-23 20:26:50 505

原创 仅用4块GPU、不到3天训练出「开源版GPT-4o」,这是国内团队最新研究

LLaMA-Omni能够接收语音指令,同步生成文本和语音响应,响应延迟低至 226ms,低于 GPT-4o 的平均音频响应延迟 320ms。以 ChatGPT 为代表的大型语言模型(LLM)已成为强大的通用任务解决器,但大多数 LLM 仅支持基于文本的交互,这限制了它们在不适合文本输入输出的场景中的应用。GPT-4o 的出现使得通过语音与 LLM 进行交互成为可能。然而,开源社区对于构建此类基于 LLM 的语音交互模型仍然缺乏探索。

2024-09-23 20:24:11 522

原创 【Qwen2 微调之旅】Lora 对 Qwen2-7B-Instruct 的微调实战手册

在人工智能领域,自然语言处理(NLP)一直是研究的热点之一。随着深度学习技术的不断发展,大型预训练语言模型(如Qwen2-7B-Instruct)在理解与生成自然语言方面取得了显著的进展。然而,这些模型往往需要大量的计算资源和数据来进行微调,以适应特定的应用场景。Lora微调技术作为一种高效的模型优化手段,为解决这一问题提供了新的思路。本文将深入探讨Lora微调技术在Qwen2-7B-Instruct模型上的应用,旨在为读者提供一种高效、低成本的模型定制化方法。

2024-09-23 20:22:46 544

原创 1.1K star!基于Llama3几秒钟完成一本书,这个项目有点厉害!

前身为Groqbook,是一个基于Groq和Llama3的流式应用程序,它可以从一个简单的提示生成书籍。这个项目特别适合非小说类书籍的创作,并且能够在短时间内生成每一章的内容。它主要使用Llama3-8b和Llama3-70b两种模型,大模型用来构建书籍结构,小模型用来生成具体内容。想象一下,只需要一个章节标题,甚至是一个简单的句子,它就能在几秒内为你生成一章内容丰富、结构合理的文本,是不是已经迫不及待想要试试了?目前在Github上面收获了1.1K star!

2024-09-22 10:45:00 820

原创 大规模分布式 AI 模型训练系列——专家并行

在 [1701.06538] Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer 中,作者(也包括大名鼎鼎的 Geoffrey Hinton 和 Jeff Dean)将 MoE 引入到 LSTM 模型中,并提出了稀疏 MoE(Sparse MoE)的概念。在 Sparse MoE 中可以包含数千个前馈子网络,并由可训练的门控网络(Gating Network)确定这些专家的稀疏组合。

2024-09-21 19:50:41 1293

原创 Anthropic重磅发布:上下文检索技术让RAG错误率暴跌67%

Anthropic最新发布的(Contextual Retrieval)技术,让RAG(检索增强生成)应用的错误检索率。这一突破性进展,有望彻底改变AI应用对文本理解的方式。

2024-09-20 20:13:19 1020

原创 一键安装最新生产环境GraphRAG UI,kotaemon日增1.3KStar霸榜Github

这两天Github上有一个项目火了。可用于生产环境GraphRAG的开源UI项目kotaemon,更新不到两天后已经有6.6KStar,昨日新增1.3KStar已位居Github Trending榜首。周末抽空部署了一下,还挺简单,推荐给大家。可能大家用了一段时间GraphRAG感觉还不错。但很多读者反应,不好部署,也不知该怎么用,那么这个UI界面的GraphRAG或许可以解决这些个问题。我还是用论文作为示例为大家讲解如何部署和设置:01。

2024-09-20 20:12:14 1072

原创 OpenAI o1式思维链,开源模型也可以有,成功案例来了

北京时间 9 月 13 日午夜,[OpenAI 发布了推理性能强大的 ο1 系列模型]。之后,各路研究者一直在尝试挖掘 ο1 卓越性能背后的技术并尝试复现它。当然,OpenAI 也想了一些方法来抑制窥探,比如有多名用户声称曾试图诱导 ο1 模型公布其思维过程,然后收到了 OpenAI 的封号威胁。尽管如此,不过三四天时间,就已经有研究者宣称已经成功复现/开发出了与 ο1 性能差不多的推理技术,并且还不止一个!

2024-09-20 20:09:09 871

原创 OpenAl o1大模型:原理、突破、前景及影响

北京时间2024年9月13日凌晨,OpenAI正式发布了新的人工智能模型o1(o是orion猎户座,1代表从头再来,也意味着后续将出现更多序列),就是此前OpenAI一直在高调宣传的草莓大模型。OpenAI没有延续使用GPT序列,可见其与传统预训练模型有新的变革性训练方法和功能,o1具备复杂推理能力,解决比目前专业的科学、代码和数学模型所能解决的更难的问题。值得注意的是,相比GPT-4o等其他大模型,一是采用大规模自我对弈强化学习**(Self-play RL)**,设置奖惩机制,让模型自行学习解决问题。

2024-09-19 19:58:24 849

原创 ​9.9K Star!无需代码,快速构建自己的 AI 知识库问答系统!

MaxKB,全称Max Knowledge Base,顾名思义,就是最大化的知识库。它不仅能快速搭建起我们的AI助手,还能根据我们的需求进行个性化定制。无论是企业内部的知识库管理,还是客户支持系统的智能应答,MaxKB都能轻松应对。自发布以来,短短时间内就在GitHub上收获了超过9.9K + Star,人气爆棚啊!

2024-09-19 19:57:11 979

原创 换掉Transformer,7B开源模型立刻登顶!任意长序列都能处理

只是换掉Transformer架构,立马性能全方位提升,问鼎同规模开源模型!(注意力机制不存在了)这就是最新模型。它采用来处理各种文本生成任务。通过取消传统注意力机制,有效提升了模型处理长序列时计算效率低下的问题。它可以处理序列,但内存需求不增加。无论上下文多长,。由此,Falcon Mamba模型性能全方位提升,打败一众Transformer架构模型,如Llama-3.1(8B)、Mistral(7B)以及Falcon-2(11B)。

2024-09-19 19:56:09 829

原创 清华大学刘知远团队提出ChatMol模型,基于自然语言进行交互式的分子发现

在大语言模型时代,自然语言将成为人机交互的关键媒介。在生物化学领域,诸如性质预测和分子挖掘等任务至关重要,但在技术上具有挑战性。在自然语言和化学语言中架起分子表达的桥梁可以显著提高这些语言的可解释性和易用性,整合各种来源的化学知识,从而更深入地了解分子。2024年9月2日,清华大学刘知远老师团队在Bioinformatics上发表文章ChatMol: Interactive Molecular Discovery with Natural Language。

2024-09-18 20:25:07 1212

原创 基于动态模式分解的强制融合数据预测方法

时间序列预测仍然是几乎所有科学领域的核心挑战问题,包括电力系统工程中的负荷建模。生成准确预测的能力对实时控制、定价、维护和安全决策具有重大影响。我们介绍了一种新的负荷预测方法,其中使用时滞坐标系中的动态模式分解(DMD)将观察到的动态建模为强制线性系统。这种方法的核心是,网格负载与复杂现实世界系统上的许多可观测值一样,具有“几乎周期性”的特征,即连续的傅里叶频谱,由主峰打断,这些主峰捕捉动态中的定期(例如,每天或每周)重现。

2024-09-18 20:24:26 1265

原创 揭秘Agent框架:如何打造智能高效的AI应用核心

Agent 是具备自主性和智能的系统,它能够感知外部环境、作出决策并执行相应的行为,以完成预定的目标。Agent能够自主感知环境并采取行动以实现目标的智能体。换句话说,Agent 可以作为某个人或组织的代表,执行特定任务或行为,帮助简化工作流程,减少工作量,降低沟通成本。它通过代替人类处理重复性或复杂的任务,显著提升效率。

2024-09-18 20:23:40 1037

原创 一文彻底搞懂大模型 - 统计语言模型

拼音转汉字:在输入法中,当输入拼音时,

2024-09-17 10:45:00 675

原创 大模型基础:基本概念、Prompt、RAG、Agent及多模态

随着大模型的迅猛发展,LLM 作为人工智能的核心力量,正以前所未有的方式重塑着我们的生活、学习和工作。无论是智能语音助手、自动驾驶汽车,还是智能决策系统,大模型都是幕后英雄,让这些看似不可思议的事情变为可能。本文将从以下5个方面介绍大模型相关内容:1. LLM基础知识3. RAG的应用4. Agent的应用5. 多模态模型1. LLM基础知识1.1 LLM基本概念从字面意思来讲,LLM 是 Large Language Model 这三个单词的首字母缩写,意为大语言模型。

2024-09-16 10:45:00 978

原创 多模态与伪多模态大模型

透过现象看本质,才是最应该做的选择对大模型了解的人应该知道,大模型是因为openAI的GPT模型爆火的,当然大模型的发展也是经过多年的发展才有了今天的地步。在之前的文章中也介绍过,大模型的全程是大规模预训练语言模型的简称,也就是说大模型刚开始是在语言处理领域大放异彩的。因此,可以说大模型是深度学习,也就是神经网络模型与自然语言处理相结合而产生的一种技术。而随着大模型在自然语言处理领域的爆发,一些技术人员开始把大模型应用到图片处理,视频处理等领域,后来慢慢就诞生了处理各种模态数据的模型。

2024-09-15 10:45:00 608

原创 一文彻底搞懂RNN - 模型架构(Model Architecture)

二、

2024-09-14 17:12:33 966

原创 不依赖CUDA的大模型推理已经实现

此外,随着FlexAttention和FlashAttention-3等新技术的引入,PyTorch有望在更广泛的硬件平台上实现更长的上下文长度和更大规模的解码任务,这将推动整个行业向前发展。该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。Triton的出现,不仅打破了CUDA的垄断,还为AI社区带来了新的活力和创新的可能性。

2024-09-13 20:07:30 994

原创 提升RAG系统的回答质量:高质量文档解析终极干货

t【最新】原始高精度模型,支持中英文、多语种文本检测c【最新】高精度模型,支持中英文、数字识别基于SLANet的中文表格识别模型CDLA数据集训练的中文版面分析模型,可以划分为表格、图片、图片标题、表格、表格标题、页眉、页脚、引用、公式10类区域。

2024-09-13 20:06:50 1081

原创 企业生成式人工智能应用的架构模式:GraphRAG、RAG、DSFT和RAFT

正如之前所述,微调大型语言模型(LLM)涉及调整预训练语言模型,以更好地执行特定任务或领域。这是通过进一步使用由输入和输出对组成的小型专业数据集对模型进行训练来实现的。这些对是显示所需行为或输出的示例。在微调过程中,模型的参数会被更新,这有助于弥合预训练模型的通用能力与任务的具体需求之间的差距。这个过程提高了模型的性能,使其在给定任务上更准确,符合人类的期望。

2024-09-13 20:03:58 1098

原创 RAG领域出现技术创新,或将引领AI搜索重大变革?

近年来,大模型在自然语言处理领域取得了引人注目的进展。然而,这些模型存在着输出不准确的问题,例如模型幻觉和知识时效性的问题。这使得它们在复杂任务中的表现受到限制。为了解决这些问题,检索增强生成(RAG)模型应运而生。RAG的思想是将信息检索与大模型相结合的过程。具体来说,RAG流程是根据用户的查询,从海量的文档或者数据中检索出相关的信息片段。然后用大模型生成有用的回答。这个流程能够有效地弥补生成式模型在知识更新和特定领域细节方面的不足,提高回答的准确性和可靠性。传统的RAG包括以下几个步骤:

2024-09-12 21:08:55 873

原创 LLaMA-Omni 发布 | 基于LLaMA-3.1-8B让羊驼家族再添大将,实现低延迟/高质量的语音互动

像GPT-4o这样的模型通过语音与大型语言模型(LLMs)实时互动,显著提升了用户体验,相比传统的基于文本的互动方式。然而,关于如何基于开源LLMs构建语音交互模型,仍然缺乏探索。为解决这一问题,作者提出了一种名为LLaMA-Omni的新颖模型架构,用于实现低延迟和高质量的语音与LLM的互动。LLaMA-Omni 集成了一个预训练的语音编码器、一个语音 Adapter 、一个LLM和一个实时语音解码器。它消除了语音转录的需求,并可以直接从语音指令中以极低的延迟生成文本和语音响应。

2024-09-12 20:19:42 1128

原创 LLM Agent设计模式 - Plan-and-Solve

Plan-and-Solve (PS) 设计模式是一种旨在提升大型语言模型(LLMs)在多步推理任务上表现的新策略。它改进了零样本链式思维(Zero-shot-CoT)提示方法,增强了模型的推理能力。与一次只处理一步的 ReACT 设计模式不同,PS 更加注重长期计划。该方法由论文《Plan-and-Solve Prompting: Improving Zero-Shot Chain-of-Thought Reasoning by Large Language Models》提出。

2024-09-12 20:18:38 806

原创 通用端到端OCR模型开源,拒绝多模态大模型降维打击

在AI-2.0时代,OCR模型的研究难道到头了吗!?(OCR:一种将图像中的文字转换为可编辑和可搜索文本的技术)Vary作者团队开源了第一个迈向OCR-2.0的通用端到端模型。

2024-09-11 20:18:29 876

原创 34页,超200篇文献,浙江大学最新综述,揭秘大语言模型中知识的利用机制

ChatGPT的出现引发了一场AI革命,它展示了通过简单对话就能完成各种任务的强大能力,并且将不同的 AI 功能整合到一个统一的平台上。还记得小编第一次使用 ChatGPT 的时候给我带来极大震撼。但是这种看似全能的 AI 也有软肋,可信度便是一个重要的方面。这些大模型有时就像是一个能说会道但是不太靠谱的朋友,它们经常可以“侃侃而谈”,但是讲话内容就一言难尽emmmm。而且当遇到需要缜密思考或复杂推理的问题时,这类 AI 大模型往往显得力不从心。

2024-09-11 20:16:17 825

原创 通过监督微调,为LLM注入新知识

近年来,大型语言模型(LLMs)在生成类人文本方面展现了卓越性能,成为众多应用领域中的宝贵资源。然而,将这些模型调整为能够融入新领域知识,特别是模型知识截止日期之后出现的事实和事件,仍是一项挑战。本文研究了监督微调(SFT)作为LLMs知识注入方法的有效性,特别聚焦于近期体育赛事领域。我们比较了不同的数据集生成策略——基于词元的扩展和基于事实的扩展,以创建训练数据,帮助模型学习新知识。在GPT-4(OpenAI, 2023)上的实验表明,虽然基于词元的扩展可以提升问答准确性,但可能无法全面覆盖新知识。

2024-09-11 20:15:17 1070

原创 通透!十大时间序列模型 最强总结 !!

通过分析历史数据,这些模型揭示了潜在的模式和季节性变化,从而提供了数据驱动的预测。有效的时间序列预测还能够提高供应链管理、市场策略和风险控制的精确性。为此,咱们今儿和大家聊的十种最常见的时间序列模型有:自回归移动平均模型(ARMA)自回归积分滑动平均模型(ARIMA)季节性自回归积分滑动平均模型(SARIMA)向量自回归模型(VAR)广义自回归条件异方差模型(GARCH)Prophet长短期记忆网络(LSTM)门控循环单元(GRU)贝叶斯结构时间序列模型(BSTS)

2024-09-11 20:14:24 1186

原创 基于跨模态引导和对齐的多模态预训练方法

现有的视觉语言多模态预训练方法仅在图像和文本的全局语义上进行特征对齐,对模态间细粒度特征交互的探索不足。针对这一问题,本文提出了一种基于跨模态引导和对齐的多模态预训练方法。该方法在模态特征提取阶段,采用基于视觉序列压缩的双流特征提取网络,在视觉编码器中联合图像和文本信息逐层引导视觉序列压缩,缓解与文本无关的冗余视觉信息对模态间细粒度交互的干扰;在模态特征对齐阶段,对图像和文本特征进行细粒度关系推理,实现视觉标记与文本标记的局部特征对齐,增强对模态间细粒度对齐关系的理解。

2024-09-09 20:14:26 1394

原创 2024年,国内AI大模型发展报告!

随着AI技术发展,大模型成为科技竞争新高地、产业新赛道、经济新引擎,我国视其为国家战略,出台政策扶持。大模型广泛应用,推动科技革命与产业变革,面临发展挑战需各界努力。2023年大模型爆发,变革生产生活,国产大模型崛起。大模型与传统行业融合,提升产业效率;赋能金融、医疗等,助力新质生产力发展。大模型需政策法规保障,促进健康发展,服务各行业,注入发展新动能。2024年,多重因素推动大模型发展,政府支持、用户需求增长、科技投入增加。面临算力分散、结构最优疑问、数据稀缺等挑战。

2024-09-09 20:11:32 1096

原创 使用 Milvus Lite、Llama3 和 LlamaIndex 搭建 RAG 应用

大语言模型(LLM)无疑是人工智能(AI)领域中最炙手可热的话题,因为 LLM 具备解决各种自然语言问题的强大能力。然而,它们也有其局限性——受制于训练数据的更新时间。例如,GPT-4 Turbo 使用的训练数据最后更新时间为 2023 年 12 月。如果我们询问 ChatGPT 在该日期之后的信息,就有可能收到不准确的响应。这种现象被称为 LLM 幻觉。幻觉是指 LLM 生成的响应看起来准确,但实际上完全错误。检测 LLM 是否产生幻觉是一大难题,如今仍有许多科研人员对此开展研究。

2024-09-09 20:09:48 800

原创 从GraphRAG最新论文综述探究如何改进微软 GraphRAG

最近北大、浙大等高校和蚂蚁集团等机构发布了一篇 GraphRAG 综述论文《Graph Retrieval-Augmented Generation: A Survey[1]》。本文首先对论文进行简单介绍,然后对论文中 GraphRAG 提到的三个阶段进行分别介绍,探索当前业界都在尝试哪些方法优化 GraphRAG,以及有哪些较为流行的GraphRAG框架。

2024-09-08 10:45:00 1160

原创 高效 Prompt 编写揭秘:引爆生产力的结构化 Prompt 之道

云中江树,是国内最早提出结构化和模板化编写大模型 Prompt 范式的先行者之一。2023年4月,他在个人实践中首次发现这种结构化、模板化的方法在编写 prompt 时非常友好,并且在大多数情况下表现出色。2023年5月,他将这一方法开源为 LangGPT 项目,并在国内撰文公开,得到了广泛认可和喜爱。尤其是在 GitHub、即刻、知乎等社区,这一方法引发了不小的反响。

2024-09-07 10:45:00 687

原创 LLM 推理的 Attention 计算和 KV Cache 优化:PagedAttention、vAttention 等

PagedAttention 是一种受操作系统中虚拟内存和分页技术启发的注意力算法。在此基础上,作者构建了 vLLM 推理框架,可实现:近似实现 KV 的零浪费。在请求内部和请求之间灵活共享 KV Cache,以进一步减少内存使用。对应的 Paper 为:[2309.06180] Efficient Memory Management for Large Language Model Serving with PagedAttention。

2024-09-06 20:41:47 1104

原创 数智政务大模型落地场景

是指通过人工智能技术,对数字政府的数据进行分析和发掘,通常在政务大数据的基础上集合大模型技术构造数智一体化平台,提供智能决策支持和解决方案的一种技术应用。数字政府的建设需要新的技术支持,大模型在政务领域的应用成为关键。全国各地政府都在加强大模型产业顶层设计和布局,北京市率先出台正对性政策,广东、上海、安徽等地方也积极探索大模型产业,助力大模型在政务领域深度应用。最终达到促地方经济发展、增强区域竞争力、加快技术应用、引导产业升级、优化人才结构、提升公共服务。‍‍。

2024-09-06 20:40:46 765

原创 Take a Step Back:通过抽象激发大模型推理能力(ICLR2024)

我们提出了一种简单的提示技术——“退一步”提示(STEP-BACK PROMPTING),该技术能够使大语言模型(LLMs)进行抽象,从包含特定细节的实例中推导出高层次概念和基本原理。通过使用这些概念和原理来指导推理,LLMs显著提高了沿着正确推理路径找到解决方案的能力。

2024-09-06 20:07:41 931

原创 1000个智能体创建首个「AI文明」!北大校友放弃MIT教职打造「西部世界」

*在我的世界里,出现了有史以来第一个智能体文明。1000多个智能体一同协作,在虚拟世界中构建起,自己的经济、文化、宗教和政府。网友纷纷惊呼,西部世界真的来了。世界首个「智能体文明」诞生了!谁也不曾料到,1000多个智能体合作多日,竟在虚拟现实——「我的世界」中构建起了,真正的文化、经济、宗教、政府,等等等等…这些智能体是完全自主的个体,而且还会利用工具、以及游戏实现目标。它们能够分工,从无到有,一起收集300多个物品。

2024-09-05 19:55:18 840

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除