- 博客(880)
- 资源 (1)
- 收藏
- 关注
原创 程序员转行大模型领域的方向推荐,这五个方向最有发展前景的是哪个方向
程序员转行进入大模型领域,无论是投身自然语言处理、计算机视觉,还是专注于大模型算法研究、部署工作,亦或是转型为产品经理,都有着广阔的发展前景和良好的职业机遇。然而,每个方向都对技能有着明确且严格的要求,程序员需要根据自身兴趣和优势,有针对性地学习和提升技能,才能在大模型领域顺利实现职业转型,开启新的职业篇章。
2025-08-30 17:36:47
824
原创 2025年程序员转行方向推荐,从零基础入门到精通,收藏这一篇就够了!
在人工智能(AI)迅速发展的背景下,传统编程领域的程序员改何去何从呢?2025年程序员可以转行去哪些地方呢?其实在现在AI时代对于传统的程序员来说是一个绝佳的实现职业转型、提升薪资待遇的机遇。那么对于考虑转行到大模型领域的程序员来说,有几个热门岗位是值得特别关注的。这些岗位不仅代表了当前技术发展的趋势,也提供了转型的广阔舞台和职业发展的新机遇。
2025-08-30 17:13:30
1237
原创 想要转行ai赛道?看完这篇少走三年弯路!
云端部署和端侧部署。云端部署,可以做推理加速平台,给特定模型做定制化加速,像 Qwen - 7b 的加速,也可以做大模型推理引擎,在高并发用户场景下,保证用户体验的同时优化延迟和吞吐量。端侧部署,就是要在消费级 GPU/NPU 和边端设备上把模型部署好,还要让领域大模型小型化,实现工程落地。这个岗位对工程、系统和硬件方面的能力都有要求,虽然现在有各种推理框架降低了点难度,但还是挺有挑战性的,不太建议新人直接做,可以先从平台方向入手,再慢慢转到部署方向。最后,给新人的一些小建议。
2025-08-30 17:12:11
803
原创 什么?他一个后端开发转行去做大模型算法了
2024年即将画上句号,对我来说,这一年意义非凡,尤其是本命年,在打工的路上也迎来了许多新挑战和新收获。这一年做过大厂面试官,在候选人与面试官的角色中来回切换。有点幸运,顺利发表了小论文和专利,毕业论文中期答辩成绩也拿了优秀,最后在2024年的尾声转行做了大模型算法工程师。大模型真的给我的生活带了很大的变化,拥抱热AI,做超级个体。image最后,我想分享一个最近很火的Jack叔叔的六年之约。
2025-08-30 17:08:36
1058
原创 35+程序员的最后出路:大模型领域如何让经验变优势,薪资暴涨150%
你知道吗?拼夕夕刚爆出要组建电商推荐大模型团队,互联网大厂集重仓AI,未来两年,程序员、产品经理、售前师都将面临重构。
2025-08-30 17:06:30
703
原创 如何在两周内快速系统学习大语言模型(LLM)从零基础入门到精通,收藏这一篇就够了!
时间段学习内容实践任务第 1-2 天Transformer 和 LLM 基础理解 Transformer 结构,阅读 GPT 和 BERT 的论文第 3-4 天深入 LLM 架构和模型训练搭建环境,实验微调 BERT 或 GPT-2第 5-6 天模型优化与推理加速使用量化、蒸馏等方法优化模型性能第 7-8 天LLM 在 NLP 中的应用实现文本生成、问答系统、情感分析等任务第 9-10 天高效模型微调与大模型部署使用 LoRA、PEFT 等微调方法;了解部署技术。
2025-08-30 17:03:16
850
原创 RAG 分块术完全指南:15种“切片神技”,让你的检索结果提升10倍!附实战代码
构建 RAG 系统时,最容易被忽略、却最影响效果的关键环节,往往是「Chunking」。别再盲目用默认的 chunk 大小了。回顾你的数据结构,选择合适的分块策略,才能让 RAG 如虎添翼,检索又准又稳!
2025-07-31 14:51:36
1565
原创 LLM 系列:模型推理篇从零基础入门到精通,收藏这一篇就够了!
LLM 推理领域是一场与内存瓶颈和硬件利用率的持续战斗。本文梳理的各项优化技术,都是为了让日益庞大的模型变得更加实用和经济。更小、更高效的模型架构:业界正大力投入于研发更小但能力依旧强大的模型(如 Phi-3)以及稀疏化的专家混合(MoE)模型。MoE 模型在每次推理时只激活一小部分参数,从根本上降低了单次推理的计算和内存成本。软硬件协同设计:从到的演进,清晰地展示了算法如何紧随硬件特性(如 Hopper 架构的 FP8 支持)进行迭代。未来的性能突破将更多地来自于算法与底层芯片的深度协同设计。
2025-07-31 14:50:56
834
原创 LangChain教程——LangChain基本使用
LangChain是一个用于开发由大型语言模型 (LLM) 驱动的应用程序的框架,帮助开发者使用大型语言模型(LLMs)和聊天模型构建端到端的应用程序。好了,这里就不过多介绍LangChain了,大家可以去LangChain官网了解。安装完毕后,接下来我们使用OpenAI、智谱AI、LMStudio的openai服务三种方式来编写LangChain程序。个人比较推荐使用LMStudio的openai服务。注意:OpenAI需要科学上网才能使用,不使用科学上网可以跳过这一方式。
2025-07-31 14:49:49
914
原创 GitHub上4大开源LLM微调框架对比
原创[#LlamaFactory](javascript:😉 以其极致的易用性脱颖而出,为开发者提供了一个强大的零代码网页界面(Web UI),让模型微调变得像"点几下鼠标"一样简单。[#Unsloth](javascript:😉 的核心价值在于其惊人的性能优化。它能将大模型的微调速度提升 2 倍,同时将[#显存](javascript:😉(VRAM)占用降低 70% 以上,让中端 [#GPU](javascript:😉 也能迸发出强大的能量。[#Axolotl](javascript:😉 崇尚"
2025-07-31 14:48:42
1164
原创 2分钟速通5种常见 Agent 构建方法,从零基础入门到精通,收藏这一篇就够了!
智能Agent就像数字世界里的“超级助理”,相信小伙伴们在构建通用、垂直领域Agent都或多或少遇到框架设计的逻辑问题。实际上,不同的任务需要不同的“思维方式”。接下来带你速通主流的Agent系统构建方法~AI首先生成初始回答,然后将其传递给自己或另一个模型进行"反思"评估,通过迭代改进最终向用户提供更优质的回答。任务:策划一次家庭旅游逻辑:AI先给出旅行计划,然后进行反思优化,改进不合理之处。例子:AI初步安排去海边,但反思后发现家人不喜欢晒太阳,于是调整为森林露营计划。
2025-07-31 14:47:08
1114
原创 最近,大模型岗位彻底爆了……
2025开年,AI技术打得火热,正在改变程序员的职业命运:阿里云核心业务全部接入Agent体系;字节跳动30%后端岗位要求大模型开发能力;腾讯、京东、百度开放招聘技术岗,80%与AI相关……大模型正在重构技术开发范式,最残忍的是,业务面临转型,领导要求用RAG优化知识库检索,你不会;带AI团队,微调大模型要准备多少数据,你不懂;想转型大模型应用开发工程师等相关岗,没项目实操经验……曾经热门的开发框架、大数据工具等,已不再是就业的金钥匙。
2025-07-17 15:06:43
670
原创 知识|AI智能体(AI Agent)从原理到应用
AIHR新天地](javascript:void(0)😉2025年05月30日 08:56北京各种场合提到AI智能体(AI Agent),那么AI智能体究竟是什么呢?本文简单整理通俗的解读,给大家做参考。AI智能体(AI agent)是指能够自主执行任务的人工智能系统,通常具备学习、推理和决策能力。这些智能体可以在各种领域中运作,如客服、数据分析和自动驾驶等。它们通过分析环境中的数据来做出反应,并不断学习以提高效率和准确性。
2025-07-17 15:03:41
810
原创 大模型Agent智能体设计范式
在2024年红杉资本人工智能峰会上,著名的人工智能专家吴恩达发表了一场备受关注的演讲,深入探讨了智能代理(agent)的四大范式。这四大范式代表了当前AI技术在不同应用领域中的核心方法和实践,分别是反思(Reflection)、工具使用(Tool Use)、规划(Planning)和多代理协作(Multi-Agent)。
2025-07-17 14:58:36
978
原创 【Agent专题】Agent架构设计:智能体架构设计的9大核心技术全景深解析,附架构图
2025年,AI智能体已经不再是概念模型,它们正在逐步落地为企业级工具、产品模块,而在这背后,一整套系统化的智能体架构,正悄然决定着这些Agent的效率、扩展性与演化方向。如果说大语言模型(LLM)是AI的发动机,那么“智能体架构”就是决定AI能走多远的底盘和驾驶系统。AI智能体的本质是一种具备自主意识的软件,它能够感知环境、进行逻辑推理和决策,并实施相应动作。通过Prompt定义其指令语义,以Switch语句解析下一步行为,以累积上下文维持对任务的持续理解,再由For循环驱动整个执行逻辑。
2025-07-17 14:55:51
1086
原创 微调模型的各种参数怎么设置?微调的显存消耗如何估算和优化?
在模型微调中,各类参数就像是你在给模型 “补课” 之前制定的教学计划和策略。它们决定了你如何教学、教学的强度以及教学的方向。如果你选择的教学计划不合适(比如补课时间太短、讲解速度太快或复习策略不合理),可能会导致学生学习效果不好。同样,如果你选择的超参数不合适,模型的性能也可能不理想。过去经常收到很多同学的问题:“在微调过程中这些参数到底要怎么设置效果才最好?
2025-07-17 14:50:33
801
原创 最强开源Agent!Kimi K2接入Claude Code,爽翻~【喂饭级教程+实测】
Claude Code是由Anthropic开发的一款智能编程工具,它以命令行工具的形式存在,能够集成到开发者的终端环境中。它基于Anthropic的Constitutional AI框架构建,可以以自然语言交互的方式帮助开发者更高效地完成编程任务。我觉得它其实就是一个Agent,还可以接入MCP工具,以及帮你操作底层系统等等,是目前最强的Agent工具了原生Claude Code启动后,大概长下面这样(在。
2025-07-16 15:01:53
2884
1
原创 2025年大模型平台落地路径与实践
大模型技术发展迅速,我国政策大力支持,市场需求旺盛,推动其在各行业落地。但大模型落地面临诸多难题,如顶层规划和需求分析盲目、技术壁垒高、运营管理机制缺失等。大模型平台通过“建、用、管”模型,为大模型落地提供全流程支撑,解决技术转化与工程化应用难题。
2025-07-16 14:59:27
1297
原创 「上下文工程」彻底火了,Karpathy一众大佬力荐+1,Agent成败全靠它
继 Vibe Coding 火了之后,Andrej Karpathy 又带火了一个词——Context Engineering 翻译成中文就是:「上下文工程」**。。Andrej Karpathy 作为 AI 领域的标志性人物,他一直都很善于用贴近开发者直觉的语言,去定义一些复杂技术的核心变化趋势,比如 “Software 2.0”、 “Software 3.0”、“Vibe Coding”,还有最近提出的新概念“Bacterial Programming”(细菌编程),基本上是提一个火一个。
2025-07-16 14:58:22
618
原创 彻底爆了!一文吃透AIGC、Agent、MCP的概念和关系
• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;今天贴心为大家准备好了一系列AI大模型资源,包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;
2025-07-16 14:57:11
971
原创 大语言模型(LLM)之更好的搜索增强生成(RAG)方案——RAG-Fusion
当然这样利用大模型去进行搜索query改写,虽然能够带来更丰富的搜索信息,但是性能上会受到损失,产品上的设计一定要考虑这一点。
2025-07-16 14:46:56
944
原创 一文学会LangChain搭建Agent工具
Agent(智能代理)是一种能够感知环境、自主决策并执行任务的实体(可以是软件、机器人或系统)。它的核心能力在于自动化、智能化和适应性,广泛应用于多个领域。● 日常重复性工作:自动填写表格、整理数据、发送邮件。● 流程自动化:替代人工完成订单处理、库存管理、报销审批等企业流程。● 案例:企业中的RPA(机器人流程自动化)代理可自动处理财务对账。● 推荐系统:根据用户行为推荐商品(如电商)、内容(如短视频)或音乐(如Spotify)。
2025-07-16 14:46:19
975
原创 手把手教你从0搭建一个智能体,全部跟下来你就Agent入门了!(超详细的讲解)
这里先用一小段篇幅带大家快速了解下Coze并进入到指定操作界面。Coze 是字节跳动推出的零代码或低代码智能体开发平台,基于其大模型技术,提供插件系统、长短期记忆、工作流编排等核心能力,支持多模态交互(文本/语音/图像)与多平台发布(如豆包、飞书、Discord),专注构建个人助理、电商客服、内容生成等场景的智能体应用。**Coze网址:**
2025-07-16 14:45:12
1092
原创 大模型前景怎么样?大模型在各行各业中的应用现状及前景分析,收藏这篇就够了_大模型在制造业的应用前景
大语言模型近年来呈现出爆发式增长的趋势,以OpenAI ChatGPT为代表的私有模型迅速迭代更新,其能力渐渐接近人类的水平。同样,以通义千问、llama为代表的开源大模型也在迅速接近或超过ChatGPT。然而,大语言模型的发展目的终究是为了解决现实生活中的实际问题,大模型在各行各业中的应用情况到底如何?遇到了哪些问题?前景怎么样?本文将基于行业研报对这些问题进行分析和解答。• 软件开发:大模型能够自动生成代码,根据开发者的需求和描述快速提供代码片段,提高开发效率。
2025-05-13 15:45:14
1024
原创 如何估算大模型训练所需算力?(非常详细)从零基础入门到精通,收藏这篇就够了
ChatGPT横空出世引发了“百模大战”,算力需求成为焦点, GPU卡一时洛阳纸贵。训练一个大模型,究竟需要多少张GPU卡呢?2023年初写了篇文章《》大致总结了一下,但没有提到推导过程,今天有空展开聊聊。据估计,OpenAI训练GPT-4模型,很有可能应用了10000到20000张英伟达A100。按照马斯克的说法,GPT-5的训练可能需要3万到5万张H100,可见随着大模型的迭代发展,训练所需算力也呈爆发性增长。
2025-05-13 15:44:47
1705
原创 大模型学习路径,(非常详细)从零基础入门到精通,收藏这篇就够了
在掌握机器学习之前,理解支撑这些算法的基本数学概念非常重要。:这是理解许多算法(特别是深度学习算法)的关键。主要概念包括向量、矩阵、行列式、特征值和特征向量、向量空间以及线性变换。:许多机器学习算法涉及到连续函数的优化,这需要理解导数、积分、极限和级数。多变量微积分以及梯度的概念也很重要。:这些知识对于理解模型如何从数据中学习并进行预测至关重要。主要概念包括概率理论、随机变量、概率分布、期望、方差、协方差、相关性、假设检验、置信区间、最大似然估计和贝叶斯推断。有的时候临时抱佛脚也是可以的。
2025-05-13 15:43:34
1163
原创 AI人才缺口达400万,名校的博士毕业生年薪最高700万(非常详细)从零基础到精通,收藏这篇就够了!
DeepSeek应届生年入百万,名校毕业有很强的优势“我感觉我的人生选择是我坐在这条船上,在即将驶出的时候,我划动了一把船桨,然后选择下船”。应届毕业生林清告诉作者。他同时拿到了大厂和创业新贵的offer,最后,他艰难地做了一个选择——大厂。而自学了11天大模型的许然,在去年毕业季拿到了上海一家医疗公司大模型算法岗的offer,成为AI风口下第一批就业的年轻人。工资开的不算高,仅是大厂的一半,但对非科班出身、没有相关实习经验的他来说这已经是最好的结果。
2025-05-13 15:42:52
1005
原创 35 岁不失业秘诀,大模型这个赛道越来越吃香(非常详细)从零基础到精通,收藏这篇就够了!
根据行业报告,近年来**AIGC(AI Generated Content)**领域岗位数量井喷式增长,AI大模型产品经理作为连接技术与市场的桥梁,正扮演着越来越重要的角色。这一趋势的背后,是企业对AI技术应用的迫切需求和对专业人才的高度渴求。然而,市场需求的激增也带来了人才供给的紧张,尤其是既懂技术又懂市场的复合型人才更是难求。是一个在人工智能领域中具有关键作用的职位,他们负责策划、开发和管理基于大规模语言模型(如GPT系列、BERT等)的AI产品。
2025-05-13 15:42:17
894
原创 什么是大模型微调?如何对大模型进行微调?大模型入门到精通,收藏这篇就够了
从GPT-3到ChatGPT,再到GPT-4和GitHub Copilot,微调在这些过程中发挥了重要作用。什么是微调?微调能解决哪些问题?LoRA又是什么?如何进行微调?本文将解答上述问题,并通过代码示例展示如何使用LoRA进行微调。微调的技术门槛不高,对于规模不超过100亿参数的模型,所需的硬件成本也不高(100亿参数的模型并非玩具,许多实际应用中会使用这种规模的模型)。即使是非专业的算法人员,也可以尝试微调自己的模型。除了ChatGPT和GitHub Copilot,微调还可以应用于许多其他领域。
2025-04-14 11:50:14
1308
原创 从零指令微调一个大模型:从数据清洗到模型训练实操(附代码和测试脚本)
本教程使用🤗HuggingFace TRL框架来完成微调代码的实现。TRL是一个强大且便于使用的微调框架,除了支持SFT外,也能轻松的通过接口调用DPO、PPO、GRPO等流行的强化微调算法。此外也完美兼容Transformers架构。
2025-04-14 11:49:37
1446
原创 费曼讲解大模型参数微调——小白也能看懂
人工超级智能(ASI)——聚焦AI数据、算法、思想、伦理等深度洞察,致力于AI先进科技、先进思想、先进文化。23篇原创内容公众号。
2025-04-14 11:49:06
1080
原创 从理论到实践:RAG、Agent、微调等6种常见的大模型定制策略 (2)
在这里,重新赋予时间价值,看到不一样观点。10年来,每日更新,从未间断,持续服务百万互联网人33篇原创内容公众号大语言模型(LLM)是基于自监督学习预训练的深度学习模型,训练数据量庞大、训练时间长,并且包含大量的参数。LLM在过去两年中彻底改变了自然语言处理领域,展现了在理解和生成类人文本方面的卓越能力。然而,这些通用模型的开箱即用性能并由于从零开始训练一个LLM模型需要大量的训练数据和资源,这对于中小型团队来说基本不可行。
2025-04-14 11:47:48
841
原创 大模型应用开发入门系列(1):Hello LangChain
我们在以前学习任何语言第一个入门小demo都是写一个Hell World!,同样我们在学习LangChain框架的时候,也以类似输出一个“Hell World!”的简单回复作为我们的入门demo案例在正式开始LangChain的实战学习前,需要配置一下环境。LangChain框架目前支持Python和TypeScript两种语言,这里我们选用处理人工智能更主流的Python语言来进行学习,有关JavaScript LangChain库的文档,可以点击这里。
2025-04-01 11:41:18
947
原创 小白入门大模型:LangChain
模型在高层次上有两种不同类型的模型:语言模型(language models)和文本嵌入模型(text embedding models)。文本嵌入模型将文本转换为数字数组,然后我们可以将文本视为向量空间。在上面这个图像中,我们可以看到在一个二维空间中,“king”是“man”,“queen”是“woman”,它们代表不同的事物,但我们可以看到一种相关性模式。这使得语义搜索成为可能,我们可以在向量空间中寻找最相似的文本片段,以满足给定的论点。
2025-04-01 11:40:09
1434
原创 有史以来最详细的卷积神经网络(CNN)及其变体讲解!!!
卷积神经网络是多层感知机(MLP)的变种,由生物学家休博尔和维瑟尔在早期关于猫视觉皮层的研究发展而来,视觉皮层的细胞存在一个复杂的构造,这些细胞对视觉输入空间的子区域非常敏感,称之为感受野。
2025-04-01 11:39:25
1370
原创 了解卷积神经网络,看这一篇就够了!
*卷积神经网络(CNNs)**是现代深度学习领域的基础模型之一,其设计充分利用了图像数据的局部相关性和空间结构特点。在。
2025-04-01 11:38:12
1038
原创 最新AI大模型数据集解决方案:分享两种AI高质量代码数据集生产方案
随着AI大模型技术的快速发展,自动化的数据抓取工具逐渐成为了主流,尤其是在需要快速、高效、可定制化的数据抓取时,Web Scraper API工具成为了许多开发者和数据科学家的首选工具。与第一种方式不同,Web Scraper API工具提供了图形化界面以及灵活的配置选项,能够帮助用户更快、更高效地抓取数据。
2025-03-19 15:38:06
981
原创 AI大模型训练微调与数据集准备的系统性教程
为复杂任务配置多 GPU 环境并自定义依赖。从头构建自定义数据集并支持多模态数据。除了 Unsloth,还有许多工具适用于大型语言模型的微调。以下是几个主流工具的介绍及其特点。Unsloth:适合单 GPU 快速实验,易用性高,推荐初学者和资源有限时使用。DeepSpeed:适合多 GPU 大规模训练,适用于工业级任务。Megatron-LM:专注于超大规模模型,适合研究人员。FairScale:PyTorch 扩展,适合分布式训练场景。
2025-03-19 14:57:25
1938
原创 Ai大模型agent LangChain入门环境搭建2025最新
Ai大模型agent LangChain入门环境搭建2025最新真的从0到1,跑出代码!(可能格式问题,电脑浏览器更佳!因为自己淋过雨,所以想给你打把伞~LangChain入门此处为语雀内容卡片,点击链接查看:https://www.yuque.com/qiaokate/su87gb/iawv1isi0qu6fktx环境配置:Ubuntu 18或20都可以。
2025-03-19 14:56:08
1249
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅