yxiaoyu__-CSDN博客

原创大语言模型（LLMs）全面学习指南

大语言模型（LLMs）作为人工智能（AI）领域的一项突破性发展，已经改变了自然语言处理（NLP）和机器学习（ML）应用的面貌。这些模型，包括OpenAI的GPT-4o和Google的gemini系列等，已经展现出了在理解和生成类人文本方面的令人印象深刻的能力，使它们成为各行各业的宝贵工具。如下这份指南将涵盖LLMs的基础知识、训练过程、用例和未来趋势……大语言模型（LLMs）是一种深度学习模型，专门设计用于理解、分析和生成类似人类的文本。

2024-07-27 16:15:00 334

原创当心被骗！LLM已涌现欺骗能力

大型语言模型（LLMs）作为人类的智能助手，正以难以置信的速度进行迭代，然而模型越来越高的智能化水平也带来了潜在风险，引发了人们对AI一致性和安全的担忧。现有的研究不仅表明AI在处理复杂推理任务时展示了与人类类似的行为模式，同时发现智能化水平较高的LLM会产生欺骗行为，例如通过假装失明诱骗工作者帮助其解决验证码问题，AI agent在外交游戏时会背叛盟友以获取胜利等。除了输出生成错误或误导性答案，欺骗还涉及某种目的，展现出一种可扩展和意识性的系统策略，即诱导他人产生错误信念，并为自身获益的行为模式。

2024-07-27 09:30:00 373

原创模型如何“天天向上”？大语言模型持续学习综述

近期，基础语言模型（Foundation LMs）在自然语言处理（NLP）和计算机视觉（CV）领域取得了显著的进展。这些模型通过在大规模无监督数据集上预训练，不仅掌握了丰富的知识，还展示了良好的迁移学习能力。然而，这些模型无法像人类那样“天天向上”，存在着灾难性遗忘问题。为了确保模型在适应新任务时保留已有知识的同时学习新知识，研究者们提出了一系列基于持续学习（Contiual Learning, CL）的方式。

2024-07-26 18:45:00 340

原创目前最全的！国内AI大模型名单！百家争鸣！

短短半年多时间，百川智能便接连发布了Baichuan-7B/13B、Baichuan2-7B/13B四款开源可免费商用大模型，以及Baichuan-53B、Baichuan2-53B两款闭源大模型，平均每28天就会有一款新的大模型问世。它不仅提供卓越的文本生成和创作服务，支持文本或图片输入生成高质量、多风格的图像，更拥有强大的智能编辑功能，无损放大、智能消除、智能抠图等操作一应具备，助您轻松创作精彩图像。科大讯飞倾力打造的星火认知大模型，作为新一代的认知智能典范，展现了跨领域的知识和语言理解能力。

2024-07-26 13:30:00 330

原创大模型真的在吞噬人类的一切数据吗？

大模型真的在吞噬人类的一切数据吗？我们是否正处在一个看似无尽的数字香料狂潮中，不断地向这些饥渴的大模型提供养分？

2024-07-26 09:00:00 516

原创什么是大语言模型

想象一下，你面前有一个拥有数十亿颗魔法珠子的盒子，每一颗珠子都代表着对语言的深刻理解。这就是大语言模型——一种拥有数亿乃至数十亿参数的自然语言处理领域的突破性技术。它通过深度学习，特别是强大的Transformer架构（一个能巧妙处理序列数据的秘密武器），学习语言的统计规律和模式，进而学会了捕捉人类语言的精髓。就像懂得读心术一样，它们能理解上下文，生成连贯、准确的对话或文章，仿佛是语言的艺术家。变换器（Transformer）

2024-07-25 20:00:00 704

原创对语言大模型的现状总结与趋势

模型：Transformer拥有强大的表示能力，能对具有组合性(compositinality)的语言进行很好的表示和学习。预训练（pre-training）：使用大规模文本数据进行语言建模（language modeling），学习进行的是数据压缩，也就是单词序列的生成概率最大化或预测误差最小化。

2024-07-25 12:00:00 550

原创 LLM对程序员的冲击和影响

1 LLM 在软件开发过程中的单点提效智能代码提示代码片段智能生成SQL 语句的智能生成与调优更高效更精准的静态代码检查与自动修复（非 rule-based）智能辅助的代码评审与代码重构单元测试和接口测试代码的自动生成更高级的重复代码检查（语义重复检查）失败用例的自动分析与归因更精准的技术问答。真的是这样吗？要回答这个问题，我们需要从全局来看问题，首先我们要搞清楚，LLM 对于软件研发，什么变了？什么没有变？2 LLM 对于软件研发，什么变了？

2024-07-25 10:00:00 899

原创 AI发展迅速，程序员该如何跟上步伐？

随着 ChatGPT 的横空出世，给全球带来了巨大冲击，各种大语言模型如雨后春笋不断出现。国外如谷歌 Bard、Anthropic 的 Claude，国内如百度文心一言、阿里通义千问、讯飞星火认知大模型、昆仑万维天工大模型等。现在的大语言模型比以前的模型的代码生成、代码解释能力有了质的飞跃，很多程序员已经开始使用大语言模型编写代码，因此很多人认为 “程序员将会被 AI 所取代”。本文将重点谈论两个话题：对于大语言模型的出现，你认为它是否能够真正取代程序员？

2024-07-24 19:30:00 575

原创华为云大模型年度杀招来了，人形机器人现场整活

最令人震撼的是，它还现场展示了一段高难度的舞蹈表演，动作精准、节奏明快，仿佛一位真正的舞者在舞台上翩翩起舞。在科技的浩瀚星空中，华为云以其卓越的创新能力和深厚的技术底蕴，再次点亮了一颗璀璨的星辰。而在这场科技盛宴中，最引人注目的莫过于华为云大模型技术的巅峰之作一款高度智能化的人形机器人，它以无与伦比的姿态，现场演绎了一场关于未来科技的震撼篇章。在人工智能的浪潮中，华为云始终站在潮头，引领着技术的航向。大模型技术作为AI领域的核心驱动力之一，华为云在此方面投入了大量研发资源，积累了丰富的技术经验。

2024-07-24 12:15:00 453

原创【技术观点】AI大语言模型10大安全风险的思考

综上所述，大模型是人工智能的发展趋势和未来，在技术上带来了重大进步和广阔前景，但其应用也伴随着一系列复杂的风险和挑战，需要各行业在开发使用过程中谨慎思考、不断优化。**个人隐私泄漏：**大模型可能需要大量个人数据进行训练和优化，这些数据如果泄漏或不当使用，会对个人隐私造成严重威胁。**滥用风险：**大模型可能被恶意使用，包括生成虚假信息、进行欺诈等，导致制造混乱、操纵市场或扰乱公共秩序。**歧视性结果：**如果训练数据不足或不平衡，大模型可能产生偏见或歧视性结果，导致不公平的决策与推荐。

2024-07-24 08:45:00 803

原创为什么要学习大模型应用开发？

你就拿一个人家训练好的波尔模型拿过来，然后在下游进行或者分类，或者说NE2，去接一下不同的下游处理，就可以直接上手处理不同的任务，或者一般还是需要微调的，所以你再训练一下就可以解决实际问题了。这就是游戏里需求，也非常大。当然说让它完全替代你的代码不可能，但是你可以用它给你写一些框架性东西或具体的一个小问题，可直接让他写，然后拿过来你试下好不好用，甚至有bug也可以让他改一下。就好像你开发应用一样，你现在去开发操作系统，你除非说国产替代，正常来讲，微软和苹果已把操作系统完全占领，你不可能再打开空间。

2024-07-23 20:30:00 849

原创国产大模型，烧出个未来？

OpenAI的一个动作，让国内大模型厂商又“卷”起来了。OpenAI近日推送的邮件信息显示，自7月9日起，OpenAI将采取额外措施，阻止来自不在OpenAI支持的国家和地区列表中的API（应用程序编程接口）流量。随后，包括百度、商汤、智谱AI在内的多家大模型公司宣布提供“零成本”迁移服务。

2024-07-23 11:30:00 860

原创速看！AI大模型性能最新排名

今天我们来盘点一下主流AI大模型各方面性能的最新排名，分别从质量、速度、价格、对话能力、推理能力、编码、响应时间等能力来进行对比。

2024-07-23 09:15:00 297

原创大模型来了，你要裁员吗？

*“**大语言模型拓展了机器学习模型的能力，可以根据各种定性提示词生成相关文本和图像。随着这项技术被广泛采用，人类的许多工作会被取而代之或大量削减。然而在现实中，要在组织环境下有效使用大语言模型，远比人们通常认为的更复杂。大语言模型的潜在应用领域主要集中在现有信息的处理利用方面，包括总结内容和生成报告（占用例的35%），以及从文本（例如包含财务信息的PDF文件）中提取信息，并据此创建表格（占用例的33%）。

2024-07-22 16:45:00 927

原创浅谈AI大模型的数据特点和应用问题

*大模型的数据对计算资源和电力资源消耗巨大。中小企业对于云上大模型的数据开发利用存在后顾之忧，担心大模型内部类似“黑盒”的处理过程违规收集数据，担心计算过程中的托管数据和产生的高价值敏感数据可能被平台方获取，同时也担心平台采用的多租户隔离技术存在数据泄露风险，因此不愿意分享高质量的训练数据和开发潜在的数据价值。如何将大模型中的价值数据转化为可量化、可交易、可持续增值的资产，并推动大模型产业和数据要素市场的高质量健康发展，是当前大模型平台方、数据持有方、数据使用方和数据监管方等多元主体共同关心的话题。

2024-07-22 11:15:00 1396

原创 AI大模型，爆发了

举例来说，酒店服务机器人这个场景，可能对“涌现”就没有这么高的要求，目前大模型的能力已经能够很好地理解人类语意，并且生成较为符合场景的内容，对酒店服务机器人的用户体验提升，已经超过10倍。在这一轮的康波周期中，生产力的突破特征，体现在 AI大模型取得了里程碑式的进步，人类首次看到了AGI的曙光。国内的金山办公、腾讯文档、飞书文档；我选取了几家做大模型行业应用的公司做了调研，非常惊讶于大模型在各行业中应用的速度，而且已经有了相对成熟的落地场景，这些行业包括：金融、影视、游戏、教育、电商、交通、医疗等等。

2024-07-22 07:00:00 702

原创 “狂飙”过后，大模型未来在何方？

开幕现场，智源研究院、OpenAI、百度、零一万物、百川智能、智谱AI、面壁智能等国内主流大模型公司CEO与CTO，人工智能顶尖学者和产业专家，在围绕人工智能关键技术路径和应用场景展开精彩演讲和尖峰对话。开幕式由智源研究院理事长黄铁军主持。现场，智源研究院院长王仲远分享了智源研究院在语言、多模态、具身、生物计算大模型的前沿探索和研究进展，以及大模型全栈开源技术基座的迭代升级与版图布局。

2024-07-21 09:15:00 520

原创大模型之战，下半场是智能体？

百度搜索更是已经陪伴用户20多年，每天满足用户数十亿次的搜索需求，现在百度搜索摇身一变，成为AI普惠的最好窗户，目前，百度搜索有11%的搜索结果是由AI生成的，在搜索生态内，越来越多的智能体正在为用户提供更好的内容和服务。但对于大模型赛道的未来而言，更关键的，是如何打造自身独一无二的特性，如何让技术创造真正的价值。很难讲，这些用户们用脚投票的结果，会不会诞生下一个AI时代的超级应用，但至少，百度移动生态已经在让AI触手可及，现实可用，已经有越来越多的家长、职场打工人、学生党，在用AI育娃、办公和求学。

2024-07-20 11:45:00 1683

原创 AI大模型时代，程序员如何保持竞争力？

技术的演进所经历的阶段宛如一个轮回，回顾2011年，全球化移动应用市场大门打开之际，掘金海外还是瞄准国内市场、专注iOS还是Android亦或者是HTML5跨平台开发等都成为开发者抉择的方向。12年后，开发者再次站在选择的十字路口，正如技术社区三倍速定律所彰显的那样，“一个技术要进入到真正的生态应用里，首先是在学术界被大家认可，接着进入到工程界，最后才进入大众视野。因此技术社区的动向往往能反映出未来的技术趋势”。

2024-07-19 19:00:00 1067

原创大模型发展趋势：多模态、自主智能、边缘智能…

大模型带来的机会方面，除了互联网大厂掌握的文字、图片、视频生成等方面之外，对于新的企业来说，从自然领域，如生物、化学、材料等领域去探索，或许会看到新的机会。现在，一个非常明确的点就是，大模型作为一个助手，它能够提供各种辅导的意见，但最后的决策还是在人，现在这种作为助手的大模型已经做得非常好，这是大模型发展的第一步。马维英考虑的是，希望不只是把人类只能作为模仿的关键，他认为生物、自然领域也有很多机会值得探索，如生物、化学、材料等，很多新的能源是否能够用AI去合成，在他看来，这些领域在未来十年会有巨大的机会。

2024-07-19 14:45:00 359

原创使用AI大模型的正确姿势！接入知识库、微调，5种方法，总有一种适合你

真正的魔力在于结合这些方法：提示词、RAG、微调、切换模型和使用多模态大模型。利用每种方法的优势，并将其应用于文本和图像数据，以此用大模型提升你的生产力。

2024-07-19 13:00:00 1596

原创取代后端岗，中国又一新兴岗位在崛起！这才是程序员未来5年最好的就业方向！！

以ChatGPT为代表的大模型技术的出现，让算法工程师重新成了炙手可热的岗位。现在国内各家大小厂都在搞大模型算法，投入了巨量的人力物力财力，都不愿意放弃这个百年难遇的机会，像字节，腾讯，京东等大厂也增加了很多大模型和算法的岗位，，只要你稍微懂点大模型算法相关技术，在应聘的时候就会很占优势，就能早日实现自己的小目标。作为一名热心肠的互联网老兵，我决定把宝贵的AI知识分享给大家。至于能学习到多少就看你的学习毅力和能力了。

2024-07-18 18:00:00 872

原创争光了！中国AI大模型全球排名第一

目前中国的AI实力还是可以的，只是很多人不认可，而这次的排行榜阿里用实力告诉大伙，中国AI技术并不比国外的差，甚至还遥遥领先。现在AI开源大模型阿里已经的排名第一了，虽然OpenAI不让你用，但相信在不久的将来，会有越来越的人使用阿里的通义千问Qwen2-72B。希望阿里也能顶住压力，砥砺前行，更上一层楼吧。

2024-07-18 10:29:39 889

原创原创 | 大模型扫盲系列——初识大模型

作为相关从业人员，可以开发更高效，更稳定的训练算法，不断探索大模型的上限，作为普通人，我们更需要拥抱这个技术，至少在日常工作和生活中也能享受到其带来的巨大便利。**5）公司业务定制化大模型：**大模型具有通用性能力，但是在很多零样本的场景的表现依然比不上那个领域正在使用的产品，例如在某些垂直领域，包括工业领域，医药领域，管理领域等场景下进行专业问题，研究型问题的使用依然需要特定场景的数据进行微调，这种定制化的服务也能给企业带来巨大的效率提升和节省成本的收益，属于比较有前景的业务。

2024-07-18 08:30:00 900

原创一文详细梳理！大模型从理论到实战落地必备干货！

在人工智能的浩瀚星辰中，大模型犹如璀璨的北极星，引领着技术的前沿方向。它们不仅代表了深度学习领域的最新突破，更成为了推动各行各业智能化转型的关键力量。本文笔者总结了大模型从理论研究到实战落地所需具备的所有知识干货，与大家分享~

2024-07-17 15:15:43 979

原创什么情况需要微调定制属于自己的大模型

在预训练阶段，模型通过学习大量的数据来提取特征、理解语义和推理能力，从而对通识知识，代码知识获得一般性认识。质量较高的预训练数据可以增强模型的泛化能力，减少在后续特定任务上的训练调优时间和资源消耗。预训练是一种无监督学习方式，是指使用随机文本片段在大规模数据集上对神经网络模型进行初始训练，以便模型能够学习广泛的特征和知识。预训练使用的训练数据格式，「只有输出」，没有输入的标签。大模型使用这种大量没有标记的数据来自己学习训练数据中数据的规律（中英文语法，代码语法，通识知识等）微调使用。

2024-07-17 12:30:00 1678

原创大模型热潮下的AI未来：从喧嚣到实干的转型之路

随着2024年世界人工智能大会的圆满落幕，一场关于“大模型热”的讨论正逐渐从理论探讨转向实践验证的深水区。这场由技术创新驱动的热潮，不仅吸引了全球的目光，更预示着人工智能领域即将迎来一场前所未有的变革。然而，在这股汹涌澎湃的浪潮中，冷静的声音也开始浮现，提醒我们：光有“屠龙之术”的炫目，远不足以支撑行业的长远发展，真正的考验在于如何将技术转化为实际的生产力。傅盛等业界领袖的洞见，揭示了当前大模型行业的残酷现实：未来一两年内，行业将经历快速分化，独立的大模型企业或将难以为继。

2024-07-17 08:30:00 928

原创一文看遍AI行业大模型

将大模型作为研发或孵化项目，不强求短期财务指标的绝对达成，而是关注业务、技术等指标的相对提升。通用大模型技术快速发展，但很多传统行业推进得并不快。对企业而言，大模型应用需要综合考虑专业性、数据安全、持续迭代和综合成本等多种因素。针对这些现实情况，腾讯集团提出重点发展行业大模型的理念。本文基于一线大量实践反馈，做出系统归纳总结，呈现行业大模型发展真实情况，厘清关键争议和困惑问题。真正解决用户需求、距离场景和数据更近的企业，将拥有大模型的未来。

2024-07-16 13:50:56 621

原创大模型时代下，程序员和产品经理需要做出怎样的转变？

过去一年，Open AI将通用大模型训练的结果，通过ChatGPT的应用形式带到大家面前，意味着发展了大半个世纪的人工智能领域正式步入了广泛意义生产力提升的新纪元。在AI大模型的加持下，程序员现有的编程范式将会遭到怎样的冲击？面向全新的AI应用时代，开发者的思维、开发方式、工具又该做出怎样的改变？

2024-07-16 11:15:47 942

原创零基础入门AI：一键本地运行各种开源大语言模型

Ollama 是一个可以在本地部署和管理开源大语言模型的框架，由于它极大的简化了开源大语言模型的安装和配置细节，一经推出就广受好评，目前已在github上获得了46k star。不管是著名的羊驼系列，还是最新的AI新贵Mistral，等等各种开源大语言模型，都可以用Ollama实现一键安装并运行，支持的更多模型的列表可以查看Ollama官网。本文就让我们一起入门Ollama。

2024-07-16 09:32:56 753

原创大模型时代，新手和程序员如何转型入局AI行业？

在当今大模型迅猛发展的环境下，人工智能的应用越来越广泛。然而，这些大模型的背后隐藏着更为深厚的基础技术——传统机器学习和神经网络。理解这些基础技术，不仅能够帮助我更好地使用大模型，还能为我提供创新和解决实际问题的能力。因此，在这个AI迅猛发展的时代，掌握传统机器学习和神经网络显得尤为重要。

2024-07-15 15:48:46 817

原创大模型系列：LLM-Eval大模型评测理论简述

随着越来越多的大语言模型被发布和使用，如何对大模型的能力进行评测（LLM Evaluation）成为一个新的课题，本篇对大模型评测的基础知识做简要综述介绍。

2024-07-15 13:47:35 785

原创基于大语言模型的合成数据生成、整理和评估综述

大语言模型的出现引发了深度学习领域的显著范式转变。尽管有这些进展，大量高质量数据仍然是构建稳健自然语言处理（NLP）模型的基础。然而，由于高成本、数据稀缺、隐私问题等原因，依赖人类数据来满足这些需求有时是具有挑战性甚至是不现实的。此外，多项研究表明，人类生成的数据由于其固有的偏见和错误，可能并不是模型训练或评估的最佳选择。这些考虑促使我们更深入地探讨是否有其他更有效和可扩展的数据收集方法可以克服当前的限制。

2024-07-15 10:36:04 399

原创大模型落地实战指南：从选择到训练，深度解析显卡选型、模型训练技、模型选择巧及AI未来展望---打造AI应用新篇章

在1950年代初期，人们开始尝试使用计算机处理自然语言文本。然而，由于当时的计算机处理能力非常有限，很难处理自然语言中的复杂语法和语义。随着技术的发展，自然语言处理领域在20世纪60年代和70年代取得了一些重要的进展。例如，1970年，美国宾夕法尼亚大学的Adele Goldberg和David Robson创建了一个名为Lunenfeld Project的系统，它可以进行自动翻译。同时，中国科学院自动化研究所也在20世纪70年代开始研究自然语言处理技术，主要集中在机器翻译领域。

2024-07-13 18:01:43 999

原创如何使用 LoRA和Hugging Face高效训练大语言模型

在本文中，我们将展示如何使用 [大语言模型低秩适配 (Low-Rank Adaptation of Large Language Models，LoRA)](https://arxiv.org/abs/2106.09685) 技术在单 GPU 上微调 110 亿参数的 FLAN-T5 XXL 模型。

2024-07-13 16:07:53 716

原创简单通俗的来讲讲大模型的基本概念

ChatGPT、Open AI、大模型、提示词工程、Token、幻觉等人工智能的黑话，在2023年这个普通却又神奇的年份里，反复的冲刷着大家的认知。让一部分人彻底躺平的同时，让另外一部分人开始焦虑起来，生怕在这个人工智能的奇迹之年，输在起跑线上。

2024-07-13 09:30:42 470

原创 “大模型微调策略全览：方法与实践的深入总结“

前言：随着chatGPT的备受欢迎，大模型异常火爆，各大厂商相继推出自己的大模型。　　二级公司和用户需要根据自身的垂直领域微调这些具有语义理解能力的大模型，以满足特定领域的业务需求，如医疗，法律咨询等。　　但是当微调这一类比较大的模型时，更新所有参数不太可行。以 GPT-3 175B 为例——部署微调模型的独的成本极其昂贵。huggingface上的框架。如 1 指令微调 huggingface有PEFT 2 强化学习的human feedback ， huggingface有TRL框架

2024-07-12 19:45:00 983

原创 Linux之父讽刺AI炒作：很搞笑，大概我也会被大模型取代

几天前，由 Linux 基金会主办的北美开源峰会（Open Source Summit North America）在华盛顿西雅图闭幕。会上，Linux 之父 Linus Torvalds 与其好友、Verizon 开源项目办公室负责人 Dirk Hohndel 展开了一场对话，深入探讨了 Linux 开发及相关问题。外媒 ZDNet 对他们两人的对话进行了整理。

2024-07-12 13:48:48 897

原创 2024年 50款顶尖热门AI工具全面盘点（必收藏！）

随着越来越多的AI工具被创造出来，作为一个`AIGC`玩家，着实有点让人眼花缭乱。因为很多AI工具都是在其中某一个领域（例如`写作`、`绘画`、`创作视频`等）具有非常突出的表现，所以，一时间都不知道到底哪个工具才是最适合自己的。因此我花了一个多周的时间，为大家整理了`50`多款现在市面上较受欢迎的`AI工具`，并将它们进行归类，结合它们各自的`优势`进行分析，也帮大家节省掉去寻找和盲目试用AI工具的时间。

2024-07-12 11:39:56 1031

空空如也

空空如也