我们该如何看待DeepSeek——what, how, why, and next? 湖南大学 2025

25f04c692fb1900999e87a8d5035ffcd.jpeg

该文档围绕 DeepSeek 展开多方面的介绍与分析,主要内容如下:

DeepSeek 概述

  • 与 ChatGPT 对比及自身优势:ChatGPT 发布后用户增长迅速,而 DeepSeek - R1 具有独特优势。它是首个展示思维链过程的推理模型,在处理问题时能像人类一样逐步推导,如回答从长沙到武汉的驾车时间等问题时,会综合考虑距离、路线、车速、路况、天气、驾驶习惯等因素,相比非推理模型更具逻辑性。同时,其价格亲民,如 deepseek - chat 模型和 deepseek - reasoner 模型在输入输出价格上比 o1 模型低很多,且部分模型可本地安装使用,是首个开源的推理模型,为纯国产,技术创新且训练和推理高效,性能在多个领域领先,用户增长极快,7 天破亿。

  • 基本概念(用户角度):可通过 DeepSeek 官网、秘塔搜索、360 纳米 AI 搜索等多种渠道使用。其涉及的术语概念包括 Prompt(用户输入内容)、Token(输入输出最小单位)、上下文长度等,调用服务有普通调用和文件及联网搜索(RAG)两种方式,区别在于数据来源是否能及时更新。

DeepSeek 功能与应用

  • 功能领域广泛:涵盖智能对话、文本生成、语义理解、计算推理、代码生成补全等,支持联网搜索与深度思考模式,能处理多种任务,如写诗、写代码、数据分析、文稿创作、教学辅助等。

  • 应用案例展示:在写书方面,可为编译原理书稿提供案例片段并进行多方面分析;在数据分析上,可分析公务员录用人员情况;咨询分析中,能评估专家研究特长并给出建议;还能编写抽签小程序、设计幼儿园科普讲稿等,展示了其在不同场景下的应用能力与方法。

DeepSeek 能力与局限

  • 能力体现:具备逻辑推理、文字生成、搜索总结、代码生成等能力,能在多领域辅助用户完成任务,减轻工作量,为用户提供帮助和支持。

  • 局限性:不是通用人工智能(AGI),用户需具备一定问题拆解等能力;可能出错,知识并非无所不包;不能直接处理多模态数据;受上下文长度限制;在模型效果上并非绝对领先且处于不断发展变化中。

DeepSeek 原理剖析

  • Transformer 基础:Transformer 是大模型常用神经网络,主流大模型多基于此。其流程包括输入 token 编码(Embedding)、计算 token 关系(Attention)、理解 token 含义(MLP)以及编码还原输出(Unembedding)等环节,各环节通过特定矩阵运算实现,数据和参数规模越大模型越聪明,达到一定规模会出现 “涌现” 现象,训练后还可通过后训练对齐提升性能。

  • 模型发展历程:幻方公司早期投入 AI 研发,具备一定硬件基础。DeepSeek 公司 2023 年成立后不断创新,从开源 DeepSeek LLM 系列模型,到 2024 年对 Transformer 结构改造推出 DeepSeek - V2 等系列模型,再到 2024 年底的 DeepSeek - V3 基座模型达 SOTA,2025 年开源 DeepSeek - R1 推理模型,在模型结构和性能上持续进步。

未来关注重点

  • 基于梅特卡夫定律,随着 DeepSeek 等使 AI 用户量增长,生态可能爆发。需关注行业应用(如 IT、教育等领域)、公共平台(模型云服务等)、模型算法(包括 DeepSeek 及其他模型)、系统软件(训练框架等)、算力底座(芯片、高性能网络等)等环节。国产 AI 芯片虽有机会但在大规模训练和推理效率上有短板;系统软件开源且更新快,但对本地部署玩家有要求;模型算法受硬件禁令影响有创新压力;行业应用需求大但需扎实落地;公共平台功能与用户体验等方面有待发展,知识库服务平台可能成为创业赛道。

后台回复“250225A”,可获得下载资料的方法。

be6680586c94ba9f4634a8af4e6386a7.jpeg

907b0d427f672dbd7bea0af33efcf310.jpeg

8905b2eee8b1221b1a44ee3d492fe6e0.jpeg

edd18586c547c30ec52e608d46824cba.jpeg

3756f2dc92e7116b4242ca60a1756e02.jpeg

4b3de890c94d39dcf65f61eb4501e22c.jpeg

b8b41f773c6565c51963b2ec7940ef9f.jpeg

848034a7e7019ff4cf8cb621640177a1.jpeg

df6b8cdd526e02e6f6175db65e989c38.jpeg

d53d8b6c6a1eb037cbaa4dbff01fb0c6.jpeg

3de10a1f72913430fd3bdaf9dfc58781.jpeg

0bc098aff8caef3e46e910bf489dd6bb.jpeg

7c7d7a2551dc708530d0bc449257e5bd.jpeg

40dfab4f5c7d14e59ba3bf6f1966779e.jpeg

b862c9be42abce96c5a52e824e75546d.jpeg

7623901b2841b3b544ff394f018a1a38.jpeg

d737effae8c2e1657c5e4613118776c0.jpeg

20dda255d6d35375c8c58bcd7bf7e460.jpeg

d7ba2a2cac62d237829aa0bd27bf9acd.jpeg

529bee0956f6fadf4be2b5d3954c7b24.jpeg

08a0f16a01d5292ebf8e4977876bd50e.jpeg

bc9fcfef76732a27a3ccb355fa6acee8.jpeg

a51b2fb7a6c053f1a69bb406589227e2.jpeg

bb91cacef8a31cce0c80d97db77bdf97.jpeg

39e130e2f8af48d4819311782a10d645.jpeg

86d8486c733554b23ef2f991b602699b.jpeg

c15bb5cd9f4cf9db90322970234c4dc9.jpeg

d4d80d674ecefeb0e07f1fb5b98b8830.jpeg

970aaf67059896056f38f259eb3d2d56.jpeg

657ca82bdb6361cfc32ebf1affe4a75c.jpeg

e5c7c1f4e928612cd9895d1c1390e252.jpeg

48a1891cadbca4775a0a48529c27dc24.jpeg

d09787d272700c47cf5eeefa70e770fa.jpeg

32bc85477e214b9b9a6a3fe6338c32ae.jpeg

82b795a75f78a79a47356fa4d2626f75.jpeg

06da7d9bc4328157837b29f88b379cc8.jpeg

dc9b3af714ce8a8366e7f07f403be1a8.jpeg

decb29094cdc5e1b59870f1b1ef21de2.jpeg

f47a5e8f4ada2a718d575cb739e40627.jpeg

本公号使用腾讯元器(使用DeepSeek R1大模型)创建了智能交通技术AI服务,欢迎扫码进入体验(或在后台私信公号)。

24a83177f452559fd3ed1adb2ef26f58.jpeg

点击文后阅读原文,可获得下载资料的方法。

6862eb322eef6c283573d1db3a5b7cc9.png

### DeepSeek Knowledge Base and Resources Overview DeepSeek represents a significant advancement in the field of large language models (LLMs). For those interested in exploring resources related to DeepSeek, several avenues are available that can provide comprehensive information on this topic. The GitHub project named “awesome-LLM-resources” offers an extensive collection of LLM-related materials covering various aspects such as data, fine-tuning, inference, evaluation, RAG, Agent, search, books, courses, tutorials, papers, and tips[^2]. This repository serves as a valuable starting point for anyone looking into advanced LLMs like DeepSeek. Although not specifically focused on DeepSeek, it provides broad coverage of relevant topics which may include references or comparisons involving DeepSeek. Additionally, when creating resource stacks using templates similar to what is described under 'Resources' sections within cloud formation documents[^1], one could structure projects around collecting and organizing specific assets pertinent to studying or implementing solutions with DeepSeek technology. For direct access to official documentation or specialized forums dedicated solely to DeepSeek, visiting its primary website or joining community platforms where discussions about cutting-edge AI technologies occur would be beneficial. These sources typically offer up-to-date insights directly from developers working closely with these systems. #### Example Code Snippet Demonstrating Resource Stack Creation ```yaml Resources: MyResourceStack: Type: "AWS::CloudFormation::Stack" Properties: TemplateURL: https://example.com/deepseek-template.yaml Parameters: ProjectName: "DeepSeekProject" ``` --related questions-- 1. What types of datasets are most commonly used for training models like DeepSeek? 2. How does the architecture design of DeepSeek differ from other leading LLMs? 3. Can you recommend any particular tutorial series focusing on practical applications of DeepSeek? 4. Are there any notable research papers discussing advancements made by DeepSeek's development team?
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值