DeepSeek是什么 -- 面向普通小白的解读

在上一篇博客中(专业视角深度解析:DeepSeek的核心优势何在?-CSDN博客),我们对DeepSeek最近发表的三篇代表性论文进行了分析,从专业的角度阐述了DeepSeek产生突破的核心技术。在这一篇博客中,我们谈谈从一个普通小白的角度,应该如何了解和看待DeepSeek的核心技术,以及DeepSeek冲击波给业界和普通人带来的启示。

总的来讲,DeepSeek的成功预示着全球信息技术即将迎来一场基础架构的变革,其主要体现于两个关键特征:

(i) 硬件体系由算力驱动转向存储驱动。

(ii) 整体架构从依赖硬件转向依赖编程。

1. DeepSeek带来的冲击波

一个月前,美国军事圈正热议中国第六代战机;半个月前,媒体圈聚焦于小红书上的中美经济对比;而现在,全球科技圈的焦点集中在DeepSeek。

值得一提的是,DeepSeek V3的发布时间为2024年12月26日。仅仅一个月后,DeepSeek再次推出重磅更新:2025年1月20日发布的DeepSeek R1,成为真正引爆全球的版本。该版本的性能达到OpenAI o1的水平,但训练成本却低至不足560万美元,仅为o1的3%-5%。

需要强调的是,DeepSeek R1并非在技术性能上远超OpenAI o1,而是在保持相近或略优的性能下,大幅降低了训练成本和训练时间——两者的变革性影响不容忽视。

  • 训练成本的骤降:DeepSeek R1显著降低了对算力的需求,对英伟达人工智能算力卡市场形成巨大冲击。
  • 训练时间的革新:从原本6个月缩短至仅6天,AI软件的迭代速度将发生质变。

过去,AI模型在顶尖GPU硬件环境下的训练周期长达半年,相当于农业领域水稻种子从发芽、插秧、抽穗到收割的时间。而如今,DeepSeek仅需6天即可完成训练迭代。如果竞争对手的模型每次升级都要等6个月才能完成测试,而DeepSeek只需6天,即便起初性能不及对手,经过数轮迭代后,竞争优势将愈发明显。换句话说,即便对方拥有顶级的编程能力,也难以与DeepSeek抗衡。此外,DeepSeek的完全开源策略,使全球所有大模型软件公司不得不跟随其技术路线,否则就如同农业文明试图与工业文明竞争,终将落于下风。

DeepSeek的影响力迅速显现,其应用在美国苹果商店的下载量一跃至第一。

2025年1月27日,DeepSeek引发了纳斯达克股市震动,尤其是英伟达股价大幅下跌16.97%,此前一个交易日已下跌3.12%。紧接着,在1月28日(除夕),DeepSeek再度掀起风暴,正式开源多模态模型Janus-Pro。其中,70亿参数的Janus-Pro-7B模型在基于文本提示的图像生成排行榜上超越了OpenAI的DALL·E 3和Stability AI的Stable Diffusion,进一步巩固了DeepSeek在全球人工智能领域的领先地位。

英伟达在两天内市值蒸发超过 7000亿美元,跌去约五分之一的总市值。其中,1月27日单日市值蒸发约5900亿美元,创下美国股市历史上单日跌幅的最高纪录,并导致纳斯达克指数跳空暴跌3.07%

当然,这次英伟达已经美国股市的震荡,并不一定完全是DeepSeek之故,并且短期市场波动未必意味着长期趋势。1月28日,英伟达股价反弹8.93%,但1月29日再次下跌4.10%。然而,一个仅成立一年多、员工不足140人的中国公司,仅凭一款产品的发布,就对整个纳斯达克科技股板块产生如此巨大的潜在影响,这在历史上尚属首次。

英伟达股票在DeepSeek论文和程序发布后的第一个星期一下跌17%

中国在科技领域的这一震撼性突破,让整个社会为之沸腾。而人们最疑惑的问题或许是:为何DeepSeek能在AI这一看似美国遥遥领先的领域,带来如此巨大的突破? 换句话说,美国在AI领域的优势为何会存在如此大的改进空间? 如果这样的改进空间不存在,无论DeepSeek团队有多么出色的能力,也难以实现这样的飞跃。

实际上,这种巨大的优化潜力并不罕见,甚至可以说是信息技术领域的普遍现象。DeepSeek所做的,仅仅是捅破了这层窗户纸,让全社会都意识到了这一点。

要真正理解DeepSeek为何能实现这样的突破,专业人士可以直接阅读 DeepSeek R1 的研究论文,甚至去分析它的开源代码。但对于大多数普通网友而言,深入研究AI的专业技术细节可能会让人望而生畏,即使经过详细的科普,理解起来依然困难。此外,即便是专业人士直接研究DeepSeek的论文和代码,也未必能完全理解为什么它能带来如此巨大的改进

梁文峰于2025年1月22日在ArXiv上发布的DeepSeek-R1论文截图

因此,本文将尽可能使用90%以上的读者都能理解的语言,结合通俗的科普知识,解释为何美国式的信息技术存在如此大的提升空间——以及为何幻方量化创始人梁文峰的团队成功做到了这一突破。

2. 认识世界的两种路径

为了更好地理解本文的核心观点,我们不直接深入技术细节,而是先从最高层面出发,对科学认识世界的两种基本路径进行简要比较。这两种路径分别是:

  • 经验方法
  • 理论方法

2.1. 经验方法:基于历史知识的存储与匹配

从信息技术的角度来看,经验方法本质上是一种历史知识依赖型的方法。面对新问题时,经验方法不会深入系统地理解问题本身,而是直接通过对比存储的历史知识,找到最接近的匹配项,并针对差异部分进行简单调整,从而给出答案。

经验方法的关键特征
  • 算力依赖度低:由于主要依赖知识存储和查询,因此计算需求较少。
  • 响应速度极快:无需进行复杂运算,直接从已有数据中检索答案。
  • 可能缺乏完备性:不一定能提供最准确、深入的理解,可能无法揭示因果关系。
  • 通用性较低:在计算机编程中,经验方法往往需要针对特定问题定制,通用性相对较差。

2.2. 理论方法:基于数学公式的计算推导

理论方法的极致表现就是科学理论。例如,牛顿力学仅用四个定律的数学公式,就能描述所有经典力学下的运动规律;麦克斯韦方程组仅用了几个数学公式,就能完整描述电磁学的所有现象。

理论方法的主要特点
  • 知识存储量最小:相比经验方法,理论方法无需存储大量历史数据,只需存储核心数学公式。
  • 完备、因果关系清晰:能够准确描述系统的运作机制,具备较强的通用性。
  • 计算量大,算力依赖度高:理论方法需要通过大量计算才能得出具体的结果。

在实际应用中,理论方法的一个重要制约因素是计算量。为了获得精确结果,需要完整掌握边界条件,并进行大量数学运算。而在计算机中,由于CPU只能进行二进制加法运算,复杂数学计算(如三角函数)必须转换成加法运算的累加,这显著增加了计算量。

2.3. 经验方法与理论方法的结合

现实世界中的问题往往无法严格划分为“纯经验”或“纯理论”两类。许多经验公式虽然看似理论模型,但实际上仍带有统计性质,并不完全揭示因果关系。因此&#x

### 下载和使用 DeepSeek-Coder-V2 #### 获取项目代码 为了获取 `DeepSeek-Coder-V2` 项目的最新版本,可以按照如下方式操作: 通过 Git 命令行工具克隆仓库至本地环境: ```bash git clone https://github.com/deepseek-ai/DeepSeek-Coder-V2.git cd DeepSeek-Coder-V2 ``` 这会创建一个名为 `DeepSeek-Coder-V2` 的目录,并从中检出最新的源码[^1]。 #### 配置开发环境 进入项目根目录后,需设置合适的虚拟环境以及安装依赖项。通常情况下,建议采用 Python 虚拟环境管理器如 `venv` 或者 `conda` 来隔离不同项目的包依赖关系。具体命令取决于所选的方法: 对于 venv 用户来说, ```bash python -m venv env source env/bin/activate # Linux/macOS .\env\Scripts\activate # Windows PowerShell pip install --upgrade pip setuptools wheel pip install -r requirements.txt ``` 而对于 conda 用户,则执行下面这些指令: ```bash conda create --name deepseek python=3.x conda activate deepseek pip install --upgrade pip setuptools wheel pip install -r requirements.txt ``` 这里假设 `requirements.txt` 文件包含了运行该项目所需的所有库及其版本号信息。 #### 使用预训练模型 关于 `deepseek-coder-v2-236B` 这一特定变体,其主要特点是仅利用 Next-Token Prediction 方法来进行训练过程[^3]。这意味着该模型专注于预测序列中的下一个标记,在自然语言处理任务中表现出色。要加载此模型用于推理或其他用途,可参照官方文档或示例脚本内的说明进行调用。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值