并不真的听起来更简单。它只是增加了一条额外的线程。而且现在它正在工作。最大的问题是当我从一个打包的LongLong中提取它时,我弄混了宽度和高度。
Deepseek为何这么牛逼?
deepseek是基于推理型的模型,而不是指令型模型,有四个核心技术值得大家借鉴
采用MLA新机制
引入了入多头潜在注意力(Multi-Head Latent Attention)MLA机制
比起传统的Transformer架构的几个挑战:如内存占用巨大,线性扩展问题,实际应用问题,mla机制通过键值的压缩-解压缩机制使得模型可以在显著减少内存占用的同时,保持甚至提升性能。
数据处理
DeepSeek通过蒸馏技术和Quantization技术用FP8低精度的数据格式进一步压缩数据集和降低内存需求
采用MoE混合架构
MoE引入共享专家和路由专家的机制,就是让模型的训练时只启动需要的结构和参数,大大降低了资源消耗。
跟ensemble不同的地方,MOE的子模型是根据不同的任务建模,并且多了一个门控单元。
更优惠的算力价格
从去年5月发布V2以来,DeepSeek模型服务就以「价格屠夫」示众,总是比行业其他模型便宜1/20左右
在看看这个力度,简直是众多且和个人开发者的福音。
从整体的发展方向上来看
从长远来看,美国的大体方向是搞错了,开源才是算力倾销,解放算力,人人都能低成本使用AI,包括国产芯片华为也得给deeoseek磕一个。
还有一个重点是搞出deepseek的这群年轻工程师,以后他们能搞出啥玩意我都不敢想,这不又要放五个炸弹出来了。
论技团队deepseek技术团队是一流的,都是杭州本机的大模型人才,并没有像美国用非本国本土的华人。它的开源让其大模型可以找到适合它的土壤。我不相信一开始就设定标准答案宣传“红色”价值的人工智能,可以一直优化自己。国外大厂已经大量接入了,足以说明,确实有点东西。
在看看中美之间对AI的格局
美国的AI企业家们纷纷哭喊着要政府保护,中国的AI企业家却通过开源来追求世界大同。。。真的是百年未有之大变局。
另外,DeepSeek被誉为“AI争霸战的国家资产”,它是否比chatgpt强大不重要,重要的是它能让某股蒸发几万亿,让某国正在打造的技术垄断玻璃缸直接挨一板砖。
依我过去多年外企的经验,美国IT界对中国和中国AI有极大的偏见的人是很多的,特别是高层,而一般的基层员工要理性得多。这种偏执同这些高层在科学和商业上的理智和成功形成了很大的反差。
看看马斯克,马斯克对deepseek绝对不怀好意。马斯克的底裤和成色,也被deepseek看的清清楚楚。
最后,我想说的是DeepSeek的横空出世,正是打破美西方在高科技领域封锁我们一把利剑,直接刺透了他们的最后一层铠甲。加紧封锁没什么可怕的,可怕的是没有骨气和胆量。