Cerebras Systems推出Cerebras Inference:重塑AI推理市场
8月28日,Cerebras Systems宣布推出Cerebras Inference,一款被誉为全球最快的AI推理解决方案,其性能和定价策略有望彻底改变AI应用开发的格局。该解决方案在Llama 3.1 8B模型上实现了每秒1800个token的处理速度,在Llama 3.1 70B模型上则达到每秒450个token,性能超越微软Azure等超大规模云服务中基于英伟达GPU的AI推理解决方案20倍,同时提供远低于主流GPU云服务的定价,起价仅为每百万个token 10美分,性价比提升高达100倍。
原创
2024-08-28 10:10:45 ·
437 阅读 ·
0 评论