Azure OpenAI的配额限制
概念
OpenAI使用RPM(每分钟请求数)和 TPM(每分钟令牌数)进行速率限制,即配额限制,二者若其中一个到达上限,都会被进行限制。
以2023年12月1日Azure OpenAI中语言模型的配额限制为例,其中GPT-3.5-Turbo的TRM限制为240k,即每分钟请求的token数上限为240k,RPM上限为每分钟可进行1440次请求(每 1000 TPM 为 6 RPM)
配额分配原理
Azure OpenAI的配额按区域、模型分配给你的订阅。
区域互不干扰:例如East US中GPT-3.5-Turbo有240k TPM可分配,France Central中GPT-3.5-Turbo也有240k TPM可分配,互不干扰。
模型互不干扰:例如East US中GPT-3.5-Turbo有240k TPM可分配,East US中GPT-3.5-Turbo-16k有300k TPM可分配,互不干扰。
可在“Azure OpenAI Studio”,对订阅下的 全部区域模型 配额使用量 进行查看