速率说明
速率限制
1、什么是速率限制?
速率限制是 API 对用户在指定时间段内可以访问服务器的次数/消耗的token数,所作出的限制。
其中MiniMax的API的速率限制分为:RPM以及TPM两种。
RPM是指: API 对用户在指定时间段内可以访问服务器的次数所作出的限制。
TPM是指: API 对用户在指定时间段内可以访问服务器所所消耗的token数所作出的限制。
2、为什么会有速率限制
速率限制是 API 的常见做法,实施速率限制有几个不同的原因:
- 有助于防止 API被滥用和误用。例如,防止有些用户恶意的超载调用API,试图使其过载或导致服务中断。我们通过设置速率限制可以防止此类恶意使用的发生。
- 速率限制有助于确保每个人都可以公平访问 API。防止一个人或组织发出过多的请求,造成可能会使其他人的API资源分配不均的情况。通过限制单个用户可以发出的请求数量,可以确保最多的人有机会使用 API,而不会遇到速度变慢的情况。
- 通过设置速率限制,MiniMax可以帮助为所有用户保持流畅一致的体验。
3、我们的API的限速具体数值
我们会根据您使用的模型、接口以及您拥有的账户类型,对您的账号(包括主账号+子账号)实施相应的速率限制策略。即您的主账号和子账号共同享有以下所有速率限制。例如:当您的账号拥有120个RPM时,你的账号每分钟内可以发送120个请求,当您的主账号每分钟发送了30个请求时,您的子账号该时间段内还可以发送90个请求。
MiniMax的速率以两种维度进行限制:
- RPM:每分钟发送的请求数限制
- TPM:每分钟输入+输出的token数限制
具体速率限制情况如下表所示:
接口名 | chatcompletion(T2T-文本对话) | chatcompletion pro(T2T-文本对话) | Embeddings | T2A(语音生成) | T2A Stream(流式语音生成) | ||||
---|---|---|---|---|---|---|---|---|---|
模型 | abab5 | abab5.5 | abab5.5 | ||||||
客户类型 | RPM | TPM | RPM | TPM | RPM | TPM | RPM | RPM | RPM |
免费用户 | 6 | 12000 | 6 | 12000 | 6 | 12000 | 6 | 1 | 1 |
充值用户 | 120 | 360000 | 120 | 360000 | 120 | 360000 | 120 | 120 | 120 |
需要注意的是:以上的速率限制的数值对每一接口下的每一模型均生效。
4、速率是如何被限制的?
如果您是免费用户,在T2T的功能场景下,使用任意接口的任意模型时(如Chatcompletion-abab5或Chacompletion-abab5.5或者Chatcompletion pro-abab5.5时),此时您的速率限制为RPM=6,TPM=12000,即:您的速率限制为每分钟6个请求和每分钟12000个token数(输入+输出)。
5、如果遇到限速的报错返回会怎样?
如果您收到速率限制的返回报错,则表示您在短时间内发出了太多请求,或者短时间发出了太多的字符,那么API将会拒绝满足进一步的请求,直到经过指定的时间。
6、速率限制和tokens_to_generate
因无法在请求输入时得到输入+输出的总token,因此在请求输入时,会首先参考接口里设置的tokens_to_generate数值作为该请求的总token和TPM限流参考,当该条请求生成完所有token后,会使用实际的输入+输出总token修正该条请求所对应的TPM。所以您可以尝试将tokens_to_generate的值设置为尽可能符合预期的响应值,从而减少TPM限流报错。
7、如何更好的在限速策略下进行API的使用
由于API对每分钟请求数和每分钟token数有单独的限制,所以我们建议您集中处理请求。
如果您的每分钟请求数量已经达到了限制,但是每分钟的token数量仍然具有可用容量,则建议您可以通过将多个任务批量放到每个请求来提高token的吞吐量。这样将允许您每分钟处理更多的token数。
8、如何提高速率限制
我们的默认限速是为了帮助最大限度的提高API调用的稳定性,以及更公平合理的将相应资源进行分配。如果您认为您拥有必要的流量数据以来申请提高速率限制时,您可以通过相应的商务老师向我们进行提高速率限制的申请。您也可以通过以下的表单进行相应的速率申请:http://t1.ink/f/73s1rs
需要您知悉的是,提高限速有时可能需要3-5个工作日,因此如果您有确定数据支持您的申请时,为了不影响您的产品的正常上线发布,请务必尽早提交限速提升申请。