MiniMax
接入说明
复制页面
MiniMax
公告通知
产品定价
概述
FAQ
大模型介绍
文本大模型
语音大模型
接入说明
新手指南
速率说明
开发指南
快速开始
文本大模型接口
ChatCompletion Pro(对话)
概述
ChatCompletion Pro API 文档
ChatCompletion Pro API
示例对话功能
限制返回格式功能(glyph)
函数调用功能(function calling)
插件功能(plugins)
知识库检索功能(retrieval)
ChatCompletion(对话)
概述
ChatCompletion 快速接入
ChatCompletion 调优指南
ChatCompletion API 文档
ChatCompletion API
知识库检索功能(retrieval)
Assistants 接口
Assistants 操作指南
Assistans API 文档
Assistant
创建 Assistant
检索 Assistants
删除 assistant
查看 assistant 列表
Assistant File
创建 assistant 文件
检索 assistant 关联的文件
列出 assistant 文件
Thread
创建 thread
检索 thread
Message
创建 message
检索 message
message 列表
Run
创建 run
检索 run
列表 run
Submit tool outputs to run
Run Step
检索 run step
列表 run step
File(文档)
File(文档)
GET
Upload 接口
GET
Retrieve 接口
GET
Delete 接口
POST
RetrieveContent 接口
GET
Retrieval(知识库检索)
新建知识库
POST
删除知识库
POST
查看知识库详情
GET
查看知识库列表
GET
增加知识库文档
POST
删除知识库文档
POST
修改知识库文档
POST
查看知识库文档
GET
检索 Chatcompletion
POST
检索 Chatcompletion pro
POST
微调
Finetune 操作指南
Finetune API文档
创建微调任务
列出微调任务
检索微调任务
删除微调任务
列出微调事件
列举微调模型
查询微调模型
删除微调模型
向量化
Embeddings(向量化)
语音大模型 接口
T2A (语音生成)
T2A 快速接入
T2A API 接口
T2A API接口
字典功能(Dictionary)
T2A pro(长文本语音生成)
T2A Pro 快速接入
T2A Pro API 接口
字典功能(Dictionary)
T2A large(异步超长文本语音生成)
T2A Large 快速接入
T2A Large API 接口
T2A Large API 接口
字典功能(Dictionary)
T2A Stream(流式语音生成)
T2A Stream(流式语音生成)
字典功能(Dictionary)
快速复刻(Voice Cloning)
上传文件
音频复刻
有声内容创作
Role Classification (文本角色分类)
创建并异步运行角色识别任务
查询角色识别任务
Role Audio Generation (角色音频生成)
角色音频生成
接入说明
复制页面
速率说明
速率限制
#
1、什么是速率限制?
#
速率限制是 API 对用户在指定时间段内可以访问服务器的次数/消耗的token数,所作出的限制。
其中MiniMax的API的速率限制分为:RPM以及TPM两种。
RPM是指: API 对用户在指定时间段内可以访问服务器的次数所作出的限制。
TPM是指: API 对用 户在指定时间段内可以访问服务器所所消耗的token数所作出的限制。
2、为什么会有速率限制
#
速率限制是 API 的常见做法,实施速率限制有几个不同的原因:
有助于防止 API被滥用和误用。例如,防止有些用户恶意的超载调用API,试图使其过载或导致服务中断。我们通过设置速率限制可以防止此类恶意使用的发生。
速率限制有助于确保每个人都可以公平访问 API。防止一个人或组织发出过多的请求,造成可能会使其他人的API资源分配不均的情况。通过限制单个用户可以发出的请求数量,可以确保最多的人有机会使用 API,而不会遇到速度变慢的情况。
通过设置速率限制,MiniMax可以帮助为所有用户保持流畅一致的体验。
3、我们的API的限速具体数值
#
我们会根据您使用的模型、接口以及您拥有的账户类型,对您的账号(包括主账号+子账号)实施相应的速率限制策略。即您的主账号和子账号共同享有以下所有速率限制。例如:当您的账号拥有120个RPM时,你的账号每分钟内可以发送120个请求,当您的主账号每分钟发送了30个请求时,您的子账号该时间段内还可以发送90个请求。
MiniMax的速率以两种维度进行限制:
RPM:每分钟发送的请求数限制
TPM:每分钟输入+输出的token数限制
具体速率限制情况如下表所示:
接口名
chatcompletion(T2T-文本对话)
chatcompletion pro(T2T-文本对话)
Embeddings
T2A(语音生成)
T2A Stream(流式语音生成)
模型
abab5
abab5.5
abab5.5
客户类型
RPM
TPM
RPM
TPM
RPM
TPM
RPM
RPM
RPM
免费用户
6
12000
6
12000
6
12000
6
1
1
充值用户
120
360000
120
360000
120
360000
120
120
120
需要注意的是:以上的速率限制的数值对每一接口下的每一模型均生效。
4、速率是如何被限制的?
#
如果您是免费用户,在T2T的功能场景下,使用任意接口的任意模型时(如Chatcompletion-abab5或Chacompletion-abab5.5或者Chatcompletion pro-abab5.5时),此时您的速率限制为RPM=6,TPM=12000,即:您的速率限制为每分钟6个请求和每分钟12000个token数(输入+输出)。
5、如果遇到限速的报错返回会怎样?
#
如果您收到速率限制的返回报错,则表示您在短时间内发出了太多请求,或者短时间发出了太多的字符,那么API将会拒绝满足进一步的请求,直 到经过指定的时间。
6、速率限制和tokens_to_generate
#
因无法在请求输入时得到输入+输出的总token,因此在请求输入时,会首先参考接口里设置的tokens_to_generate数值作为该请求的总token和TPM限流参考,当该条请求生成完所有token后,会使用实际的输入+输出总token修正该条请求所对应的TPM。所以您可以尝试将tokens_to_generate的值设置为尽可能符合预期的响应值,从而减少TPM限流报错。
7、如何更好的在限速策略下进行API的使用
#
由于API对每分钟请求数和每分钟token数有单独的限制,所以我们建议您集中处理请求。
如果您的每分钟请求数量已经达到了限制,但是每分钟的token数量仍然具有可用容量,则建议您可以通过将多个任务批量放到每个请求来提高token的吞吐量。这样将允许您每分钟处理更多的token数。
8、如何提高速率限制
#
我们的默认限速是 为了帮助最大限度的提高API调用的稳定性,以及更公平合理的将相应资源进行分配。如果您认为您拥有必要的流量数据以来申请提高速率限制时,您可以通过相应的商务老师向我们进行提高速率限制的申请。您也可以通过以下的表单进行相应的速率申请:
http://t1.ink/f/73s1rs
需要您知悉的是,提高限速有时可能需要3-5个工作日,因此如果您有确定数据支持您的申请时,为了不影响您的产品的正常上线发布,请务必尽早提交限速提升申请。
修改于
2024-01-03 06:13:50
上一页
新手指南
下一页
快速开始