MiniMax
  1. 接入说明
MiniMax
  • 公告通知
  • 产品定价
  • 概述
  • FAQ
  • 大模型介绍
    • 文本大模型
    • 语音大模型
  • 接入说明
    • 新手指南
    • 速率说明
  • 开发指南
    • 快速开始
  • 文本大模型接口
    • ChatCompletion Pro(对话)
      • 概述
      • ChatCompletion Pro API 文档
        • ChatCompletion Pro API
        • 示例对话功能
        • 限制返回格式功能(glyph)
        • 函数调用功能(function calling)
        • 插件功能(plugins)
        • 知识库检索功能(retrieval)
    • ChatCompletion(对话)
      • 概述
      • ChatCompletion 快速接入
      • ChatCompletion 调优指南
      • ChatCompletion API 文档
        • ChatCompletion API
        • 知识库检索功能(retrieval)
  • Assistants 接口
    • Assistants 操作指南
    • Assistans API 文档
      • Assistant
        • 创建 Assistant
        • 检索 Assistants
        • 删除 assistant
        • 查看 assistant 列表
      • Assistant File
        • 创建 assistant 文件
        • 检索 assistant 关联的文件
        • 列出 assistant 文件
      • Thread
        • 创建 thread
        • 检索 thread
      • Message
        • 创建 message
        • 检索 message
        • message 列表
      • Run
        • 创建 run
        • 检索 run
        • 列表 run
        • Submit tool outputs to run
      • Run Step
        • 检索 run step
        • 列表 run step
  • File(文档)
    • File(文档)
      GET
    • Upload 接口
      GET
    • Retrieve 接口
      GET
    • Delete 接口
      POST
    • RetrieveContent 接口
      GET
  • Retrieval(知识库检索)
    • 新建知识库
      POST
    • 删除知识库
      POST
    • 查看知识库详情
      GET
    • 查看知识库列表
      GET
    • 增加知识库文档
      POST
    • 删除知识库文档
      POST
    • 修改知识库文档
      POST
    • 查看知识库文档
      GET
    • 检索 Chatcompletion
      POST
    • 检索 Chatcompletion pro
      POST
  • 微调
    • Finetune 操作指南
    • Finetune API文档
      • 创建微调任务
      • 列出微调任务
      • 检索微调任务
      • 删除微调任务
      • 列出微调事件
      • 列举微调模型
      • 查询微调模型
      • 删除微调模型
  • 向量化
    • Embeddings(向量化)
  • 语音大模型接口
    • T2A (语音生成)
      • T2A 快速接入
      • T2A API 接口
        • T2A API接口
        • 字典功能(Dictionary)
    • T2A pro(长文本语音生成)
      • T2A Pro 快速接入
      • T2A Pro API 接口
      • 字典功能(Dictionary)
    • T2A large(异步超长文本语音生成)
      • T2A Large 快速接入
      • T2A Large API 接口
        • T2A Large API 接口
        • 字典功能(Dictionary)
    • T2A Stream(流式语音生成)
      • T2A Stream(流式语音生成)
      • 字典功能(Dictionary)
    • 快速复刻(Voice Cloning)
      • 上传文件
      • 音频复刻
  • 有声内容创作
    • Role Classification (文本角色分类)
      • 创建并异步运行角色识别任务
      • 查询角色识别任务
    • Role Audio Generation (角色音频生成)
      • 角色音频生成
  1. 接入说明

速率说明

速率限制#

1、什么是速率限制?#

速率限制是 API 对用户在指定时间段内可以访问服务器的次数/消耗的token数,所作出的限制。
其中MiniMax的API的速率限制分为:RPM以及TPM两种。
RPM是指: API 对用户在指定时间段内可以访问服务器的次数所作出的限制。
TPM是指: API 对用户在指定时间段内可以访问服务器所所消耗的token数所作出的限制。

2、为什么会有速率限制#

速率限制是 API 的常见做法,实施速率限制有几个不同的原因:
有助于防止 API被滥用和误用。例如,防止有些用户恶意的超载调用API,试图使其过载或导致服务中断。我们通过设置速率限制可以防止此类恶意使用的发生。
速率限制有助于确保每个人都可以公平访问 API。防止一个人或组织发出过多的请求,造成可能会使其他人的API资源分配不均的情况。通过限制单个用户可以发出的请求数量,可以确保最多的人有机会使用 API,而不会遇到速度变慢的情况。
通过设置速率限制,MiniMax可以帮助为所有用户保持流畅一致的体验。

3、我们的API的限速具体数值#

我们会根据您使用的模型、接口以及您拥有的账户类型,对您的账号(包括主账号+子账号)实施相应的速率限制策略。即您的主账号和子账号共同享有以下所有速率限制。例如:当您的账号拥有120个RPM时,你的账号每分钟内可以发送120个请求,当您的主账号每分钟发送了30个请求时,您的子账号该时间段内还可以发送90个请求。
MiniMax的速率以两种维度进行限制:
RPM:每分钟发送的请求数限制
TPM:每分钟输入+输出的token数限制
具体速率限制情况如下表所示:
接口名chatcompletion(T2T-文本对话)chatcompletion pro(T2T-文本对话)EmbeddingsT2A(语音生成)T2A Stream(流式语音生成)
模型abab5abab5.5abab5.5
客户类型RPMTPMRPMTPMRPMTPMRPMRPMRPM
免费用户612000612000612000611
充值用户120360000120360000120360000120120120
需要注意的是:以上的速率限制的数值对每一接口下的每一模型均生效。

4、速率是如何被限制的?#

如果您是免费用户,在T2T的功能场景下,使用任意接口的任意模型时(如Chatcompletion-abab5或Chacompletion-abab5.5或者Chatcompletion pro-abab5.5时),此时您的速率限制为RPM=6,TPM=12000,即:您的速率限制为每分钟6个请求和每分钟12000个token数(输入+输出)。

5、如果遇到限速的报错返回会怎样?#

如果您收到速率限制的返回报错,则表示您在短时间内发出了太多请求,或者短时间发出了太多的字符,那么API将会拒绝满足进一步的请求,直到经过指定的时间。

6、速率限制和tokens_to_generate#

因无法在请求输入时得到输入+输出的总token,因此在请求输入时,会首先参考接口里设置的tokens_to_generate数值作为该请求的总token和TPM限流参考,当该条请求生成完所有token后,会使用实际的输入+输出总token修正该条请求所对应的TPM。所以您可以尝试将tokens_to_generate的值设置为尽可能符合预期的响应值,从而减少TPM限流报错。

7、如何更好的在限速策略下进行API的使用#

由于API对每分钟请求数和每分钟token数有单独的限制,所以我们建议您集中处理请求。
如果您的每分钟请求数量已经达到了限制,但是每分钟的token数量仍然具有可用容量,则建议您可以通过将多个任务批量放到每个请求来提高token的吞吐量。这样将允许您每分钟处理更多的token数。

8、如何提高速率限制#

我们的默认限速是为了帮助最大限度的提高API调用的稳定性,以及更公平合理的将相应资源进行分配。如果您认为您拥有必要的流量数据以来申请提高速率限制时,您可以通过相应的商务老师向我们进行提高速率限制的申请。您也可以通过以下的表单进行相应的速率申请:http://t1.ink/f/73s1rs
需要您知悉的是,提高限速有时可能需要3-5个工作日,因此如果您有确定数据支持您的申请时,为了不影响您的产品的正常上线发布,请务必尽早提交限速提升申请。
上一页
新手指南
下一页
快速开始
Built with