MiniMax
  1. Role Audio Generation (角色音频生成)
MiniMax
  • 公告通知
  • 产品定价
  • 概述
  • FAQ
  • 大模型介绍
    • 文本大模型
    • 语音大模型
  • 接入说明
    • 新手指南
    • 速率说明
  • 开发指南
    • 快速开始
  • 文本大模型接口
    • ChatCompletion Pro(对话)
      • 概述
      • ChatCompletion Pro API 文档
        • ChatCompletion Pro API
        • 示例对话功能
        • 限制返回格式功能(glyph)
        • 函数调用功能(function calling)
        • 插件功能(plugins)
        • 知识库检索功能(retrieval)
    • ChatCompletion(对话)
      • 概述
      • ChatCompletion 快速接入
      • ChatCompletion 调优指南
      • ChatCompletion API 文档
        • ChatCompletion API
        • 知识库检索功能(retrieval)
  • Assistants 接口
    • Assistants 操作指南
    • Assistans API 文档
      • Assistant
        • 创建 Assistant
        • 检索 Assistants
        • 删除 assistant
        • 查看 assistant 列表
      • Assistant File
        • 创建 assistant 文件
        • 检索 assistant 关联的文件
        • 列出 assistant 文件
      • Thread
        • 创建 thread
        • 检索 thread
      • Message
        • 创建 message
        • 检索 message
        • message 列表
      • Run
        • 创建 run
        • 检索 run
        • 列表 run
        • Submit tool outputs to run
      • Run Step
        • 检索 run step
        • 列表 run step
  • File(文档)
    • File(文档)
      GET
    • Upload 接口
      GET
    • Retrieve 接口
      GET
    • Delete 接口
      POST
    • RetrieveContent 接口
      GET
  • Retrieval(知识库检索)
    • 新建知识库
      POST
    • 删除知识库
      POST
    • 查看知识库详情
      GET
    • 查看知识库列表
      GET
    • 增加知识库文档
      POST
    • 删除知识库文档
      POST
    • 修改知识库文档
      POST
    • 查看知识库文档
      GET
    • 检索 Chatcompletion
      POST
    • 检索 Chatcompletion pro
      POST
  • 微调
    • Finetune 操作指南
    • Finetune API文档
      • 创建微调任务
      • 列出微调任务
      • 检索微调任务
      • 删除微调任务
      • 列出微调事件
      • 列举微调模型
      • 查询微调模型
      • 删除微调模型
  • 向量化
    • Embeddings(向量化)
  • 语音大模型接口
    • T2A (语音生成)
      • T2A 快速接入
      • T2A API 接口
        • T2A API接口
        • 字典功能(Dictionary)
    • T2A pro(长文本语音生成)
      • T2A Pro 快速接入
      • T2A Pro API 接口
      • 字典功能(Dictionary)
    • T2A large(异步超长文本语音生成)
      • T2A Large 快速接入
      • T2A Large API 接口
        • T2A Large API 接口
        • 字典功能(Dictionary)
    • T2A Stream(流式语音生成)
      • T2A Stream(流式语音生成)
      • 字典功能(Dictionary)
    • 快速复刻(Voice Cloning)
      • 上传文件
      • 音频复刻
  • 有声内容创作
    • Role Classification (文本角色分类)
      • 创建并异步运行角色识别任务
      • 查询角色识别任务
    • Role Audio Generation (角色音频生成)
      • 角色音频生成
        GET
  1. Role Audio Generation (角色音频生成)

角色音频生成

开发环境
http://dev-cn.your-api-server.com
开发环境
http://dev-cn.your-api-server.com
GET
/v1/bulk_t2a
该接口支持基于自然语言交互生成回复的能力,接口本身为无状态接口,即单次调用时,模型所接收到的信息量仅为接口传入内容,不涉及业务逻辑,同时模型也不存储您传入的数据。
该接口支持以下功能:
1、支持Role Classification (文本角色分类)API的输出作为本接口输入,可以使用不同音色进行角色匹配生成多角色的音频文件
2、该接口中voice_id支持系统音色(id)和复刻音色ID

单次请求限制数#

模型仅支持speech-01
字符数单文件字符数不超过50k
请求示例请求示例
Shell
JavaScript
Java
Swift
curl --location -g --request GET 'http://dev-cn.your-api-server.com/v1/bulk_t2a?GroupId=${group_id}' \
--header 'Authorization: Bearer ${api_key}' \
--form 'file="/Users/apple/Downloads/test.json"' \
--form 'role_voice="{
    \"title\": \"audiobook_male_1\",
    \"anarration\": \"audiobook_male_1\"
}"' \
--form 'voice_configs="{
\"audiobook_male_1\":{\"speed\":0.7}
}"' \
--form 'interval_title="1.00"' \
--form 'audio_sample_rate="32000"' \
--form 'bitrate="128000"'
响应示例响应示例
{
  "trace_id": "${trace_id}",
  "audio_file": "${audio_file}",
  "subtitle_file": "${subtitle_file}",
  "extra_info": {
    "audio_length": 575784,
    "audio_sample_rate": 32000,
    "audio_size": 9212588,
    "bitrate": 128000,
    "word_count": 2549,
    "invisible_character_ratio": 0
  },
  "base_resp": {
    "status_code": 0,
    "status_msg": "success"
  }
}

请求参数

Query 参数
GroupId
string 
必需
示例值:
${group_id}
Header 参数
Authorization
string 
必需
示例值:
Bearer ${api_key}
Body 参数multipart/form-data
file
string 
必需
格式要符合输出的file_id样式,如下所示:[{"sentence_no": 0,"role_id": "title","text": "第四百二十五章 艰难的开端"},{"sentence_no": 1,"role_id": "anarration","text": "嘉世的这三位,真可以说是乘兴而来,败兴而归。原本以为万无一失的一场战斗,结果因为横空冒出的一个角色,让他们就这样铩羽而归。这个逐烟霞到底是个什么实力,匮乏的情报让他们完全无从推断。对于职业选手来说,不了解对手,这无疑是很可怕的事情,尤其是对方也是职业级的段数,那就更不能大意了。虽然说这样的普通角色死个七八九十次他们也不会在乎,但问题是,一次又一次地去白白送死,这个也太伤自尊了吧?不到万不得以,还是不要以这样羞耻的方式去试探对方深浅的好。"},{"sentence_no": 2,"role_id": "王泽","text": "我觉得吧……那个逐烟霞的实力,未必有多可怕。"}]
示例值:
/Users/apple/Downloads/test.json
role_voice
string 
必需
json结构,键为role_id,值为对应的voice_id,例如:{ "title": "audiobook_male_1", "anarration": "audiobook_male_1", "李艺博": "presenter_male", "潘林": "male-qn-jingying", "黄少天": "male-qn-daxuesheng"}voiceid支持系统音色(id)和复刻音色ID
示例值:
{ "title": "audiobook_male_1", "anarration": "audiobook_male_1" }
voice_configs
string 
必需
可选,json结构,键为voice_id,值为对应的音色配置,例如:{"male-qn-jingying": {"speed":1.0, "vol":1.0, "pitch":0}}其中speed、vol和pitch都是可选值,分别的默认值为1.0、1.0、0
示例值:
{ "audiobook_male_1":{"speed":0.7} }
interval_title
string 
必需
可选,两位精度,默认0.00
示例值:
1.00
audio_sample_rate
string 
必需
可选,默认3200016000、24000、32000三选一
示例值:
32000
bitrate
string 
必需
可选,默认12800032000、64000、128000三选一
示例值:
128000

返回响应

🟢200成功
application/json
Body
trace_id
string 
生成id
必需
用于在咨询/反馈时帮助定位问题
audio_file
string 
合成的音频下载链接
必需
格式为mp3
subtitle_file
string 
合成的字幕下载链接
必需
音频文件对应的字幕,精确到句(不超过50字),单位为毫秒,格式为json
extra_info
object 
额外信息
必需
相关额外信息
audio_length
integer 
音频时长
必需
音频时长,精确到毫秒
audio_sample_rate
integer 
采样率
必需
默认为24000,如客户请求参数进行调整,会根据请求参数生成
audio_size
integer 
音频大小
必需
单位为字节
bitrate
integer 
比特率
必需
默认为168000,如客户请求参数进行调整,会根据请求参数生成
word_count
integer 
可读字数
必需
已经发音的字数统计(不算标点等其他符号,包含汉字数字字母)
invisible_character_ratio
integer 
非法字符占比
必需
非法字符不超过10%(包含10%),音频会正常生成并返回非法字符占比;最大不超过0.1(10%),超过进行报错
base_resp
object 
请求状态码和信息
必需
status_code
integer 
状态码
必需
status_msg
string 
信息
必需
上一页
查询角色识别任务
Built with