MiniMax
  1. T2A Stream(流式语音生成)
MiniMax
  • 公告通知
  • 产品定价
  • 概述
  • FAQ
  • 大模型介绍
    • 文本大模型
    • 语音大模型
  • 接入说明
    • 新手指南
    • 速率说明
  • 开发指南
    • 快速开始
  • 文本大模型接口
    • ChatCompletion Pro(对话)
      • 概述
      • ChatCompletion Pro API 文档
        • ChatCompletion Pro API
        • 示例对话功能
        • 限制返回格式功能(glyph)
        • 函数调用功能(function calling)
        • 插件功能(plugins)
        • 知识库检索功能(retrieval)
    • ChatCompletion(对话)
      • 概述
      • ChatCompletion 快速接入
      • ChatCompletion 调优指南
      • ChatCompletion API 文档
        • ChatCompletion API
        • 知识库检索功能(retrieval)
  • Assistants 接口
    • Assistants 操作指南
    • Assistans API 文档
      • Assistant
        • 创建 Assistant
        • 检索 Assistants
        • 删除 assistant
        • 查看 assistant 列表
      • Assistant File
        • 创建 assistant 文件
        • 检索 assistant 关联的文件
        • 列出 assistant 文件
      • Thread
        • 创建 thread
        • 检索 thread
      • Message
        • 创建 message
        • 检索 message
        • message 列表
      • Run
        • 创建 run
        • 检索 run
        • 列表 run
        • Submit tool outputs to run
      • Run Step
        • 检索 run step
        • 列表 run step
  • File(文档)
    • File(文档)
      GET
    • Upload 接口
      GET
    • Retrieve 接口
      GET
    • Delete 接口
      POST
    • RetrieveContent 接口
      GET
  • Retrieval(知识库检索)
    • 新建知识库
    • 删除知识库
    • 查看知识库详情
    • 查看知识库列表
    • 增加知识库文档
    • 删除知识库文档
    • 修改知识库文档
    • 查看知识库文档
    • 检索 Chatcompletion
    • 检索 Chatcompletion pro
  • 微调
    • Finetune 操作指南
    • Finetune API文档
      • 创建微调任务
      • 列出微调任务
      • 检索微调任务
      • 删除微调任务
      • 列出微调事件
      • 列举微调模型
      • 查询微调模型
      • 删除微调模型
  • 向量化
    • Embeddings(向量化)
  • 语音大模型接口
    • T2A (语音生成)
      • T2A 快速接入
      • T2A API 接口
        • T2A API接口
        • 字典功能(Dictionary)
    • T2A pro(长文本语音生成)
      • T2A Pro 快速接入
      • T2A Pro API 接口
      • 字典功能(Dictionary)
    • T2A large(异步超长文本语音生成)
      • T2A Large 快速接入
      • T2A Large API 接口
        • T2A Large API 接口
        • 字典功能(Dictionary)
    • T2A Stream(流式语音生成)
      • T2A Stream(流式语音生成)
        GET
      • 字典功能(Dictionary)
        POST
    • 快速复刻(Voice Cloning)
      • 上传文件
      • 音频复刻
  • 有声内容创作
    • Role Classification (文本角色分类)
      • 创建并异步运行角色识别任务
      • 查询角色识别任务
    • Role Audio Generation (角色音频生成)
      • 角色音频生成
  1. T2A Stream(流式语音生成)

T2A Stream(流式语音生成)

开发环境
http://dev-cn.your-api-server.com
开发环境
http://dev-cn.your-api-server.com
GET
https://api.minimax.chat/v1/tts/stream
本接口支持基于自然语言交互生成回复的能力。
本接口本身为无状态接口,即单次调用时,模型所接收到的信息量仅为接口传入内容,不涉及业务逻辑,同时模型也不存储您传入的数据。
本接口适用场景:语音通话、语音聊天等需求流式的相关场景
本接口为流式输出接口,支持以下功能:
1.
支持单次合成500字符输入;
2.
支持语调、语速、音量、比特率、采样率相关参数调整特性;
3.
支持音频时长、音频大小等返回参数;
4.
支持混音功能,最多四种音色按照比例混合;
5.
支持非法字符检测:非法字符不超过10%(包含10%),音频会正常生成并返回非法字符占比;非法字符超过10%,接口不返回结果(返回报错码),请检测后再次进行请求(非法字符定义:ascii码中的控制符(不含制表符和换行符));
请求示例请求示例
Shell
JavaScript
Java
Swift
curl --location --request GET 'https://api.minimax.chat/v1/tts/stream?GroupId' \
--header 'Authorization;' \
--header 'header;' \
--header 'Content-Type: application/json' \
--data-raw '{
    "voice_id": "string",
    "text": "string",
    "model": "string",
    "speed": 0,
    "vol": 0,
    "pitch": 0,
    "audio_sample_rate": 0,
    "bitrate": 0,
    "timber_weights": [
        {
            "voice_id": "string",
            "weight": 0
        }
    ]
}'
响应示例响应示例
200 - 示例 1
{
  "data": {
    "audio": "string",
    "status": 0,
    "ced": "string"
  },
  "extra_info": {
    "audio_length": 0,
    "audio_sample_rate": 0,
    "audio_size": 0,
    "bitrate": 0,
    "word_count": 0,
    "invisible_character_ratio": 0
  },
  "trace_id": "string",
  "base_resp": {
    "status_code": 0,
    "status_msg": "string"
  }
}

请求参数

Query 参数
GroupId
string 
必需
该值应拼接在调用API的url末尾
Header 参数
Authorization
string 
必需
header
string 
必需
Body 参数application/json
voice_id
string 
请求的音色编号
可选
如同时传入voice_id和timber_weights时,则会自动忽略voice_id,以timber_weights传递的参数为准
text
string 
必需
支持自定义文本与文本之间的语音时间间隔,以实现自定义文本语音停顿时间的效果。需要注意的是文本间隔时间需设置在两个可以语音发音的文本之间,且不能设置多个连续的时间间隔。
model
string 
调用的模型版本
必需
speed
integer 
生成声音的语速
可选
可选,默认值为1.0取值越大,语速越快
vol
integer 
生成声音的音量
可选
可选,默认值为1.0取值越大,音量越高
pitch
integer 
生成声音的语调
可选
可选,默认值为0(0为原音色输出,取值需为整数)
audio_sample_rate
integer 
生成声音的采样率
必需
可选,默认为24000
bitrate
integer 
生成声音的比特率
必需
可选,默认值为128000
timber_weights
array [object {2}] 
音色相关信息
可选
音色相关信息,详见下方字段
voice_id
string 
请求的音色编号
必需
暂时只支持系统音色(id):青涩青年音色(male-qn-qingse)精英青年音色(male-qn-jingying)霸道青年音色(male-qn-badao)青年大学生音色(male-qn-daxuesheng)少女音色(female-shaonv)御姐音色(female-yujie)成熟女性音色(female-chengshu)甜美女性音色(female-tianmei)男性主持人(presenter_male)女性主持人(presenter_female)男性有声书1(audiobook_male_1)男性有声书2(audiobook_male_2)女性有声书1(audiobook_female_1)女性有声书2(audiobook_female_2)青涩青年音色-beta(male-qn-qingse-jingpin)精英青年音色-beta(male-qn-jingying-jingpin)霸道青年音色-beta(male-qn-badao-jingpin)青年大学生音色-beta(male-qn-daxuesheng-jingpin)少女音色-beta(female-shaonv-jingpin)御姐音色-beta(female-yujie-jingpin)成熟女性音色-beta(female-chengshu-jingpin)甜美女性音色-beta(female-tianmei-jingpin)
weight
integer 
权重
必需
最多支持4种音色混合,取值为整数,单一音色取值占比越高,合成音色越像;
示例

返回响应

🟢200结束
application/json
Body
data
object 
data可能返回为null,参考示例代码时,注意进行非空判断
必需
用于在咨询/反馈时帮助定位问题
audio
string 
合成后的音频片段,采用base64编码
必需
格式为mp3
status
integer 
当前音频流状态,1表示合成中,2表示合成结束
必需
音频文件对应的字幕,精确到句(不超过50字),单位为毫秒,格式为json
ced
string 
合成进度,指当前合成文本的字节数注:请注意合成是以句为单位切割的,若文本只有一句话,则每次返回结果的ced是相同的。
必需
相关额外信息
extra_info
object 
相关额外信息
必需
audio_length
integer 
音频时长
必需
音频时长,精确到毫秒
audio_sample_rate
integer 
采样率
必需
默认为24000,如客户请求参数进行调整,会根据请求参数生成
audio_size
integer 
音频大小
必需
单位为字节
bitrate
integer 
比特率
必需
默认为168000,如客户请求参数进行调整,会根据请求参数生成
word_count
integer 
可读字数
必需
已经发音的字数统计(不算标点等其他符号,包含汉字数字字母)
invisible_character_ratio
integer 
非法字符占比
必需
非法字符不超过10%(包含10%),音频会正常生成并返回非法字符占比;最大不超过0.1(10%),超过进行报错
trace_id
string 
本次会话的id
必需
base_resp
object 
必需
status_code
integer 
必需
status_msg
string 
必需
🟢200返回的第三个chunk
🟢200/返回的第二个chunk
🟢200返回的第一个chunk
🟠400请求有误
上一页
字典功能(Dictionary)
下一页
字典功能(Dictionary)
Built with