角色音频生成
GET
/v1/bulk_t2a该接口支持基于自然语言交互生成回复的能力,接口本身为无状态接口,即单次调用时,模型所接收到的信息量仅为接口传入内容,不涉及业务逻辑,同时模型也不存储您传入的数据。
该接口支持以下功能:
1、支持Role Classification (文本角色分类)API的输出作为本接口输入,可以使用不同音色进行角色匹配生成多角色的音频文件
2、该接口中voice_id支持系统音色(id)和复刻音色ID
单次请求限制数
模型 | 仅支持speech-01 |
---|---|
字符数 | 单文件字符数不超过50k |
请求参数
格式要符合输出的file_id样式,如下所示:[{"sentence_no": 0,"role_id": "title","text": "第四百二十五章 艰难的开端"},{"sentence_no": 1,"role_id": "anarration","text": "嘉世的这三位,真可以说是乘兴而来,败兴而归。原本以为万无一失的一场战斗,结果因为横空冒出的一个角色,让他们就这样铩羽而归。这个逐烟霞到底是个什么实力,匮乏的情报让他们完全无从推断。对于职业选手来说,不了解对手,这无疑是很可怕的事情,尤其是对方也是职业级的段数,那就更不能大意了。虽然说这样的普通角色死个七八九十次他们也不会在乎,但问题是,一次又一次地去白白送死,这个也太伤自尊了吧?不到万不得以,还是不要以这样羞耻的方式去试探对方深浅的好。"},{"sentence_no": 2,"role_id": "王泽","text": "我觉得吧……那个逐烟霞的实力,未必有多可怕。"}]
json结构,键为role_id,值为对应的voice_id,例如:{ "title": "audiobook_male_1", "anarration": "audiobook_male_1", "李艺博": "presenter_male", "潘林": "male-qn-jingying", "黄少天": "male-qn-daxuesheng"}voiceid支持系统音色(id)和复刻音色ID
可选,json结构,键为voice_id,值为对应的音色配置,例如:{"male-qn-jingying": {"speed":1.0, "vol":1.0, "pitch":0}}其中speed、vol和pitch都是可选值,分别的默认值为1.0、1.0、0
可选,两位精度,默认0.00
可选,默认3200016000、24000、32000三选一
可选,默认12800032000、64000、128000三选一
示例代码
返回响应
用于在咨询/反馈时帮助定位问题
格式为mp3
音频文件对应的字幕,精确到句(不超过50字),单位为毫秒,格式为json
相关额外信息
音频时长,精确到毫秒
默认为24000,如客户请求参数进行调整,会根据请求参数生成
单位为字节
默认为168000,如客户请求参数进行调整,会根据请求参数生成
已经发音的字数统计(不算标点等其他符号,包含汉字数字字母)
非法字符不超过10%(包含10%),音频会正常生成并返回非法字符占比;最大不超过0.1(10%),超过进行报错
{
"trace_id": "${trace_id}",
"audio_file": "${audio_file}",
"subtitle_file": "${subtitle_file}",
"extra_info": {
"audio_length": 575784,
"audio_sample_rate": 32000,
"audio_size": 9212588,
"bitrate": 128000,
"word_count": 2549,
"invisible_character_ratio": 0
},
"base_resp": {
"status_code": 0,
"status_msg": "success"
}
}