T2A Pro API 接口

开发环境

http://dev-cn.your-api-server.com

POST

/v1/t2a_pro

该接口支持基于自然语言交互生成回复的能力。接口本身为无状态接口，即单次调用时，模型所接收到的信息量仅为接口传入内容，不涉及业务逻辑，同时模型也不存储您传入的数据。

该接口支持以下功能：

1、支持单次合成最高50000字符输入；

2、支持语调、语速、音量、比特率、采样率相关参数调整特性；

3、支持音频时长、音频大小等返回参数；

4、支持时间戳（字幕）返回，精确到句；

5、支持混音功能，最多四种音色按照比例混合；

6、支持非法字符检测：非法字符不超过10%（包含10%），音频会正常生成并返回非法字符占比；非法字符超过10%，接口不返回结果（返回报错码），请检测后再次进行请求（非法字符定义：ascii码中的控制符（不含制表符和换行符））；

7、支持自定义文本与文本之间的语音时间间隔，以实现自定义文本语音停顿时间的效果。需要注意的是文本间隔时间需设置在两个发音的文本之间，且不能设置多个连续的时间间隔。

该接口的适用场景：长文本有声化、书籍小说等文字单章节语音合成、录播课程语音合成等。

请求示例

Shell

JavaScript

Java

Swift

curl --location --request POST 'http://dev-cn.your-api-server.com/v1/t2a_pro?GroupId=
$group_id' \
--header 'Authorization: Bearer $
{api_key}' \
--header 'Content-Type: application/json' \
--data-raw '{
    "voice_id": "male-qn-qingse",  // 如同时传入voice_id和timber_weights时，则会自动忽略voice_id，以timber_weights传递的参数为准
    "text": "你好",
    "model": "speech-01",
    "speed": 1.0,
    "vol": 1.0,
    "pitch": 0,
    "audio_sample_rate": 24000,
    "bitrate": 128000,
    "timber_weights": [
        {
            "voice_id": "male-qn-qingse",
            "weight": 1
        },
        {
            "voice_id": "female-shaonv",
            "weight": 1
        },
        {
            "voice_id": "female-yujie",
            "weight": 1
        },
        {
            "voice_id": "audiobook_male_2",
            "weight": 1
        }
    ]
}'

响应示例

200 - 成功示例

{
  "audio_file": "https://xxxxx/xxx.mp3",
  "subtitle_file": "https://xxxxx/xxx.titles",
  "trace_id": "xxxxxxxxxx",
  "extra_info": {
    "audio_length": 1946,
    "audio_sample_rate": 32000,
    "audio_size": 8253,
    "bitrate": 32000,
    "word_count": 10,
    "invisible_character_ratio": 0.04
  },
  "base_resp": {
    "status_code": 0,
    "status_msg": "success"
  }
}

请求参数

Query 参数

GroupId

string

必需

示例值:

$group_id

Header 参数

Authorization

string

必需

示例值:

Bearer $ {api_key}

Content-Type

string

必需

示例值:

application/json

Body 参数application/json

voice_id

string

请求的音色编号

可选

如同时传入voice_id和timber_weights时，则会自动忽略voice_id，以timber_weights传递的参数为准

text

string

必需

支持自定义文本与文本之间的语音时间间隔，以实现自定义文本语音停顿时间的效果。需要注意的是文本间隔时间需设置在两个可以语音发音的文本之间，且不能设置多个连续的时间间隔。

model

string

调用的模型版本

必需

speed

integer

生成声音的语速

可选

可选，默认值为1.0取值越大，语速越快

vol

integer

生成声音的音量

可选

可选，默认值为1.0取值越大，音量越高

pitch

integer

生成声音的语调

可选

可选，默认值为0（0为原音色输出，取值需为整数）

audio_sample_rate

integer

生成声音的采样率

必需

可选，默认为24000

bitrate

integer

生成声音的比特率

必需

可选，默认值为128000

timber_weights

array [object {2}]

音色相关信息

可选

音色相关信息，详见下方字段

voice_id

string

请求的音色编号

必需

暂时只支持系统音色(id)：青涩青年音色(male-qn-qingse)精英青年音色(male-qn-jingying)霸道青年音色(male-qn-badao)青年大学生音色(male-qn-daxuesheng)少女音色(female-shaonv)御姐音色(female-yujie)成熟女性音色(female-chengshu)甜美女性音色(female-tianmei)男性主持人(presenter_male)女性主持人(presenter_female)男性有声书1(audiobook_male_1)男性有声书2(audiobook_male_2)女性有声书1(audiobook_female_1)女性有声书2(audiobook_female_2)青涩青年音色-beta（male-qn-qingse-jingpin）精英青年音色-beta（male-qn-jingying-jingpin）霸道青年音色-beta（male-qn-badao-jingpin）青年大学生音色-beta（male-qn-daxuesheng-jingpin）少女音色-beta（female-shaonv-jingpin）御姐音色-beta（female-yujie-jingpin）成熟女性音色-beta（female-chengshu-jingpin）甜美女性音色-beta（female-tianmei-jingpin）

weight

integer

权重

必需

最多支持4种音色混合，取值为整数，单一音色取值占比越高，合成音色越像；

示例

返回响应

🟢200成功

application/json

Body

audio_file

string

音频文件下载链接

必需

subtitle_file

string

字幕文件下载链接

必需

trace_id

string

生成id

必需

用于在咨询/反馈时帮助定位问题

extra_info

object

必需

audio_length

integer

音频时长，毫秒

必需

audio_sample_rate

integer

必需

采样率（根据客户入参选择）

audio_size

integer

音频大小，字节

必需

bitrate

integer

必需

比特率（根据客户入参选择）

word_count

integer

必需

可读字数（不算标点等其他符号，包含汉字数字字母）

invisible_character_ratio

number

非法字符占比

必需

base_resp

object

必需

status_code

integer

必需

status_msg

string

必需

🟠400请求有误

修改于 2024-01-04 06:32:31

T2A Pro 快速接入

字典功能（Dictionary）