认证
authorization string 必需
所有 API 都需要通过 Bearer Token 进行身份验证
获取 API Key:
访问 API Key 管理页面 获取您的 API Key
使用方法:
添加到请求头:
Authorization: Bearer YOUR_API_KEY
参数
model string 必需
请求使用的模型 ID
值: minimax_speech_02_hd
text string 必需
需要合成语音的文本, 长度限制小于 10000 字符
若文本长度大于 3000 字符, 推荐使用流式输出
段落切换用换行符标记
停顿控制:支持自定义文本之间的语音时间间隔, 以实现自定义文本语音停顿时间的效果. 使用方式:在文本中增加 <#x#> 标记, x 为停顿时长(单位:秒). 范围 [0.01, 99.99], 最多保留两位小数. 文本间隔时间需设置在两个可以语音发音的文本之间, 不可连续使用多个停顿标记
stream boolean
控制是否流式输出
默认值: false (不开启流式)
stream_options object
流式配置
exclude_aggregated_audio
boolean设置最后一个 chunk 是否包含拼接后的语音 hex 数据
默认值:
false(最后一个 chunk 中包含拼接后的完整语音 hex 数据)
output_format string
音频输出格式
选项: url(返回音频文件 URL), hex(返回十六进制音频数据)
默认值: url
voice_setting object
语音设置, 包括语音 ID、语速、音量、音调
voice_id
string合成音频的音色编号. 若需要设置混合音色, 请设置
timbre_weights参数, 本参数设置为空值支持系统音色、复刻音色以及文生音色三种类型, 系统音色 ID 见 系统音色列表
speed
number合成音频的语速, 取值越大, 语速越快
范围:
0.5-2默认值:
1.0
vol
number合成音频的音量, 取值越大, 音量越大
范围:
0-10默认值:
1.0
pitch
integer合成音频的语调
范围:
-12-12默认值:
0(原音色输出)
emotion
string控制合成语音的情绪. 模型会根据输入文本自动匹配合适的情绪, 一般无需手动指定
选项:
happy,sad,angry,fearful,disgusted,surprised,calm(分别对应 7 种情绪:高兴、悲伤、愤怒、害怕、厌恶、惊讶、中性)
text_normalization
boolean是否启用中文、英语文本规范化, 开启后可提升数字阅读场景的性能, 但会略微增加延迟
默认值:
false
latex_read
boolean控制是否朗读 LaTeX 公式
默认值:
false需注意:
仅支持中文, 开启该参数后,language_boost参数会被设置为 Chinese
请求中的公式需要在公式的首尾加上$$
请求中公式若有\, 需转义成\\. 例如:$$x = \\frac{-b \\pm \\sqrt{b^2 - 4ac}}{2a}$$
audio_setting object
音频设置
sample_rate
integer生成音频的采样率
选项:
8000,16000,22050,24000,32000,44100默认值:
32000
bitrate
string生成音频的比特率. 该参数仅对 mp3 格式的音频生效
选项:
32000,64000,128000,256000默认值:
128000
format
string生成音频的格式,
wav仅在非流式输出下支持选项:
mp3,pcm,flac,wav
channel
integer生成音频的声道数
选项:
1(单声道),2(双声道)默认值:
1
force_cbr
boolean对于音频恒定比特率(cbr)控制. 当此参数设置为 true, 将以恒定比特率方式进行音频编码
默认值:
false注意:本参数仅当音频设置为流式输出, 且音频格式为 mp3 时生效
pronunciation_dict object
发音字典, 用于自定义特定词语的发音
tone
array定义需要特殊标注的文字或符号对应的注音或发音替换规则
在中文文本中, 声调用数字表示:一声为 1, 二声为 2, 三声为 3, 四声为 4, 轻声为 5
示例:
["燕少飞/(yan4)(shao3)(fei1)", "omg/oh my god"]
timber_weights array
混合音色配置. 最多支持 4 种音色混合
每项包含:
voice_id
string合成音频的音色编号, 须和 weight 参数同步填写
支持系统音色、复刻音色以及文生音色三种类型
weight
integer合成音频各音色所占的权重, 须与 voice_id 同步填写
范围:
1-100单一音色取值占比越高, 合成音色与该音色相似度越高
示例:
"timbre_weights": [ { "voice_id": "female-chengshu", "weight": 30 }, { "voice_id": "female-tianmei", "weight": 70 } ]
language_boost string
是否增强对指定的小语种和方言的识别能力. 可设置为 auto 让模型自主判断
默认值: null
选项: Chinese, Chinese,Yue, English, Arabic, Russian, Spanish, French, Portuguese, German, Turkish, Dutch, Ukrainian, Vietnamese, Indonesian, Japanese, Italian, Korean, Thai, Polish, Romanian, Greek, Czech, Finnish, Hindi, Bulgarian, Danish, Hebrew, Malay, Persian, Slovak, Swedish, Croatian, Filipino, Hungarian, Norwegian, Slovenian, Catalan, Nynorsk, Tamil, Afrikaans, auto
voice_modify object
声音效果器设置. 该参数支持的音频格式:非流式:mp3, wav, flac; 流式:mp3
pitch
integer音高调整(低沉/明亮)
范围:
-100-100数值接近
-100, 声音更低沉; 接近100, 声音更明亮
intensity
integer强度调整(力量感/柔和)
范围:
-100-100数值接近
-100, 声音更刚劲; 接近100, 声音更轻柔
timbre
integer音色调整(磁性/清脆)
范围:
-100-100数值接近
-100, 声音更浑厚; 数值接近100, 声音更清脆
sound_effects
string音效设置, 单次仅能选择一种
选项:
spacious_echo(空旷回音),auditorium_echo(礼堂广播),lofi_telephone(电话失真),robotic(电音)
subtitle_enable boolean
控制是否开启字幕服务. 此参数仅在非流式输出场景下有效
默认值: false
aigc_watermark boolean
控制在合成音频的末尾添加音频节奏标识. 该参数仅对非流式合成生效
默认值: false
轮询
由于音频生成需要时间, 您需要在创建任务后轮询任务状态
初始响应返回任务 ID 和初始状态. 实际的生成结果必须通过轮询任务状态端点来获取
响应格式
error object
错误信息.仅在状态为 failed 时存在
code
integer错误代码
error_message
string详细错误消息
output array
生成结果.仅在状态为 completed 时存在
content
array生成的音频内容列表
type
string资源类型, 固定为
audiourl
string音频文件 URL(当 output_format 为
url时)data
string音频十六进制数据(当 output_format 为
hex时)format
string数据格式(流式输出时使用)
index
integer数据块索引(流式输出时使用)
size
integer数据块大小(流式输出时使用)
usage object
使用统计信息. 仅在状态为 completed 时出现
metadata object
元数据信息
错误码
| 错误码 | 描述 |
|---|---|
| 010008095 | 内部生成错误 |
| 010008096 | 结果解析错误 |
| 010008097 | HTTP 错误响应 |
| 010008099 | 同步生成异常 |