Minimax Speech 02 Hd | Vtrix API Docs

认证

authorization `string` 必需

所有 API 都需要通过 Bearer Token 进行身份验证

获取 API Key:

使用方法:

添加到请求头:

Authorization: Bearer YOUR_API_KEY

参数

model `string` 必需

请求使用的模型 ID

值: minimax_speech_02_hd

text `string` 必需

需要合成语音的文本, 长度限制小于 10000 字符

若文本长度大于 3000 字符, 推荐使用流式输出

段落切换用换行符标记
停顿控制：支持自定义文本之间的语音时间间隔, 以实现自定义文本语音停顿时间的效果. 使用方式：在文本中增加 <#x#> 标记, x 为停顿时长（单位：秒）. 范围 [0.01, 99.99], 最多保留两位小数. 文本间隔时间需设置在两个可以语音发音的文本之间, 不可连续使用多个停顿标记

stream `boolean`

控制是否流式输出

默认值: false (不开启流式)

stream_options `object`

流式配置

exclude_aggregated_audio boolean

设置最后一个 chunk 是否包含拼接后的语音 hex 数据

默认值: false (最后一个 chunk 中包含拼接后的完整语音 hex 数据)

output_format `string`

音频输出格式

选项: url（返回音频文件 URL）, hex（返回十六进制音频数据）

默认值: url

voice_setting `object`

语音设置, 包括语音 ID、语速、音量、音调

voice_id string

合成音频的音色编号. 若需要设置混合音色, 请设置 timbre_weights 参数, 本参数设置为空值

支持系统音色、复刻音色以及文生音色三种类型, 系统音色 ID 见系统音色列表

speed number

合成音频的语速, 取值越大, 语速越快

范围: 0.5 - 2

默认值: 1.0

vol number

合成音频的音量, 取值越大, 音量越大

范围: 0 - 10

默认值: 1.0

pitch integer

合成音频的语调

范围: -12 - 12

默认值: 0 (原音色输出)

emotion string

控制合成语音的情绪. 模型会根据输入文本自动匹配合适的情绪, 一般无需手动指定

选项: happy, sad, angry, fearful, disgusted, surprised, calm (分别对应 7 种情绪：高兴、悲伤、愤怒、害怕、厌恶、惊讶、中性)

text_normalization boolean

是否启用中文、英语文本规范化, 开启后可提升数字阅读场景的性能, 但会略微增加延迟

默认值: false

latex_read boolean

控制是否朗读 LaTeX 公式

默认值: false

需注意：
仅支持中文, 开启该参数后, language_boost 参数会被设置为 Chinese
请求中的公式需要在公式的首尾加上 $$
请求中公式若有 \, 需转义成 \\. 例如：$$x = \\frac{-b \\pm \\sqrt{b^2 - 4ac}}{2a}$$

audio_setting `object`

音频设置

sample_rate integer

生成音频的采样率

选项: 8000, 16000, 22050, 24000, 32000, 44100

默认值: 32000

bitrate string

生成音频的比特率. 该参数仅对 mp3 格式的音频生效

选项: 32000, 64000, 128000, 256000

默认值: 128000

format string

生成音频的格式, wav 仅在非流式输出下支持

选项: mp3, pcm, flac, wav

channel integer

生成音频的声道数

选项: 1 (单声道), 2 (双声道)

默认值: 1

force_cbr boolean

对于音频恒定比特率（cbr）控制. 当此参数设置为 true, 将以恒定比特率方式进行音频编码

默认值: false

注意：本参数仅当音频设置为流式输出, 且音频格式为 mp3 时生效

pronunciation_dict `object`

发音字典, 用于自定义特定词语的发音

tone array

定义需要特殊标注的文字或符号对应的注音或发音替换规则

在中文文本中, 声调用数字表示：一声为 1, 二声为 2, 三声为 3, 四声为 4, 轻声为 5

示例：["燕少飞/(yan4)(shao3)(fei1)", "omg/oh my god"]

timber_weights `array`

混合音色配置. 最多支持 4 种音色混合

每项包含：

voice_id string

合成音频的音色编号, 须和 weight 参数同步填写

支持系统音色、复刻音色以及文生音色三种类型

weight integer

合成音频各音色所占的权重, 须与 voice_id 同步填写

范围: 1 - 100

单一音色取值占比越高, 合成音色与该音色相似度越高

示例：
"timbre_weights": [
  {
    "voice_id": "female-chengshu",
    "weight": 30
  },
  {
    "voice_id": "female-tianmei",
    "weight": 70
  }
]

language_boost `string`

是否增强对指定的小语种和方言的识别能力. 可设置为 auto 让模型自主判断

默认值: null

选项: Chinese, Chinese,Yue, English, Arabic, Russian, Spanish, French, Portuguese, German, Turkish, Dutch, Ukrainian, Vietnamese, Indonesian, Japanese, Italian, Korean, Thai, Polish, Romanian, Greek, Czech, Finnish, Hindi, Bulgarian, Danish, Hebrew, Malay, Persian, Slovak, Swedish, Croatian, Filipino, Hungarian, Norwegian, Slovenian, Catalan, Nynorsk, Tamil, Afrikaans, auto

voice_modify `object`

声音效果器设置. 该参数支持的音频格式：非流式：mp3, wav, flac; 流式：mp3

pitch integer

音高调整（低沉/明亮）

范围: -100 - 100

数值接近 -100, 声音更低沉; 接近 100, 声音更明亮

intensity integer

强度调整（力量感/柔和）

范围: -100 - 100

数值接近 -100, 声音更刚劲; 接近 100, 声音更轻柔

timbre integer

音色调整（磁性/清脆）

范围: -100 - 100

数值接近 -100, 声音更浑厚; 数值接近 100, 声音更清脆

sound_effects string

音效设置, 单次仅能选择一种

选项: spacious_echo (空旷回音), auditorium_echo (礼堂广播), lofi_telephone (电话失真), robotic (电音)

subtitle_enable `boolean`

控制是否开启字幕服务. 此参数仅在非流式输出场景下有效

默认值: false

aigc_watermark `boolean`

控制在合成音频的末尾添加音频节奏标识. 该参数仅对非流式合成生效

默认值: false

轮询

由于音频生成需要时间, 您需要在创建任务后轮询任务状态

初始响应返回任务 ID 和初始状态. 实际的生成结果必须通过轮询任务状态端点来获取

响应格式

error `object`

错误信息.仅在状态为 failed 时存在

code integer

错误代码

error_message string

详细错误消息

output `array`

生成结果.仅在状态为 completed 时存在

content array

生成的音频内容列表

type string

资源类型, 固定为 audio

url string

音频文件 URL（当 output_format 为 url 时）

data string

音频十六进制数据（当 output_format 为 hex 时）

format string

数据格式（流式输出时使用）

index integer

数据块索引（流式输出时使用）

size integer

数据块大小（流式输出时使用）

usage `object`

使用统计信息. 仅在状态为 completed 时出现

metadata `object`

元数据信息

错误码

错误码	描述
010008095	内部生成错误
010008096	结果解析错误
010008097	HTTP 错误响应
010008099	同步生成异常

认证

authorization string 必需

参数

model string 必需

text string 必需

stream boolean

stream_options object

exclude_aggregated_audio boolean

output_format string

voice_setting object

voice_id string

speed number

vol number

pitch integer

emotion string

text_normalization boolean

latex_read boolean

audio_setting object

sample_rate integer

bitrate string

format string

channel integer

force_cbr boolean

pronunciation_dict object

tone array

timber_weights array

voice_id string

weight integer

language_boost string

voice_modify object

pitch integer

intensity integer

timbre integer

sound_effects string

subtitle_enable boolean

aigc_watermark boolean

轮询

响应格式

error object

code integer

error_message string

output array

content array

type string

url string

data string

format string

index integer

size integer

usage object

metadata object

错误码

authorization `string` 必需

model `string` 必需

text `string` 必需

stream `boolean`

stream_options `object`

exclude_aggregated_audio `boolean`

output_format `string`

voice_setting `object`

voice_id `string`

speed `number`

vol `number`

pitch `integer`

emotion `string`

text_normalization `boolean`

latex_read `boolean`

audio_setting `object`

sample_rate `integer`

bitrate `string`

format `string`

channel `integer`

force_cbr `boolean`

pronunciation_dict `object`

tone `array`

timber_weights `array`

voice_id `string`

weight `integer`

language_boost `string`

voice_modify `object`

pitch `integer`

intensity `integer`

timbre `integer`

sound_effects `string`

subtitle_enable `boolean`

aigc_watermark `boolean`

error `object`

code `integer`

error_message `string`

output `array`

content `array`

type `string`

url `string`

data `string`

format `string`

index `integer`

size `integer`

usage `object`

metadata `object`