⌘K

Minimax Speech 2.8 Hd

minimax_speech_28_hd

超写实音质, 支持音效标签

认证

authorization string 必需

所有 API 都需要通过 Bearer Token 进行身份验证

获取 API Key:

访问 API Key 管理页面 获取您的 API Key

使用方法:

添加到请求头:

Authorization: Bearer YOUR_API_KEY

参数

model string 必需

请求使用的模型 ID

: minimax_speech_28_hd


text string 必需

需要合成语音的文本, 长度限制小于 10000 字符

若文本长度大于 3000 字符, 推荐使用流式输出

段落切换用换行符标记
停顿控制:支持自定义文本之间的语音时间间隔, 以实现自定义文本语音停顿时间的效果. 使用方式:在文本中增加 <#x#> 标记, x 为停顿时长(单位:秒). 范围 [0.01, 99.99], 最多保留两位小数. 文本间隔时间需设置在两个可以语音发音的文本之间, 不可连续使用多个停顿标记

语气词标签:支持在文本中插入语气词标签. 支持的语气词:(laughs)(笑声)、(chuckle)(轻笑)、(coughs)(咳嗽)、(clear-throat)(清嗓子)、(groans)(呻吟)、(breath)(正常换气)、(pant)(喘气)、(inhale)(吸气)、(exhale)(呼气)、(gasps)(倒吸气)、(sniffs)(吸鼻子)、(sighs)(叹气)、(snorts)(喷鼻息)、(burps)(打嗝)、(lip-smacking)(咂嘴)、(humming)(哼唱)、(hissing)(嘶嘶声)、(emm)(嗯)、(sneezes)(喷嚏)


stream boolean

控制是否流式输出

默认值: false (不开启流式)


stream_options object

流式配置

exclude_aggregated_audio boolean

设置最后一个 chunk 是否包含拼接后的语音 hex 数据

默认值: false (最后一个 chunk 中包含拼接后的完整语音 hex 数据)


output_format string

音频输出格式

选项: url(返回音频文件 URL), hex(返回十六进制音频数据)

默认值: url


voice_setting object

语音设置, 包括语音 ID、语速、音量、音调

voice_id string

合成音频的音色编号. 若需要设置混合音色, 请设置 timbre_weights 参数, 本参数设置为空值

支持系统音色、复刻音色以及文生音色三种类型, 系统音色 ID 见 系统音色列表

speed number

合成音频的语速, 取值越大, 语速越快

范围: 0.5 - 2

默认值: 1.0

vol number

合成音频的音量, 取值越大, 音量越大

范围: 0 - 10

默认值: 1.0

pitch integer

合成音频的语调

范围: -12 - 12

默认值: 0 (原音色输出)

emotion string

控制合成语音的情绪. 模型会根据输入文本自动匹配合适的情绪, 一般无需手动指定

选项: happy, sad, angry, fearful, disgusted, surprised, calm, fluent (分别对应 8 种情绪:高兴、悲伤、愤怒、害怕、厌恶、惊讶、中性、生动)

text_normalization boolean

是否启用中文、英语文本规范化, 开启后可提升数字阅读场景的性能, 但会略微增加延迟

默认值: false

latex_read boolean

控制是否朗读 LaTeX 公式

默认值: false

需注意:
仅支持中文, 开启该参数后, language_boost 参数会被设置为 Chinese
请求中的公式需要在公式的首尾加上 $$
请求中公式若有 \, 需转义成 \\. 例如:$$x = \\frac{-b \\pm \\sqrt{b^2 - 4ac}}{2a}$$


audio_setting object

音频设置

sample_rate integer

生成音频的采样率

选项: 8000, 16000, 22050, 24000, 32000, 44100

默认值: 32000

bitrate string

生成音频的比特率. 该参数仅对 mp3 格式的音频生效

选项: 32000, 64000, 128000, 256000

默认值: 128000

format string

生成音频的格式, wav 仅在非流式输出下支持

选项: mp3, pcm, flac, wav

channel integer

生成音频的声道数

选项: 1 (单声道), 2 (双声道)

默认值: 1

force_cbr boolean

对于音频恒定比特率(cbr)控制. 当此参数设置为 true, 将以恒定比特率方式进行音频编码

默认值: false

注意:本参数仅当音频设置为流式输出, 且音频格式为 mp3 时生效


pronunciation_dict object

发音字典, 用于自定义特定词语的发音

tone array

定义需要特殊标注的文字或符号对应的注音或发音替换规则

在中文文本中, 声调用数字表示:一声为 1, 二声为 2, 三声为 3, 四声为 4, 轻声为 5

示例:["燕少飞/(yan4)(shao3)(fei1)", "omg/oh my god"]


timber_weights array

混合音色配置. 最多支持 4 种音色混合

每项包含:

voice_id string

合成音频的音色编号, 须和 weight 参数同步填写

支持系统音色、复刻音色以及文生音色三种类型

weight integer

合成音频各音色所占的权重, 须与 voice_id 同步填写

范围: 1 - 100

单一音色取值占比越高, 合成音色与该音色相似度越高

示例:

"timbre_weights": [
  {
    "voice_id": "female-chengshu",
    "weight": 30
  },
  {
    "voice_id": "female-tianmei",
    "weight": 70
  }
]

language_boost string

是否增强对指定的小语种和方言的识别能力. 可设置为 auto 让模型自主判断

默认值: null

选项: Chinese, Chinese,Yue, English, Arabic, Russian, Spanish, French, Portuguese, German, Turkish, Dutch, Ukrainian, Vietnamese, Indonesian, Japanese, Italian, Korean, Thai, Polish, Romanian, Greek, Czech, Finnish, Hindi, Bulgarian, Danish, Hebrew, Malay, Persian, Slovak, Swedish, Croatian, Filipino, Hungarian, Norwegian, Slovenian, Catalan, Nynorsk, Tamil, Afrikaans, auto


voice_modify object

声音效果器设置. 该参数支持的音频格式:非流式:mp3, wav, flac; 流式:mp3

pitch integer

音高调整(低沉/明亮)

范围: -100 - 100

数值接近 -100, 声音更低沉; 接近 100, 声音更明亮

intensity integer

强度调整(力量感/柔和)

范围: -100 - 100

数值接近 -100, 声音更刚劲; 接近 100, 声音更轻柔

timbre integer

音色调整(磁性/清脆)

范围: -100 - 100

数值接近 -100, 声音更浑厚; 数值接近 100, 声音更清脆

sound_effects string

音效设置, 单次仅能选择一种

选项: spacious_echo (空旷回音), auditorium_echo (礼堂广播), lofi_telephone (电话失真), robotic (电音)


subtitle_enable boolean

控制是否开启字幕服务. 此参数仅在非流式输出场景下有效

默认值: false


aigc_watermark boolean

控制在合成音频的末尾添加音频节奏标识. 该参数仅对非流式合成生效

默认值: false


轮询

由于音频生成需要时间, 您需要在创建任务后轮询任务状态

初始响应返回任务 ID 和初始状态. 实际的生成结果必须通过轮询任务状态端点来获取

响应格式

error object

错误信息.仅在状态为 failed 时存在

code integer

错误代码

error_message string

详细错误消息


output array

生成结果.仅在状态为 completed 时存在

content array

生成的音频内容列表

type string

资源类型, 固定为 audio

url string

音频文件 URL(当 output_format 为 url 时)

data string

音频十六进制数据(当 output_format 为 hex 时)

format string

数据格式(流式输出时使用)

index integer

数据块索引(流式输出时使用)

size integer

数据块大小(流式输出时使用)


usage object

使用统计信息. 仅在状态为 completed 时出现


metadata object

元数据信息


错误码

错误码描述
010008095内部生成错误
010008096结果解析错误
010008097HTTP 错误响应
010008099同步生成异常