⌘K

Gemini 3.1 Flash TTS Preview

gemini_3_1_flash_tts_preview

Gemini 3.1 Flash TTS Preview 可将文本转换为语音音频, 并支持配置预置音色.

接口提示

gemini_3_1_flash_tts_preview 在任务结果中返回 audio/wav 格式的音频文件 URL

gemini_3_1_flash_tts_preview 在 token usage 可用时通过 input_text_tokensoutput_audio_tokens 返回用量

认证

authorization string 必填

所有 API 均使用 Bearer Token 鉴权

获取 API Key:

访问 API Key 管理页面 获取 API Key

用法:

将以下 Header 添加到请求中:

Authorization: Bearer YOUR_API_KEY

参数

model string 必填

请求使用的模型 ID

值: gemini_3_1_flash_tts_preview


input array 必填

统一生成请求的输入数组

params object 必填

文本转语音参数

text string 必填

需要转换为语音的文本. prompt 也作为兼容别名支持, 但推荐使用 text

voice_name string

语音合成使用的预置音色名称

默认值: Kore


轮询

由于音频生成需要时间, 您需要在创建任务后轮询任务状态

初始响应返回任务 ID 和初始状态. 实际生成的音频 URL 需要通过任务状态端点获取

响应格式

error object

错误信息. 仅在状态为 failed 时存在

code integer

错误代码

error_message string

详细错误消息


output array

生成结果. 仅在状态为 completed 时存在

content array

生成的音频内容列表

type string

资源类型, 固定为 audio

mime_type string

音频 MIME 类型, 固定为 audio/wav

url string

生成的音频文件 URL


usage object

使用统计信息. 仅在状态为 completed 时存在

extra_info object

归一化后的 token 用量明细

input_text_tokens integer

输入文本 token 数量

output_audio_tokens integer

生成音频 token 数量

total_tokens integer

总 token 数量


metadata object

元数据信息