GPT-4o Transcribe Diarize

认证

authorization `string` required

所有 API 均使用 Bearer Token 鉴权

获取 API Key：

用法：

将以下 Header 添加到请求中：

Authorization: Bearer YOUR_API_KEY

参数

file `file` required

要进行说话人分离转录的音频文件

支持格式：mp3, mp4, mpeg, mpga, m4a, wav, webm

文件大小限制：25 MB

model `string` required

用于请求的模型 ID

Value：vtrix-gpt-4o-transcribe-diarize

response_format `string`

输出转录的格式

可选值：json, text, diarized_json

默认值：json

diarized_json 格式包含带有 speaker, start 和 end 元数据的说话人片段

chunking_strategy `string`

音频分段策略。当音频长度超过 30 秒时必需

可选值：auto (推荐), 或自定义语音活动检测配置

默认值：null

known_speaker_names `array`

已知说话人名称数组, 用于将片段映射到具体说话人。最多支持 4 个说话人

与 known_speaker_references 一起使用, 为每个说话人提供参考音频片段

示例：["坐席", "客户"]

known_speaker_references `array`

编码为 data URL 的参考音频片段数组。每个片段应为 2-10 秒长

必须与 known_speaker_names 数组对应。支持与主文件相同的音频格式

示例：["data:audio/wav;base64,AAA...", "data:audio/wav;base64,BBB..."]

stream `boolean`

是否增量流式传输转录。启用时, 为每个完成的片段发出 transcript.text.segment 事件

默认值：false

language `string`

输入音频的语言, 使用 ISO-639-1 或 ISO-639-3 格式。提供输入语言可以提高准确性和延迟

示例：en (英语), zh (中文), ja (日语), es (西班牙语)

响应格式

text `string`

音频文件的完整转录文本, 不包含说话人标签

segments `array`

带说话人标签的片段数组。仅当 response_format 为 diarized_json 时存在

speaker string

说话人标识符。格式：speaker_1, speaker_2 等, 或已知说话人名称 (如果提供)

text string

该片段的转录文本

start number

片段开始时间, 单位为秒

end number

片段结束时间, 单位为秒

支持的语言

支持 98 种语言, 包括：南非荷兰语, 阿拉伯语, 亚美尼亚语, 阿塞拜疆语, 白俄罗斯语, 波斯尼亚语, 保加利亚语, 加泰罗尼亚语, 中文, 克罗地亚语, 捷克语, 丹麦语, 荷兰语, 英语, 爱沙尼亚语, 芬兰语, 法语, 加利西亚语, 德语, 希腊语, 希伯来语, 印地语, 匈牙利语, 冰岛语, 印度尼西亚语, 意大利语, 日语, 卡纳达语, 哈萨克语, 韩语, 拉脱维亚语, 立陶宛语, 马其顿语, 马来语, 马拉地语, 毛利语, 尼泊尔语, 挪威语, 波斯语, 波兰语, 葡萄牙语, 罗马尼亚语, 俄语, 塞尔维亚语, 斯洛伐克语, 斯洛文尼亚语, 西班牙语, 斯瓦希里语, 瑞典语, 他加禄语, 泰米尔语, 泰语, 土耳其语, 乌克兰语, 乌尔都语, 越南语和威尔士语。

注意事项

vtrix-gpt-4o-transcribe-diarize 不支持以下参数：

prompt - 不适用于说话人分离转录
logprobs - 不适用于说话人分离转录
timestamp_granularities[] - 不适用于说话人分离转录

认证

authorization `string` required

参数

file `file` required

model `string` required

response_format `string`

chunking_strategy `string`

known_speaker_names `array`

known_speaker_references `array`

stream `boolean`

language `string`

响应格式

text `string`

segments `array`

speaker `string`

text `string`

start `number`

end `number`

支持的语言

注意事项

认证

authorization string required

参数

file file required

model string required

response_format string

chunking_strategy string

known_speaker_names array

known_speaker_references array

stream boolean

language string

响应格式

text string

segments array

speaker string

text string

start number

end number

支持的语言

注意事项

authorization `string` required

file `file` required

model `string` required

response_format `string`

chunking_strategy `string`

known_speaker_names `array`

known_speaker_references `array`

stream `boolean`

language `string`

text `string`

segments `array`

speaker `string`

text `string`

start `number`

end `number`