⌘K

GPT-4o Transcribe Diarize

vtrix-gpt-4o-transcribe-diarize

基于 GPT-4o 的说话人感知语音转文本模型。生成带有说话人标签的转录文本, 非常适合会议, 采访和多人对话场景。支持可选的已知说话人参考以提高准确性。

认证

authorization string required

所有 API 均使用 Bearer Token 鉴权

获取 API Key:

访问 API Key 管理页面 获取 API Key

用法:

将以下 Header 添加到请求中:

Authorization: Bearer YOUR_API_KEY

参数

file file required

要进行说话人分离转录的音频文件

支持格式:mp3, mp4, mpeg, mpga, m4a, wav, webm

文件大小限制:25 MB


model string required

用于请求的模型 ID

Value:vtrix-gpt-4o-transcribe-diarize


response_format string

输出转录的格式

可选值:json, text, diarized_json

默认值:json

diarized_json 格式包含带有 speaker, startend 元数据的说话人片段


chunking_strategy string

音频分段策略。当音频长度超过 30 秒时必需

可选值:auto (推荐), 或自定义语音活动检测配置

默认值:null


known_speaker_names array

已知说话人名称数组, 用于将片段映射到具体说话人。最多支持 4 个说话人

known_speaker_references 一起使用, 为每个说话人提供参考音频片段

示例["坐席", "客户"]


known_speaker_references array

编码为 data URL 的参考音频片段数组。每个片段应为 2-10 秒长

必须与 known_speaker_names 数组对应。支持与主文件相同的音频格式

示例["data:audio/wav;base64,AAA...", "data:audio/wav;base64,BBB..."]


stream boolean

是否增量流式传输转录。启用时, 为每个完成的片段发出 transcript.text.segment 事件

默认值:false


language string

输入音频的语言, 使用 ISO-639-1 或 ISO-639-3 格式。提供输入语言可以提高准确性和延迟

示例:en (英语), zh (中文), ja (日语), es (西班牙语)


响应格式

text string

音频文件的完整转录文本, 不包含说话人标签


segments array

带说话人标签的片段数组。仅当 response_formatdiarized_json 时存在

speaker string

说话人标识符。格式:speaker_1, speaker_2 等, 或已知说话人名称 (如果提供)

text string

该片段的转录文本

start number

片段开始时间, 单位为秒

end number

片段结束时间, 单位为秒


支持的语言

支持 98 种语言, 包括:南非荷兰语, 阿拉伯语, 亚美尼亚语, 阿塞拜疆语, 白俄罗斯语, 波斯尼亚语, 保加利亚语, 加泰罗尼亚语, 中文, 克罗地亚语, 捷克语, 丹麦语, 荷兰语, 英语, 爱沙尼亚语, 芬兰语, 法语, 加利西亚语, 德语, 希腊语, 希伯来语, 印地语, 匈牙利语, 冰岛语, 印度尼西亚语, 意大利语, 日语, 卡纳达语, 哈萨克语, 韩语, 拉脱维亚语, 立陶宛语, 马其顿语, 马来语, 马拉地语, 毛利语, 尼泊尔语, 挪威语, 波斯语, 波兰语, 葡萄牙语, 罗马尼亚语, 俄语, 塞尔维亚语, 斯洛伐克语, 斯洛文尼亚语, 西班牙语, 斯瓦希里语, 瑞典语, 他加禄语, 泰米尔语, 泰语, 土耳其语, 乌克兰语, 乌尔都语, 越南语和威尔士语。

注意事项

vtrix-gpt-4o-transcribe-diarize 不支持以下参数:

  • prompt - 不适用于说话人分离转录
  • logprobs - 不适用于说话人分离转录
  • timestamp_granularities[] - 不适用于说话人分离转录