认证
authorization string required
所有 API 均使用 Bearer Token 鉴权
获取 API Key:
访问 API Key 管理页面 获取 API Key
用法:
将以下 Header 添加到请求中:
Authorization: Bearer YOUR_API_KEY
参数
file file required
要进行说话人分离转录的音频文件
支持格式:mp3, mp4, mpeg, mpga, m4a, wav, webm
文件大小限制:25 MB
model string required
用于请求的模型 ID
Value:vtrix-gpt-4o-transcribe-diarize
response_format string
输出转录的格式
可选值:json, text, diarized_json
默认值:json
diarized_json 格式包含带有 speaker, start 和 end 元数据的说话人片段
chunking_strategy string
音频分段策略。当音频长度超过 30 秒时必需
可选值:auto (推荐), 或自定义语音活动检测配置
默认值:null
known_speaker_names array
已知说话人名称数组, 用于将片段映射到具体说话人。最多支持 4 个说话人
与 known_speaker_references 一起使用, 为每个说话人提供参考音频片段
示例:["坐席", "客户"]
known_speaker_references array
编码为 data URL 的参考音频片段数组。每个片段应为 2-10 秒长
必须与 known_speaker_names 数组对应。支持与主文件相同的音频格式
示例:["data:audio/wav;base64,AAA...", "data:audio/wav;base64,BBB..."]
stream boolean
是否增量流式传输转录。启用时, 为每个完成的片段发出 transcript.text.segment 事件
默认值:false
language string
输入音频的语言, 使用 ISO-639-1 或 ISO-639-3 格式。提供输入语言可以提高准确性和延迟
示例:en (英语), zh (中文), ja (日语), es (西班牙语)
响应格式
text string
音频文件的完整转录文本, 不包含说话人标签
segments array
带说话人标签的片段数组。仅当 response_format 为 diarized_json 时存在
speaker
string说话人标识符。格式:
speaker_1,speaker_2等, 或已知说话人名称 (如果提供)
text
string该片段的转录文本
start
number片段开始时间, 单位为秒
end
number片段结束时间, 单位为秒
支持的语言
支持 98 种语言, 包括:南非荷兰语, 阿拉伯语, 亚美尼亚语, 阿塞拜疆语, 白俄罗斯语, 波斯尼亚语, 保加利亚语, 加泰罗尼亚语, 中文, 克罗地亚语, 捷克语, 丹麦语, 荷兰语, 英语, 爱沙尼亚语, 芬兰语, 法语, 加利西亚语, 德语, 希腊语, 希伯来语, 印地语, 匈牙利语, 冰岛语, 印度尼西亚语, 意大利语, 日语, 卡纳达语, 哈萨克语, 韩语, 拉脱维亚语, 立陶宛语, 马其顿语, 马来语, 马拉地语, 毛利语, 尼泊尔语, 挪威语, 波斯语, 波兰语, 葡萄牙语, 罗马尼亚语, 俄语, 塞尔维亚语, 斯洛伐克语, 斯洛文尼亚语, 西班牙语, 斯瓦希里语, 瑞典语, 他加禄语, 泰米尔语, 泰语, 土耳其语, 乌克兰语, 乌尔都语, 越南语和威尔士语。
注意事项
vtrix-gpt-4o-transcribe-diarize 不支持以下参数:
prompt- 不适用于说话人分离转录logprobs- 不适用于说话人分离转录timestamp_granularities[]- 不适用于说话人分离转录