认证
authorization string required
所有 API 均使用 Bearer Token 鉴权
获取 API Key:
访问 API Key 管理页面 获取 API Key
用法:
将以下 Header 添加到请求中:
Authorization: Bearer YOUR_API_KEY
参数
file file required
要转录的音频文件
支持格式:mp3, mp4, mpeg, mpga, m4a, wav, webm
文件大小限制:25 MB
model string required
用于请求的模型 ID
Value:vtrix-gpt-4o-transcribe
response_format string
输出转录的格式
可选值:json, text
默认值:json
prompt string
用于指导模型风格或提供上下文的文本。可用于纠正特定词汇或缩写, 保留分割文件的上下文, 或控制标点符号和填充词
示例:
纠正特定术语:“本转录内容关于 OpenAI, 其技术包括 DALL·E, GPT-4 和 ChatGPT。“
保留标点符号:“你好, 欢迎来到我的讲座。“
保留填充词:“嗯, 让我想想, 嗯… 好的, 我的想法是这样的。“
stream boolean
是否增量流式传输转录。启用时, 返回 transcript.text.delta 事件流, 最后跟随一个 transcript.text.done 事件
默认值:false
language string
输入音频的语言, 使用 ISO-639-1 或 ISO-639-3 格式。提供输入语言可以提高准确性和延迟
示例:en (英语), zh (中文), ja (日语), es (西班牙语)
响应格式
text string
从音频文件转录的文本。当 response_format 为 json 时存在
支持的语言
支持 98 种语言, 包括:南非荷兰语, 阿拉伯语, 亚美尼亚语, 阿塞拜疆语, 白俄罗斯语, 波斯尼亚语, 保加利亚语, 加泰罗尼亚语, 中文, 克罗地亚语, 捷克语, 丹麦语, 荷兰语, 英语, 爱沙尼亚语, 芬兰语, 法语, 加利西亚语, 德语, 希腊语, 希伯来语, 印地语, 匈牙利语, 冰岛语, 印度尼西亚语, 意大利语, 日语, 卡纳达语, 哈萨克语, 韩语, 拉脱维亚语, 立陶宛语, 马其顿语, 马来语, 马拉地语, 毛利语, 尼泊尔语, 挪威语, 波斯语, 波兰语, 葡萄牙语, 罗马尼亚语, 俄语, 塞尔维亚语, 斯洛伐克语, 斯洛文尼亚语, 西班牙语, 斯瓦希里语, 瑞典语, 他加禄语, 泰米尔语, 泰语, 土耳其语, 乌克兰语, 乌尔都语, 越南语和威尔士语。