⌘K

GPT-4o Transcribe

vtrix-gpt-4o-transcribe

基于 GPT-4o 的语音转文本模型。相比原始 Whisper 模型, 提供更低的词错率以及更好的语言识别和准确性。支持 16,000 上下文窗口和 2,000 最大输出 token。

认证

authorization string required

所有 API 均使用 Bearer Token 鉴权

获取 API Key:

访问 API Key 管理页面 获取 API Key

用法:

将以下 Header 添加到请求中:

Authorization: Bearer YOUR_API_KEY

参数

file file required

要转录的音频文件

支持格式:mp3, mp4, mpeg, mpga, m4a, wav, webm

文件大小限制:25 MB


model string required

用于请求的模型 ID

Value:vtrix-gpt-4o-transcribe


response_format string

输出转录的格式

可选值:json, text

默认值:json


prompt string

用于指导模型风格或提供上下文的文本。可用于纠正特定词汇或缩写, 保留分割文件的上下文, 或控制标点符号和填充词

示例:
纠正特定术语:“本转录内容关于 OpenAI, 其技术包括 DALL·E, GPT-4 和 ChatGPT。“
保留标点符号:“你好, 欢迎来到我的讲座。“
保留填充词:“嗯, 让我想想, 嗯… 好的, 我的想法是这样的。“


stream boolean

是否增量流式传输转录。启用时, 返回 transcript.text.delta 事件流, 最后跟随一个 transcript.text.done 事件

默认值:false


language string

输入音频的语言, 使用 ISO-639-1 或 ISO-639-3 格式。提供输入语言可以提高准确性和延迟

示例:en (英语), zh (中文), ja (日语), es (西班牙语)


响应格式

text string

从音频文件转录的文本。当 response_formatjson 时存在


支持的语言

支持 98 种语言, 包括:南非荷兰语, 阿拉伯语, 亚美尼亚语, 阿塞拜疆语, 白俄罗斯语, 波斯尼亚语, 保加利亚语, 加泰罗尼亚语, 中文, 克罗地亚语, 捷克语, 丹麦语, 荷兰语, 英语, 爱沙尼亚语, 芬兰语, 法语, 加利西亚语, 德语, 希腊语, 希伯来语, 印地语, 匈牙利语, 冰岛语, 印度尼西亚语, 意大利语, 日语, 卡纳达语, 哈萨克语, 韩语, 拉脱维亚语, 立陶宛语, 马其顿语, 马来语, 马拉地语, 毛利语, 尼泊尔语, 挪威语, 波斯语, 波兰语, 葡萄牙语, 罗马尼亚语, 俄语, 塞尔维亚语, 斯洛伐克语, 斯洛文尼亚语, 西班牙语, 斯瓦希里语, 瑞典语, 他加禄语, 泰米尔语, 泰语, 土耳其语, 乌克兰语, 乌尔都语, 越南语和威尔士语。