Spark dance 2.0 Fast | Vtrix API Docs

接口提示

image_url 中的 asset:// 格式资产 ID 需先通过 spark_asset_create_group 创建资产组, 再通过 spark_asset_create 上传图像资产后获取

认证

authorization `string` required

所有 API 均使用 Bearer Token 鉴权

获取 API Key：

访问 API Key 管理页面获取 API Key

用法：

将以下 Header 添加到请求中：

Authorization: Bearer YOUR_API_KEY

参数

model `string` required

请求使用的模型 ID

值: spark_dance_v2_0_fast

content `object[]` required

视频生成的输入内容. 支持文本、图像、视频和音频媒体类型. 支持以下组合：

仅文本
文本（可选）+ 图像
文本（可选）+ 视频
文本（可选）+ 图像 + 音频
文本（可选）+ 图像 + 视频
文本（可选）+ 视频 + 音频
文本（可选）+ 图像 + 视频 + 音频

文本信息 object

输入给模型的文本信息

type string required

输入内容的类型

值: text

text string required

输入给模型的文本 prompt, 描述期望生成的视频. 建议将 prompt 控制在 1000 词以内. 文字过长会导致信息分散, 模型可能忽略细节而只关注关键点, 导致生成视频中缺失部分元素

图像信息 object

输入给模型的图像信息

type string required

输入内容的类型

值: image_url

image_url object required

图像对象

url string required

图像 URL、图像的 Base64 字符串或资产 ID

图像 URL：输入图像的公开 URL

Base64 字符串：将本地文件转换为 Base64 编码字符串传入模型. 格式：data:image/<图像格式>;base64,<Base64 字符串>. 注意 <图像格式> 必须为小写, 例如 data:image/png;base64,{base64_image}

资产 ID：预配置资产和数字人物的 ID, 格式为 asset://<ASSET_ID>

单张上传图像的要求：
格式：jpeg、png、webp、bmp、tiff、gif
宽高比（宽/高）：(0.4, 2.5)
宽高（px）：(300, 6000)
大小：单张图像须小于 30 MB, 请求体大小不超过 64 MB, 大文件请勿使用 Base64 编码
图像数量：首帧 — 1 张；首尾帧 — 2 张；参考图像 — 1-9 张

role string conditional required

图像的位置或用途

⚠️ 图像转视频（首帧）、图像转视频（首尾帧）和多模态参考视频生成是三种互斥场景, 不能同时使用. 对于多模态参考视频生成, 可通过 prompt 将参考图像指定为首帧/尾帧, 间接实现”首尾帧 + 多模态参考”. 若需严格保证首尾帧与指定图像一致, 请始终使用图像转视频的首尾帧功能（将 role 配置为 first_frame / last_frame）

图像转视频（首帧）：
传入 1 个 image_url 对象. role 值：first_frame 或留空

图像转视频（首尾帧）：
传入 2 个 image_url 对象. 首帧图像：role = first_frame（必填）. 尾帧图像：role = last_frame（必填）

图像转视频（参考图像）：
传入 1-9 个 image_url 对象. role = reference_image（必填）

视频信息 object

输入给模型的视频

type string required

输入内容的类型

值: video_url

video_url object required

视频对象

url string required

视频 URL 或资产 ID

role string conditional required

视频的位置或用途

可选值: reference_video

音频信息 object

输入给模型的音频. 使用音频输入时, 至少需要同时包含 1 个参考视频或图像

type string required

输入内容的类型

值: audio_url

audio_url object required

音频对象

role string conditional required

音频的位置或用途

可选值: reference_audio

generate_audio `boolean`

控制生成的视频是否包含与画面同步的声音

true：视频输出包含同步音频. 模型将根据文本 prompt 和视觉内容自动生成匹配的人声、音效和背景音乐. 建议将对话内容放在双引号内以优化音频生成效果. 例如：男人叫住了女人说：“记住, 你以后不能用手指月亮.”

注意：所有包含音频的生成视频均为单声道, 与输入音频的声道数无关

false：视频输出为无声视频

默认值: true

resolution `string`

视频分辨率

默认值: 720p

可选值: 480p, 720p

ratio `string`

生成视频的宽高比

当 ratio 设置为 adaptive 时, 模型将根据生成场景自动适配宽高比：
文本转视频：根据输入 prompt 智能选择最合适的宽高比
首帧/首尾帧转视频：根据上传首帧图像的比例自动选择最接近的宽高比
多模态参考视频生成：根据用户 prompt 的意图判断. 若为首帧视频生成/视频编辑/视频延伸, 则根据对应图像/视频选择最接近的宽高比；否则根据第一个上传的媒体文件选择最接近的宽高比（优先级：视频 > 图像）

默认值: adaptive

可选值: 16:9, 4:3, 1:1, 3:4, 9:16, 21:9, adaptive

不同宽高比对应的宽高像素值：

分辨率	宽高比	尺寸（宽 × 高）
480p	16:9	864×496
480p	4:3	752×560
480p	1:1	640×640
480p	3:4	560×752
480p	9:16	496×864
480p	21:9	992×432
720p	16:9	1280×720
720p	4:3	1112×834
720p	1:1	960×960
720p	3:4	834×1112
720p	9:16	720×1280
720p	21:9	1470×630

duration `integer`

生成视频的时长, 单位为秒, 仅支持整数

两种配置方式：
指定具体时长：有效范围内的任意整数
智能指定：设置为 -1, 由模型在有效范围内自主选择合适的视频时长（整数秒）. 实际生成视频的时长可通过任务查询接口返回的 duration 参数获取

注意：视频时长与计费相关, 请谨慎设置

默认值: 5

范围: 4 - 15, 或 -1（自动）

轮询

由于结果生成需要时间，您需要在创建任务后轮询任务状态

初始响应只返回任务 ID 和初始状态等信息，最终生成结果需通过使用该任务 ID 轮询任务状态接口获取

轮询请求与响应示例见右侧

响应格式

error `object`

错误信息, 仅在状态为 failed 时存在

code string

错误码

message string

详细错误信息

output `array`

生成结果, 仅在状态为 completed 时存在

content array

生成的资源内容列表

type string

资源类型

值: image｜video

url string

处理后的资源 URL

jobId string

远端任务 ID

usage `object`

使用统计, 仅在状态为 completed 时存在

cost string

总费用（美元）

discount number

折扣金额

metadata `object`

元数据信息

接口提示

认证

authorization string required

参数

model string required

content object[] required

文本信息 object

type string required

text string required

图像信息 object

type string required

image_url object required

url string required

role string conditional required

视频信息 object

type string required

video_url object required

url string required

role string conditional required

音频信息 object

type string required

audio_url object required

role string conditional required

generate_audio boolean

resolution string

ratio string

duration integer

轮询

响应格式

error object

code string

message string

output array

content array

type string

url string

jobId string

usage object

cost string

discount number

metadata object

authorization `string` required

model `string` required

content `object[]` required

文本信息 `object`

type `string` required

text `string` required

图像信息 `object`

type `string` required

image_url `object` required

url `string` required

role `string` conditional required

视频信息 `object`

type `string` required

video_url `object` required

url `string` required

role `string` conditional required

音频信息 `object`

type `string` required

audio_url `object` required

role `string` conditional required

generate_audio `boolean`

resolution `string`

ratio `string`

duration `integer`

error `object`

code `string`

message `string`

output `array`

content `array`

type `string`

url `string`

jobId `string`

usage `object`

cost `string`

discount `number`

metadata `object`