接口提示
image_url 中的 asset:// 格式资产 ID 需先通过 spark_asset_create_group 创建资产组, 再通过 spark_asset_create 上传图像资产后获取
认证
authorization string required
所有 API 均使用 Bearer Token 鉴权
获取 API Key:
访问 API Key 管理页面 获取 API Key
用法:
将以下 Header 添加到请求中:
Authorization: Bearer YOUR_API_KEY
参数
model string required
请求使用的模型 ID
值: spark_dance_v2_0_fast
content object[] required
视频生成的输入内容. 支持文本、图像、视频和音频媒体类型. 支持以下组合:
仅文本
文本(可选)+ 图像
文本(可选)+ 视频
文本(可选)+ 图像 + 音频
文本(可选)+ 图像 + 视频
文本(可选)+ 视频 + 音频
文本(可选)+ 图像 + 视频 + 音频
文本信息
object输入给模型的文本信息
type
stringrequired输入内容的类型
值:
texttext
stringrequired输入给模型的文本 prompt, 描述期望生成的视频. 建议将 prompt 控制在 1000 词以内. 文字过长会导致信息分散, 模型可能忽略细节而只关注关键点, 导致生成视频中缺失部分元素
图像信息
object输入给模型的图像信息
type
stringrequired输入内容的类型
值:
image_urlimage_url
objectrequired图像对象
url
stringrequired图像 URL、图像的 Base64 字符串或资产 ID
图像 URL:输入图像的公开 URL
Base64 字符串:将本地文件转换为 Base64 编码字符串传入模型. 格式:
data:image/<图像格式>;base64,<Base64 字符串>. 注意<图像格式>必须为小写, 例如data:image/png;base64,{base64_image}资产 ID:预配置资产和数字人物的 ID, 格式为
asset://<ASSET_ID>单张上传图像的要求:
格式:jpeg、png、webp、bmp、tiff、gif
宽高比(宽/高):(0.4, 2.5)
宽高(px):(300, 6000)
大小:单张图像须小于30 MB, 请求体大小不超过64 MB, 大文件请勿使用 Base64 编码
图像数量:首帧 — 1 张;首尾帧 — 2 张;参考图像 — 1-9 张role
stringconditional required图像的位置或用途
⚠️ 图像转视频(首帧)、图像转视频(首尾帧)和多模态参考视频生成是三种互斥场景, 不能同时使用. 对于多模态参考视频生成, 可通过 prompt 将参考图像指定为首帧/尾帧, 间接实现”首尾帧 + 多模态参考”. 若需严格保证首尾帧与指定图像一致, 请始终使用图像转视频的首尾帧功能(将
role配置为first_frame/last_frame)图像转视频(首帧):
传入 1 个image_url对象.role值:first_frame或留空图像转视频(首尾帧):
传入 2 个image_url对象. 首帧图像:role=first_frame(必填). 尾帧图像:role=last_frame(必填)图像转视频(参考图像):
传入 1-9 个image_url对象.role=reference_image(必填)
视频信息
object输入给模型的视频
type
stringrequired输入内容的类型
值:
video_urlvideo_url
objectrequired视频对象
url
stringrequired视频 URL 或资产 ID
role
stringconditional required视频的位置或用途
可选值:
reference_video
音频信息
object输入给模型的音频. 使用音频输入时, 至少需要同时包含 1 个参考视频或图像
type
stringrequired输入内容的类型
值:
audio_urlaudio_url
objectrequired音频对象
role
stringconditional required音频的位置或用途
可选值:
reference_audio
generate_audio boolean
控制生成的视频是否包含与画面同步的声音
true:视频输出包含同步音频. 模型将根据文本 prompt 和视觉内容自动生成匹配的人声、音效和背景音乐. 建议将对话内容放在双引号内以优化音频生成效果. 例如:男人叫住了女人说:“记住, 你以后不能用手指月亮.”
注意:所有包含音频的生成视频均为单声道, 与输入音频的声道数无关
false:视频输出为无声视频
默认值: true
resolution string
视频分辨率
默认值: 720p
可选值: 480p, 720p
ratio string
生成视频的宽高比
当 ratio 设置为 adaptive 时, 模型将根据生成场景自动适配宽高比:
文本转视频:根据输入 prompt 智能选择最合适的宽高比
首帧/首尾帧转视频:根据上传首帧图像的比例自动选择最接近的宽高比
多模态参考视频生成:根据用户 prompt 的意图判断. 若为首帧视频生成/视频编辑/视频延伸, 则根据对应图像/视频选择最接近的宽高比;否则根据第一个上传的媒体文件选择最接近的宽高比(优先级:视频 > 图像)
默认值: adaptive
可选值: 16:9, 4:3, 1:1, 3:4, 9:16, 21:9, adaptive
不同宽高比对应的宽高像素值:
| 分辨率 | 宽高比 | 尺寸(宽 × 高) |
|---|---|---|
| 480p | 16:9 | 864×496 |
| 480p | 4:3 | 752×560 |
| 480p | 1:1 | 640×640 |
| 480p | 3:4 | 560×752 |
| 480p | 9:16 | 496×864 |
| 480p | 21:9 | 992×432 |
| 720p | 16:9 | 1280×720 |
| 720p | 4:3 | 1112×834 |
| 720p | 1:1 | 960×960 |
| 720p | 3:4 | 834×1112 |
| 720p | 9:16 | 720×1280 |
| 720p | 21:9 | 1470×630 |
duration integer
生成视频的时长, 单位为秒, 仅支持整数
两种配置方式:
指定具体时长:有效范围内的任意整数
智能指定:设置为 -1, 由模型在有效范围内自主选择合适的视频时长(整数秒). 实际生成视频的时长可通过任务查询接口返回的 duration 参数获取
注意:视频时长与计费相关, 请谨慎设置
默认值: 5
范围: 4 - 15, 或 -1(自动)
轮询
由于结果生成需要时间,您需要在创建任务后轮询任务状态
初始响应只返回任务 ID 和初始状态等信息,最终生成结果需通过使用该任务 ID 轮询任务状态接口获取
轮询请求与响应示例见右侧
响应格式
error object
错误信息, 仅在状态为 failed 时存在
code
string错误码
message
string详细错误信息
output array
生成结果, 仅在状态为 completed 时存在
content
array生成的资源内容列表
type
string资源类型
值:
image|videourl
string处理后的资源 URL
jobId
string远端任务 ID
usage object
使用统计, 仅在状态为 completed 时存在
cost
string总费用(美元)
discount
number折扣金额
metadata object
元数据信息