⌘K

Spark dance 2.0 Fast

spark_dance_v2_0_fast

Spark dance 2.0 Fast 是 Seedance 2.0 多模态视频创作模型的更快版本, 在支持文本、图像、视频和音频输入的同时提供更快的生成速度.

接口提示

image_url 中的 asset:// 格式资产 ID 需先通过 spark_asset_create_group 创建资产组, 再通过 spark_asset_create 上传图像资产后获取

认证

authorization string required

所有 API 均使用 Bearer Token 鉴权

获取 API Key:

访问 API Key 管理页面 获取 API Key

用法:

将以下 Header 添加到请求中:

Authorization: Bearer YOUR_API_KEY

参数

model string required

请求使用的模型 ID

值: spark_dance_v2_0_fast


content object[] required

视频生成的输入内容. 支持文本、图像、视频和音频媒体类型. 支持以下组合:

仅文本
文本(可选)+ 图像
文本(可选)+ 视频
文本(可选)+ 图像 + 音频
文本(可选)+ 图像 + 视频
文本(可选)+ 视频 + 音频
文本(可选)+ 图像 + 视频 + 音频

文本信息 object

输入给模型的文本信息

type string required

输入内容的类型

值: text

text string required

输入给模型的文本 prompt, 描述期望生成的视频. 建议将 prompt 控制在 1000 词以内. 文字过长会导致信息分散, 模型可能忽略细节而只关注关键点, 导致生成视频中缺失部分元素

图像信息 object

输入给模型的图像信息

type string required

输入内容的类型

值: image_url

image_url object required

图像对象

url string required

图像 URL、图像的 Base64 字符串或资产 ID

图像 URL:输入图像的公开 URL

Base64 字符串:将本地文件转换为 Base64 编码字符串传入模型. 格式:data:image/<图像格式>;base64,<Base64 字符串>. 注意 <图像格式> 必须为小写, 例如 data:image/png;base64,{base64_image}

资产 ID:预配置资产和数字人物的 ID, 格式为 asset://<ASSET_ID>

单张上传图像的要求
格式:jpegpngwebpbmptiffgif
宽高比(宽/高):(0.4, 2.5)
宽高(px):(300, 6000)
大小:单张图像须小于 30 MB, 请求体大小不超过 64 MB, 大文件请勿使用 Base64 编码
图像数量:首帧 — 1 张;首尾帧 — 2 张;参考图像 — 1-9 张

role string conditional required

图像的位置或用途

⚠️ 图像转视频(首帧)、图像转视频(首尾帧)和多模态参考视频生成是三种互斥场景, 不能同时使用. 对于多模态参考视频生成, 可通过 prompt 将参考图像指定为首帧/尾帧, 间接实现”首尾帧 + 多模态参考”. 若需严格保证首尾帧与指定图像一致, 请始终使用图像转视频的首尾帧功能(将 role 配置为 first_frame / last_frame

图像转视频(首帧)
传入 1 个 image_url 对象. role 值:first_frame 或留空

图像转视频(首尾帧)
传入 2 个 image_url 对象. 首帧图像:role = first_frame(必填). 尾帧图像:role = last_frame(必填)

图像转视频(参考图像)
传入 1-9 个 image_url 对象. role = reference_image(必填)

视频信息 object

输入给模型的视频

type string required

输入内容的类型

值: video_url

video_url object required

视频对象

url string required

视频 URL 或资产 ID

role string conditional required

视频的位置或用途

可选值: reference_video

音频信息 object

输入给模型的音频. 使用音频输入时, 至少需要同时包含 1 个参考视频或图像

type string required

输入内容的类型

值: audio_url

audio_url object required

音频对象

role string conditional required

音频的位置或用途

可选值: reference_audio


generate_audio boolean

控制生成的视频是否包含与画面同步的声音

true:视频输出包含同步音频. 模型将根据文本 prompt 和视觉内容自动生成匹配的人声、音效和背景音乐. 建议将对话内容放在双引号内以优化音频生成效果. 例如:男人叫住了女人说:“记住, 你以后不能用手指月亮.”

注意:所有包含音频的生成视频均为单声道, 与输入音频的声道数无关

false:视频输出为无声视频

默认值: true


resolution string

视频分辨率

默认值: 720p

可选值: 480p, 720p


ratio string

生成视频的宽高比

ratio 设置为 adaptive 时, 模型将根据生成场景自动适配宽高比:
文本转视频:根据输入 prompt 智能选择最合适的宽高比
首帧/首尾帧转视频:根据上传首帧图像的比例自动选择最接近的宽高比
多模态参考视频生成:根据用户 prompt 的意图判断. 若为首帧视频生成/视频编辑/视频延伸, 则根据对应图像/视频选择最接近的宽高比;否则根据第一个上传的媒体文件选择最接近的宽高比(优先级:视频 > 图像)

默认值: adaptive

可选值: 16:9, 4:3, 1:1, 3:4, 9:16, 21:9, adaptive

不同宽高比对应的宽高像素值:

分辨率宽高比尺寸(宽 × 高)
480p16:9864×496
480p4:3752×560
480p1:1640×640
480p3:4560×752
480p9:16496×864
480p21:9992×432
720p16:91280×720
720p4:31112×834
720p1:1960×960
720p3:4834×1112
720p9:16720×1280
720p21:91470×630

duration integer

生成视频的时长, 单位为秒, 仅支持整数

两种配置方式:
指定具体时长:有效范围内的任意整数
智能指定:设置为 -1, 由模型在有效范围内自主选择合适的视频时长(整数秒). 实际生成视频的时长可通过任务查询接口返回的 duration 参数获取

注意:视频时长与计费相关, 请谨慎设置

默认值: 5

范围: 4 - 15, 或 -1(自动)


轮询

由于结果生成需要时间,您需要在创建任务后轮询任务状态

初始响应只返回任务 ID 和初始状态等信息,最终生成结果需通过使用该任务 ID 轮询任务状态接口获取

轮询请求与响应示例见右侧

响应格式

error object

错误信息, 仅在状态为 failed 时存在

code string

错误码

message string

详细错误信息


output array

生成结果, 仅在状态为 completed 时存在

content array

生成的资源内容列表

type string

资源类型

值: image|video

url string

处理后的资源 URL

jobId string

远端任务 ID


usage object

使用统计, 仅在状态为 completed 时存在

cost string

总费用(美元)

discount number

折扣金额


metadata object

元数据信息