⌘K

Wan 2.6 - Reference to Video

wan26_r2v

Wan 2.6 - Reference to Video 基于参考图像生成视频, 具有增强的风格一致性和质量控制.

认证

authorization string 必填

所有 API 都需要通过 Bearer Token 进行认证.

获取 API Key:

访问 API Key 管理页面 获取您的 API Key

使用方法:

添加到请求头:

Authorization: Bearer YOUR_API_KEY

参数

model string 必填

请求使用的模型 ID

: wan26_r2v


input object 必填

生成请求的输入参数

prompt string 必填

描述视频内容的文本提示词. 支持通过引用 “character1”、“character2” 等来实现多角色叙事. 这些占位符将按 reference_urls 数组的顺序与参考素材匹配.

支持中英文. 每个中文字符/字母计为一个字符, 超出部分将被自动截断.

最大长度:1500 个字符

多角色示例:
“character1 is talking with character2 in the garden”
character1 → reference_urls[0]
character2 → reference_urls[1]

示例:character1 walking in the park with a happy expression

reference_urls array 必填

用于保持角色外观和风格一致性的参考素材 URL 数组. 支持图像和视频.

参考素材要求:
总数量:1-5 个(可混合图像和视频)
最大图像数:5
最大视频数:3
顺序重要:reference_urls[0] 对应提示词中的 “character1”, reference_urls[1] 对应 “character2”, 以此类推.

图像要求:
支持格式:JPEG, JPG, PNG(无透明度), BMP, WEBP
图像分辨率:宽高范围 [360, 2000] 像素
文件大小:最大 10MB

视频要求:
支持格式:MP4, MOV
时长:3 - 30
文件大小:最大 100MB

输入方式:
方式 1:公开可访问的 URL
支持 HTTP 或 HTTPS 协议
示例:https://example.com/character.jpg

方式 2:Base64 编码字符串
格式:data:{MIME_type};base64,{base64_data}
示例:data:image/png;base64,iVBORw0KGgoAAAANS...

示例:["https://example.com/char1.jpg", "https://example.com/char2.jpg"]

audio_url string

音频文件的 URL. 模型将使用此音频生成视频.

支持 HTTP 或 HTTPS 协议. 本地文件可通过上传文件获取临时 URL.

音频限制:
支持格式:wav, mp3
时长:3 - 30
文件大小:最大 15MB

超出处理:
如果音频长度超过 duration 值(510 秒), 将自动提取前 510 秒, 其余部分被丢弃.
如果音频长度小于视频时长, 超出音频长度的部分将静音. 例如, 如果音频为 3 秒, 视频时长为 5 秒, 输出视频前 3 秒有声音, 后 2 秒静音.

示例:https://help-static-aliyun-doc.aliyuncs.com/file-manage-files/xxx.mp3


parameters object

生成参数

size string

重要: size 参数直接影响计费成本. 成本 = 单价(基于分辨率) × 时长(秒). 对于同一模型:1080P > 720P > 480P. 请在调用前确认模型定价.

size 必须设置为具体值(如 1280*720), 不能是 1:1480P.

指定生成视频的分辨率, 格式为 width*height.

720P 等级:
1280*720:16:9
720*1280:9:16
960*960:1:1
1088*832:4:3
832*1088:3:4

1080P 等级:
1920*1080:16:9
1080*1920:9:16
1440*1440:1:1
1632*1248:4:3
1248*1632:3:4

默认值: 1920*1080

duration integer

重要: duration 参数直接影响计费成本. 成本 = 单价(基于分辨率) × 时长(秒). 请在调用前确认模型定价.

生成视频的时长, 单位为秒(仅限整数).

可选值: 5, 10, 15

范围: 2 - 15

默认值: 5

prompt_extend boolean

是否启用智能提示词改写. 启用时, 使用大模型智能改写输入提示词. 这对较短的提示词可显著提升生成效果, 但会增加处理时间.

可选值: true, false

默认值: true

watermark boolean

是否添加水印标识. 水印位于视频右下角, 固定文字为 “AI Generated”.

可选值: false, true

默认值: false

audio boolean

是否生成带音频的视频.

可选值: true, false

默认值: true

shot_type string

指定生成视频的镜头类型, 即视频是由一个连续镜头还是多个切换镜头组成.

生效条件: 仅在 prompt_extend: true 时生效.

参数优先级: shot_type > prompt. 例如, 如果 shot_type 设置为 single, 即使提示词包含”生成多镜头视频”, 模型仍将输出单镜头视频.

注意: 当需要严格控制视频叙事结构时(例如, 产品演示使用单镜头, 短故事使用多镜头), 可以指定此参数.

可选值: single, multi

默认值: single

seed integer

随机种子. 如果不指定, 系统将自动生成随机种子. 为提高生成结果的可重复性, 建议固定种子值.

注意: 由于模型生成的概率性质, 即使使用相同的种子, 也无法保证每次生成结果完全一致.

示例:12345

范围: 0 - 2147483647


轮询

由于视频生成需要时间, 创建任务后需要轮询任务状态.

初始响应返回任务 ID 和初始状态. 实际生成结果必须通过轮询任务状态端点获取.


响应格式

error object

错误信息. 仅在状态为 failed 时出现.

code string

错误码

message string

详细错误信息


output array

生成结果. 仅在状态为 completed 时出现.

content array

生成的视频内容列表

type string

资源类型

: video

url string

处理后的视频 URL(CDN 地址)

jobId string

远程任务 ID


usage object

使用统计. 仅在状态为 completed 时出现.

cost string

总费用(美元)

discount number

折扣金额


metadata object

元数据信息.


错误码

错误码描述
001028001reference_urls 必须是包含 1-5 个项目的数组
001028002reference_urls 最多包含 5 张图像
001028003reference_urls 最多包含 3 个视频
001028004无效的参考 URL 格式
001028095内部生成错误
001028096结果解析错误
001028097HTTP 错误响应
001028098状态检查错误
001028099任务创建错误