⌘K

Wan 2.6 - Image to Video

wan26_i2v

阿里巴巴 Wanx 26 图生视频模型, 通过先进的 AI 能力将静态图像转换为动态视频内容.

认证

authorization string 必填

所有 API 都需要通过 Bearer Token 进行认证.

获取 API Key:

访问 API Key 管理页面 获取您的 API Key

使用方法:

添加到请求头:

Authorization: Bearer YOUR_API_KEY

参数

model string 必填

请求使用的模型 ID

: wan26_i2v


input object 必填

生成请求的输入参数

prompt string

文本提示词, 用于描述生成视频中的预期元素和视觉特征. 支持中英文. 每个中文字符/字母计为一个字符, 超出部分将被自动截断.

最大长度:wan2.6-i2v 为 1500 个字符

注意: 当使用视频特效参数时(即 template 不为空), prompt 参数无效, 无需填写.

示例:A kitten running on the grass

img_url string 必填

首帧图像的 URL 或 Base64 编码数据.

图像限制:
支持格式:JPEG, JPG, PNG(无透明度), BMP, WEBP
图像分辨率:宽高范围 [360, 2000] 像素
文件大小:最大 10MB

输入方式:
方式 1:公开可访问的 URL
支持 HTTP 或 HTTPS 协议
示例:https://cdn.translate.alibaba.com/r/wanx-demo-1.png

方式 2:Base64 编码字符串
格式:data:{MIME_type};base64,{base64_data}
示例:data:image/png;base64,GDU7MtCZzEbTbmRZ...

audio_url string

音频文件的 URL. 模型将使用此音频生成视频.

支持 HTTP 或 HTTPS 协议. 本地文件可通过上传文件获取临时 URL.

音频限制:
支持格式:wav, mp3
时长:3 - 30
文件大小:最大 15MB

超出处理:
如果音频长度超过 duration 值(510 秒), 将自动提取前 510 秒, 其余部分被丢弃.
如果音频长度小于视频时长, 超出音频长度的部分将静音. 例如, 如果音频为 3 秒, 视频时长为 5 秒, 输出视频前 3 秒有声音, 后 2 秒静音.

示例:https://help-static-aliyun-doc.aliyuncs.com/file-manage-files/zh-CN/20250925/ozwpvi/rap.mp3


parameters object

生成参数

resolution string

重要: resolution 参数直接影响计费成本. 对于同一模型:1080P > 720P > 480P. 请在调用前确认模型定价.

指定视频分辨率级别以调整视频清晰度(总像素). 模型根据所选分辨率级别自动缩放到相似的总像素. 视频宽高比将尝试匹配输入图像 img_url 的宽高比.

可选值: 720P, 1080P

默认值: 1080P

duration integer

重要: duration 参数直接影响计费成本. 按秒计费, 时长越长成本越高. 请在调用前确认模型定价.

生成视频的时长, 单位为秒(仅限整数).

可选值: 5, 10, 15

范围: 2 - 15

默认值: 5

prompt_extend boolean

是否启用智能提示词改写.

启用时, 使用大模型智能改写输入提示词. 这对较短的提示词可显著提升生成效果, 但会增加处理时间.

可选值: true, false

默认值: true

watermark boolean

是否添加水印标识. 水印位于视频右下角, 固定文字为 “AI Generated”.

可选值: true, false

默认值: false

audio boolean

是否生成带音频的视频.

参数优先级: audio > audio_url. 当 audio=false 时, 即使提供了 audio_url, 输出仍为静音视频, 计费按静音视频计算.

可选值: true, false

默认值: true

shot_type string

指定生成视频的镜头类型, 即视频是由一个连续镜头还是多个切换镜头组成.

生效条件: 仅在 prompt_extend: true 时生效.

参数优先级: shot_type > prompt. 例如, 如果 shot_type 设置为 single, 即使提示词包含”生成多镜头视频”, 模型仍将输出单镜头视频.

注意: 当需要严格控制视频叙事结构时(例如, 产品演示使用单镜头, 短故事使用多镜头), 可以指定此参数.

可选值: single, multi

默认值: single

negative_prompt string

负面提示词, 描述您不希望在视频中出现的内容

seed integer

随机种子. 如果不指定, 系统将自动生成随机种子. 为提高生成结果的可重复性, 建议固定种子值.

注意: 由于模型生成的概率性质, 即使使用相同的种子, 也无法保证每次生成结果完全一致.

示例:12345

范围: 0 - 2147483647


轮询

由于视频生成需要时间, 创建任务后需要轮询任务状态.

初始响应返回任务 ID 和初始状态. 实际生成结果必须通过轮询任务状态端点获取.


响应格式

error object

错误信息. 仅在状态为 failed 时出现.

code string

错误码

message string

详细错误信息


output array

生成结果. 仅在状态为 completed 时出现.

status string

任务状态

可选值: in_queue, processing, done, failed

content array

生成的视频内容列表

type string

资源类型

: video

url string

处理后的视频 URL(CDN 地址)

jobId string

远程任务 ID


usage object

使用统计. 仅在状态为 completed 时出现.

cost string

总费用(美元)

discount number

折扣金额


metadata object

元数据信息.


错误码

错误码描述
001027095内部生成错误
001027096结果解析错误
001027097HTTP 错误响应
001027098状态检查错误
001027099任务创建错误