Kirin Lipsync

接口提示

session_id 和 face_id 参数由 kirin_identify_face 接口返回

您必须先调用人脸识别接口获取这些值, 然后才能使用此对口型接口

认证

authorization `string` 必填

所有 API 均使用 Bearer Token 鉴权

获取 API Key：

访问 API Key 管理页面获取 API Key

用法：

将以下 Header 添加到请求中：

Authorization: Bearer YOUR_API_KEY

参数

model `string` 必填

请求使用的模型 ID

可选值：kirin_lipsync

session_id `string` 必填

会话 ID, 基于对口型人脸识别接口生成

face_choose `array` 必填

指定人脸对口型, 包括人脸 ID、口型参考等内容, 暂时仅支持指定单人对口型

face_id string 必填

人脸 ID, 由人脸识别接口返回

audio_id string

通过试听接口生成的音频的 ID

仅支持使用 30 天内生成的、时长不短于 2 秒且不超过 60 秒的音频

audio_id、sound_file 参数二选一, 不能同时为空, 也不能同时有值

sound_file string

音频文件

支持传入音频 Base64 编码或音频 URL（确保可访问）

音频文件支持 .mp3, .wav, .m4a, 文件大小不超过 5MB, 格式不匹配或文件过大会返回错误码等信息

仅支持使用时长不短于 2 秒且不长于 60 秒的音频

audio_id、sound_file 参数二选一, 不能同时为空, 也不能同时有值

系统会校验音频内容, 如有问题会返回错误码等信息

sound_start_time long 必填

音频裁剪起点时间

以原始音频开始时间为准, 开始时间为 0 分 0 秒, 单位 ms

起点之前的音频会被裁剪, 裁剪后音频不得短于 2 秒

sound_end_time long 必填

音频裁剪终点时间

以原始音频开始时间为准, 开始时间为 0 分 0 秒, 单位 ms

终点之后的音频会被裁剪, 裁剪后音频不得短于 2 秒

终点时间不得晚于原始音频总时长

sound_insert_time long 必填

裁剪后音频插入时间

以视频开始时间为准, 视频开始时间为 0 分 0 秒, 单位 ms

插入音频的时间范围与该人脸可对口型时间区间至少重合 2 秒时长

插入音频的开始时间不得早于视频开始时间, 插入音频的结束时间不得晚于视频结束时间

sound_volume float

音频音量大小；值越大, 音量越大

范围：0 - 2

默认值：1

original_audio_volume float

原始视频音量大小；值越大, 音量越大

原视频无声时, 当前参数无效果

范围：0 - 2

external_task_id `string`

自定义任务 ID

用户自定义任务 ID, 传入不会覆盖系统生成的任务 ID, 但支持通过该 ID 进行任务查询

请注意, 单用户下需要保证唯一性

callback_url `string`

本次任务结果回调通知地址, 如果配置, 服务端会在任务状态发生变更时主动通知

轮询

由于对口型视频生成需要时间, 您需要在创建任务后轮询任务状态

初始响应返回任务 ID 和初始状态. 实际的生成结果必须通过轮询任务状态端点来获取

响应格式

error `object`

错误信息.仅在状态为 failed 时出现.

code string

错误码

error_message string

详细错误信息

output `array`

生成结果.仅在状态为 completed 时出现.

content array

生成内容列表

type string

资源类型，如 video, image

url string

生成内容的 URL

duration number

视频时长

jobId string

远程任务 ID

usage `object`

使用统计.仅在状态为 completed 时出现.

cost string

总费用 (美元)

discount number

折扣金额

metadata `object`

元数据信息

错误码

错误码	描述
014002095	内部生成错误
014002096	结果解析异常
014002097	HTTP 错误响应
014002099	同步生成异常

curl --location 'https://cloud.vtrix.ai/model/v1/generation' \ --header 'Content-Type: application/json' \ --header 'Authorization: Bearer YOUR_API_KEY' \ --data '{ "model": "kirin_lipsync", "input": [ { "params": { "session_id": "949665381905347148", "face_choose": [ { "face_id": "0", "sound_file": "https://example.com/sample/test-audio.wav", "sound_start_time": 0, "sound_end_time": 5000, "sound_insert_time": 0, "sound_volume": 1, "original_audio_volume": 0.5 } ] } } ] }'

{ "id": "d5u5obte8783ap44qtj0", "created_at": 1769757744021, "status": "completed", "model": "kirin_lipsync", "output": [ { "content": [ { "type": "video", "url": "https://example.com/generated-video.mp4", "duration": 5, "jobId": "remote_job_id_12345" } ] } ], "usage": { "cost": "0.000500", "discount": 0, "input_tokens": null, "output_tokens": null, "quantity": 1, "time_per_unit": 0, "total_tokens": null, "unit_price": "0.000500", "user_discount": 1 }, "metadata": { "completed_at": 120.5, "in_queue_at": 0, "upload_at": 1.2, "usage": { "input_tokens": 20, "input_tokens_details": { "text_tokens": 20 }, "output_tokens": 0, "total_tokens": 20 } } }

接口提示

认证

authorization `string` 必填

参数

model `string` 必填

session_id `string` 必填

face_choose `array` 必填

face_id `string` 必填

audio_id `string`

sound_file `string`

sound_start_time `long` 必填

sound_end_time `long` 必填

sound_insert_time `long` 必填

sound_volume `float`

original_audio_volume `float`

external_task_id `string`

callback_url `string`

轮询

响应格式

error `object`

code `string`

error_message `string`

output `array`

content `array`

type `string`

url `string`

duration `number`

jobId `string`

usage `object`

cost `string`

discount `number`

metadata `object`

错误码

接口提示

认证

authorization string 必填

参数

model string 必填

session_id string 必填

face_choose array 必填

face_id string 必填

audio_id string

sound_file string

sound_start_time long 必填

sound_end_time long 必填

sound_insert_time long 必填

sound_volume float

original_audio_volume float

external_task_id string

callback_url string

轮询

响应格式

error object

code string

error_message string

output array

content array

type string

url string

duration number

jobId string

usage object

cost string

discount number

metadata object

错误码

authorization `string` 必填

model `string` 必填

session_id `string` 必填

face_choose `array` 必填

face_id `string` 必填

audio_id `string`

sound_file `string`

sound_start_time `long` 必填

sound_end_time `long` 必填

sound_insert_time `long` 必填

sound_volume `float`

original_audio_volume `float`

external_task_id `string`

callback_url `string`

error `object`

code `string`

error_message `string`

output `array`

content `array`

type `string`

url `string`

duration `number`

jobId `string`

usage `object`

cost `string`

discount `number`

metadata `object`