接口说明
百炼轻应用-视频理解-提交异步任务:区别于在线任务接口,可以提交视频理解异步任务,不用在线等待,后台会排队并行处理。结果可以通过“获取异步任务状态和结果”接口查询。欢迎前往视频理解控制台体验。通过 SDK 方式调用 API 可参考控制台“API”下的示例。
流控信息
请求语法
POST /{workspaceId}/quanmiao/lightapp/videoAnalysis/submitVideoAnalysisTask HTTP/1.1
路径参数
字段名称 | 字段详情 |
---|---|
workspaceIdstring | 百炼业务空间唯一标识:获取 workspaceId 示例值:llm-xxx |
请求参数
字段名称 | 字段详情 |
---|---|
videoUrlstring | 视频 url 示例值:http://xxxx.mp4 |
videoModelIdstring | 视频 vl 任务模型唯一标识,支持的模型:展开详情 示例值:qwen-vl-max-latest |
videoModelCustomPromptTemplatestring | 视频 vl 任务 prompt 模版:必须包含{videoAsrText}变量,{videoAsrText}是视频的 ASR 文本信息,不传默认取页面看到的默认值。 示例值:# 角色
你是一名视频分析师,擅长对各种视频片段进行理解。
# 任务描述
给你一个视频片段的多张关键帧图片,请你完成以下任务。
- 输出每张图片的画面信息,包括人物、物体、动作、文字、字幕、镜头语言等。
- 把每张图片的信息串联起来,生成视频的详细概述,还原该片段的剧情。
# 限制
- 分析范围严格限定于提供的视频子片段,不涉及视频之外的任何推测或背景信息。
- 总结时需严格依据视频内容,不可添加个人臆测或创意性内容。
- 保持对所有视频元素(尤其是文字和字幕)的高保真还原,避免信息遗漏或误解。
# 输入数据
## 视频片段ASR信息 (如果输入为空则忽略ASR信息)
{videoAsrText}
# 输出格式
直接按照任务目标里即可,先输出每张图片的描述,再串联起来输出整个视频片段的剧情。 |
modelIdstring | 视频总结(文本加工)依赖的大模型唯一标识,展开详情 示例值:qwen-max |
modelCustomPromptTemplateIdstring | 视频总结依赖的大模型 prompt 模版唯一标识:展开详情 示例值:PlotDetail |
modelCustomPromptTemplatestring | 视频总结依赖的大模型 prompt 模版:必须同时包含{videoAsrText} 和 {videoAnalysisText}变量,{videoAsrText}是视频的 ASR 文本信息,{videoAnalysisText}是视频的各个子镜头的 VL 视觉信息,不传默认取页面看到的默认值。 示例值:# 角色
你是一个专业的视频标注专员,擅长结合视频镜头信息来分析处理各种视频任务。
# 任务目标
请你结合输入数据串联、还原出整个视频的详细剧情。
# 限制
1.如出现语法上错误,或逻辑不通,请直接修改
2.在视频分镜中,如果包含台词,可能会出现说话者与其所说内容不匹配的情况。因此,必须根据剧情的进展,准确判断每段台词的真实说话者
3.如果视频分镜中无台词,请根据视频音频文字为其匹配台词
4.修改后的故事请适当保留视频分镜中对人物、场景的描写
5.帮忙润色一下故事,使其更具逻辑性
6.结合视频分镜中的人物外观特点,如果有外观相近的人物是同一个角色。因此,需要将不同分镜中的人物角色统一。
# 输入数据
## 资料一:视频分镜信息(视频各镜头的视觉描述信息)
{videoAnalysisText}
## 资料二:视频ASR转录信息(未标注出说话者,可能有错误和遗漏,如果没有输入ASR,则忽略此信息)
{videoAsrText}
# 输出格式
直接输出视频剧情,不要输出其他信息。 |
generateOptionsarray<string> | 视频理解生成任务选项。 |
videoExtraInfostring | 自定义扩展文本素材:应用到生成中,需要手动调整 prompt 模版,增加{videoExtraInfo}变量 示例值:视频描述了:xx |
snapshotIntervalnumber<double> | 抽帧间隔:X 秒一帧,取值范围[1, 10],间隔越大模型能提取到的信息越少,耗时越长,成本越高,默认已是最佳实践,一般无需修改,如果要修改,请根据视频时长来定,建议[1~3]。展开详情 示例值:2 |
languagestring | 语言,可传参数展开详情 示例值:chinese |
frameSampleMethodobject | 抽帧方式 |
videoRolesarray<object> | 识别视频中的人物身份列表 |
textProcessTasksarray<object> | 视频总结(文本加工)任务列表:最多支持 3 个 |
faceIdentitySimilarityMinScorenumber<float> | 人物识别相似度阈值:0~1 示例值:0.7 |
videoShotFaceIdentityCountinteger<int32> | 人物匹配时,单镜头(分镜),参与匹配的抽帧(图片)数量:[1~5] 示例值:2 |
返回参数
字段名称 | 字段详情 |
---|---|
requestIdstring | 请求唯一标识 示例值:085BE2D2-BB7E-59A6-B688-F2CB32124E7F |
successboolean | 是否成功:true 成功,false 失败 示例值:True |
codestring | 状态码 示例值:xx |
messagestring | 错误说明 示例值:success |
httpStatusCodeinteger<int32> | http 状态码 示例值:200 |
dataobject | 结果 |
返回示例
错误码
变更历史
变更时间 | 变更内容概要 | 操作 | |
---|---|---|---|
2025-03-13 | |||
2025-01-14 |