CreateIndex_大模型服务平台百炼_API文档

插件下载了解更多
VS Code 插件
安装插件之前,确保已安装 VS Code安装插件之前,确保已安装 VS Code
Alibaba Cloud Developer Toolkit is a collection of extensions that can help access Alibaba Cloud services in Visual Studio Code.
JetBrains 插件
安装插件之前,确保已安装 JetBrains IDE安装插件之前,确保已安装 JetBrains IDE
The Alibaba Cloud Developer Toolkit for JetBrains makes it easier to access Alibaba Cloud services.

接口说明

  • RAM 用户(子账号)需要首先获取阿里云百炼的数据权限(需要AliyunBailianDataFullAccess,已包括 sfm:CreateIndex 权限点),然后才能调用本接口,详见为 RAM 用户授予数据权限。阿里云账号(主账号)可直接调用无须授权。建议您通过最新版阿里云百炼 SDK来调用本接口。
  • 您必须预先将您的原始文档上传至阿里云百炼的应用数据并获得相应的FileId,以作为创建知识库时的初始知识来源。可以调用 AddFile 接口上传。具体操作请参考 通过 API 上传文件
  • 本接口仅初始化知识库创建作业,接下来还需要再调用 SubmitIndexJob 接口以完成创建(否则,您将得到一个空的知识库)。
  • 本接口不具备幂等性。

限流说明: 本接口频繁调用会被限流,频率请勿超过 10 次/秒。如遇限流,请稍后重试。

流控信息

当前云产品API请求速率暂未透出。

授权信息

如下是此API对应的授权信息,用于RAM权限策略语句的Action元素中,为RAM用户或RAM角色授予调用此API的权限。请通过 RAM 访问控制设置,使用方法可参考访问控制帮助文档

具体说明如下:展开详情

操作访问级别资源类型条件关键字关联操作
sfm:CreateIndex
Create
全部资源
*

请求语法

POST /{WorkspaceId}/index/create HTTP/1.1

路径参数

字段名称字段详情
WorkspaceIdstring

业务空间 ID,即知识库将在该业务空间中创建。获取方式请参见如何使用业务空间

示例值:llm-3z7uw7fwz0vexxxx

请求参数

字段名称字段详情
Namestring

知识库的名称。长度为 1~20 个字符,支持 Unicode 中 letter 分类下的字符(其中包括英文、中文和数字等)。可以包含半角冒号(:)、下划线(_)、半角句号(.)或者短划线(-)。

示例值:企业帮助文档库
StructureTypestring

知识库的数据类型。更多信息,请参见知识库。取值范围:展开详情

示例值:unstructured枚举值:unstructured
EmbeddingModelNamestring

Embedding 模型名称。Embedding 模型用于将原始输入 prompt 和知识文本转化为数值化向量,以便对二者进行相似度比较。默认的 DashScope text-embedding-v2 模型(暂不支持更改)除了支持中英文双语外,还支持多种语言,并对向量结果进行归一化处理。更多信息,请参见知识库。取值范围:展开详情

示例值:text-embedding-v2枚举值:text-embedding-v2
RerankModelNamestring

Rank 模型名称。Rank 模型是一种位于知识库外部的评分系统,它会计算用户问题与知识库中每个文本切片的相似度分数并按此降序排列,并返回分数最高的前 K 个文本切片。更多信息,请参见知识库。取值范围:展开详情

示例值:gte-rerank-hybrid枚举值:gte-rerank-hybridgte-rerank
RerankMinScorenumber<double>

相似度阈值。该阈值表示允许召回的文本切片的最低相似度分数,用于筛选 Rank 模型返回的文本切片,即只有分数超过此数值的文本切片才会被召回。更多信息,请参见知识库。取值范围[0.01-1.00]。展开详情

示例值:0.20
ChunkSizeinteger<int32>

分段预估长度。它表示文本切片的字符数上限。超过该长度时,文本将被强制切割。更多信息,请参见知识库。取值范围[1-2048]。展开详情

示例值:128
OverlapSizeinteger<int32>

分段重叠长度。它表示当前文本切片与上一个文本切片的重叠字符数。更多信息,请参见知识库。取值范围[0-1024]。展开详情

示例值:16
Separatorstring

分句标识符。文档将按此标识符分割成小的文本切片。取值范围(支持同时传入多个分句标识符,多个分隔符之间无需使用特殊符号进行分割,直接连续书写即可,如!,\\n):展开详情

示例值:,
SourceTypestring

应用数据的数据类型。展开详情

示例值:DATA_CENTER_FILE枚举值:DATA_CENTER_CATEGORYDATA_CENTER_FILE
DocumentIdsarray<string>

导入知识库的文档 ID 列表。

CategoryIdsarray<string>

导入知识库的类目 ID 列表。

DataSourceobject
说明 该参数暂不开放,请勿传入。
SinkTypestring

知识库的向量存储类型。更多信息,请参见知识库。取值范围:展开详情

示例值:BUILT_IN枚举值:
SinkInstanceIdstring

知识库的向量存储的实例 ID(仅在向量存储类型是 ADB 时传入)。您可以前往AnalyticDB for PostgreSQL 数据实例列表页面获取此 ID。

示例值:gp-bp32109xxxx
SinkRegionstring

知识库的向量存储的实例地域(仅在向量存储类型是 ADB 时传入)。您可以调用 DescribeRegions 查看最新的阿里云地域列表。

示例值:cn-hangzhou
Columnsarray<object>
说明 该参数暂不开放,请勿传入。
Descriptionstring

知识库描述。长度为 0~1000 个英文或中文字符。展开详情

示例值:企业帮助文档库包括了公司制度、产品清单等重要资料。
metaExtractColumnsarray<object>

元数据。元数据是与非结构化文档内容相关的一系列附加属性,这些属性以 key-value 键值对的形式集成到文本切片中。更多信息,请参见知识库

enableHeadersboolean

非结构化知识库中 Excel 文档表头是否支持拼装。开启后,知识库会将所有 xlsx、xls 格式文档的首行数据视为表头,并自动拼接到每个文本切片中(数据行),避免大模型误将表头视为普通数据行来处理。展开详情

示例值:false
chunkModestring

启用自定义切分,并指定切分策略。更多信息,请参见知识库。可能取值(不支持同时传入多个值):展开详情

示例值:page枚举值:regexlengthh1h2page

返回参数

字段名称字段详情
Codestring

错误状态码。

示例值:Index.Forbidden
Dataobject

接口业务数据字段。

Messagestring

错误信息。

示例值:Invalid input, variable name is missing
RequestIdstring

请求 ID。

示例值:17204B98-xxxx-4F9A--2446A84821CA
Statusstring

接口返回的状态码。

示例值:200
Successboolean

接口调用是否成功,可能值为:展开详情

示例值:true

返回示例

变更历史

变更时间变更内容概要操作
2025-04-21
变更请求参数ChunkSize
新增请求参数chunkMode
2025-01-03
新增请求参数enableHeaders
2024-11-07
新增请求参数metaExtractColumns
2024-09-17
新增请求参数DataSource

相关示例