CreateIndex
创建一个非结构化知识库,并将一个或多个已解析的文档导入该知识库。不支持通过API创建结构化知识库,请通过控制台创建
服务地址:
华东2 金融云
输入参数
只看必填
WorkspaceId业务空间 ID
Name知识库的名称
StructureType知识库的数据类型
EmbeddingModelNameEmbedding模型名称
RerankModelNameRank模型名称
RerankMinScore相似度阈值
ChunkSize分段预估长度
OverlapSize分段重叠长度
Separator分句标识符
SourceType应用数据的数据类型
DocumentIds导入知识库的文档 ID 列表
0文档 ID
CategoryIds导入知识库的类目 ID 列表
0类目 ID
DataSource该参数暂不开放
CredentialId该参数暂不开放
CredentialKey该参数暂不开放
Database该参数暂不开放
Endpoint该参数暂不开放
请选择布尔值
Region该参数暂不开放
SubPath该参数暂不开放
SubType该参数暂不开放
Table该参数暂不开放
Type该参数暂不开放
SinkType知识库的向量存储类型
SinkInstanceId知识库的向量存储的实例 ID(仅在向量...
SinkRegion知识库的向量存储的实例地域(仅在向量存...
Columns该参数暂不开放
0
Column该参数暂不开放
IsRecall该参数暂不开放
请选择布尔值
IsSearch该参数暂不开放
请选择布尔值
Name该参数暂不开放
Type该参数暂不开放
Description知识库描述
metaExtractColumns元数据
0
Key元数据字段
Value元数据字段的值
Type元数据字段的取值方法
Desc元数据字段的中文描述
EnableLlm开启后表示该元数据字段和值将和文本切片...
请选择布尔值
EnableSearch开启后表示该元数据字段和值将和文本切片...
请选择布尔值
enableHeaders非结构化知识库中Excel文档表头是否...
请选择布尔值
chunkMode启用自定义切分
插件下载了解更多
VS Code 插件
安装插件之前,确保已安装 VS Code安装插件之前,确保已安装 VS Code
Alibaba Cloud Developer Toolkit is a collection of extensions that can help access Alibaba Cloud services in Visual Studio Code.
JetBrains 插件
安装插件之前,确保已安装 JetBrains IDE安装插件之前,确保已安装 JetBrains IDE
The Alibaba Cloud Developer Toolkit for JetBrains makes it easier to access Alibaba Cloud services.

接口说明

  • RAM 用户(子账号)需要首先获取阿里云百炼的数据权限(需要AliyunBailianDataFullAccess,已包括 sfm:CreateIndex 权限点),然后才能调用本接口,详见为 RAM 用户授予数据权限。阿里云账号(主账号)可直接调用无须授权。建议您通过最新版阿里云百炼 SDK来调用本接口。
  • 您必须预先将您的原始文档上传至阿里云百炼的应用数据并获得相应的FileId,以作为创建知识库时的初始知识来源。可以调用 AddFile 接口上传。具体操作请参考 通过 API 上传文件
  • 本接口仅初始化知识库创建作业,接下来还需要再调用 SubmitIndexJob 接口以完成创建(否则,您将得到一个空的知识库)。
  • 本接口不具备幂等性。

限流说明: 本接口频繁调用会被限流,频率请勿超过 10 次/秒。如遇限流,请稍后重试。

请求语法

POST /{WorkspaceId}/index/create HTTP/1.1

路径参数

字段名称字段详情
WorkspaceIdstring

业务空间 ID,即知识库将在该业务空间中创建。获取方式请参见如何使用业务空间

示例值:llm-3z7uw7fwz0vexxxx

请求参数

字段名称字段详情
Namestring

知识库的名称。长度为 1~20 个字符,支持 Unicode 中 letter 分类下的字符(其中包括英文、中文和数字等)。可以包含半角冒号(:)、下划线(_)、半角句号(.)或者短划线(-)。

示例值:企业帮助文档库
StructureTypestring

知识库的数据类型。更多信息,请参见知识库。取值范围:展开详情

示例值:unstructured枚举值:unstructured
EmbeddingModelNamestring

Embedding 模型名称。Embedding 模型用于将原始输入 prompt 和知识文本转化为数值化向量,以便对二者进行相似度比较。默认的 DashScope text-embedding-v2 模型(暂不支持更改)除了支持中英文双语外,还支持多种语言,并对向量结果进行归一化处理。更多信息,请参见知识库。取值范围:展开详情

示例值:text-embedding-v2枚举值:text-embedding-v2
RerankModelNamestring

Rank 模型名称。Rank 模型是一种位于知识库外部的评分系统,它会计算用户问题与知识库中每个文本切片的相似度分数并按此降序排列,并返回分数最高的前 K 个文本切片。更多信息,请参见知识库。取值范围:展开详情

示例值:gte-rerank-hybrid枚举值:gte-rerank-hybridgte-rerank
RerankMinScorenumber<double>

相似度阈值。该阈值表示允许召回的文本切片的最低相似度分数,用于筛选 Rank 模型返回的文本切片,即只有分数超过此数值的文本切片才会被召回。更多信息,请参见知识库。取值范围[0.01-1.00]。展开详情

示例值:0.20
ChunkSizeinteger<int32>

分段预估长度。它表示文本切片的字符数上限。超过该长度时,文本将被强制切割。更多信息,请参见知识库。取值范围[1-2048]。展开详情

示例值:128
OverlapSizeinteger<int32>

分段重叠长度。它表示当前文本切片与上一个文本切片的重叠字符数。更多信息,请参见知识库。取值范围[0-1024]。展开详情

示例值:16
Separatorstring

分句标识符。文档将按此标识符分割成小的文本切片。取值范围(支持同时传入多个分句标识符,多个分隔符之间无需使用特殊符号进行分割,直接连续书写即可,如!,\\n):展开详情

示例值:,
SourceTypestring

应用数据的数据类型。展开详情

示例值:DATA_CENTER_FILE枚举值:DATA_CENTER_CATEGORYDATA_CENTER_FILE
DocumentIdsarray<string>

导入知识库的文档 ID 列表。

CategoryIdsarray<string>

导入知识库的类目 ID 列表。

DataSourceobject
说明 该参数暂不开放,请勿传入。展开详情
SinkTypestring

知识库的向量存储类型。更多信息,请参见知识库。取值范围:展开详情

示例值:BUILT_IN枚举值:
SinkInstanceIdstring

知识库的向量存储的实例 ID(仅在向量存储类型是 ADB 时传入)。您可以前往AnalyticDB for PostgreSQL 数据实例列表页面获取此 ID。

示例值:gp-bp32109xxxx
SinkRegionstring

知识库的向量存储的实例地域(仅在向量存储类型是 ADB 时传入)。您可以调用 DescribeRegions 查看最新的阿里云地域列表。

示例值:cn-hangzhou
Columnsarray<object>
说明 该参数暂不开放,请勿传入。展开详情
Descriptionstring

知识库描述。长度为 0~1000 个英文或中文字符。展开详情

示例值:企业帮助文档库包括了公司制度、产品清单等重要资料。
metaExtractColumnsarray<object>

元数据。元数据是与非结构化文档内容相关的一系列附加属性,这些属性以 key-value 键值对的形式集成到文本切片中。更多信息,请参见知识库

enableHeadersboolean

非结构化知识库中 Excel 文档表头是否支持拼装。开启后,知识库会将所有 xlsx、xls 格式文档的首行数据视为表头,并自动拼接到每个文本切片中(数据行),避免大模型误将表头视为普通数据行来处理。展开详情

示例值:false
chunkModestring

启用自定义切分,并指定切分策略。更多信息,请参见知识库。可能取值(不支持同时传入多个值):展开详情

示例值:page枚举值:regexlengthh1h2page

返回参数

字段名称字段详情
Codestring

错误状态码。

示例值:Index.Forbidden
Dataobject

接口业务数据字段。

Messagestring

错误信息。

示例值:Invalid input, variable name is missing
RequestIdstring

请求 ID。

示例值:17204B98-xxxx-4F9A--2446A84821CA
Statusstring

接口返回的状态码。

示例值:200
Successboolean

接口调用是否成功,可能值为:展开详情

示例值:true
变更历史
暂无变更历史