插件下载了解更多
Alibaba Cloud Developer ToolkitbetaAlibaba Cloud OpenAPI
Alibaba Cloud Developer Toolkit is a collection of extensions that can help access Alibaba Cloud services in Visual Studio Code.
安装插件之前,确保已安装 JetBrains IDE安装插件之前,确保已安装 JetBrains IDE
Alibaba Cloud Developer ToolkitbetaAlibaba Cloud OpenAPI
The Alibaba Cloud Developer Toolkit for JetBrains makes it easier to access Alibaba Cloud services.
接口说明
本接口适用场景
- 阿里云全文识别高精版,是阿里云官方自研 OCR 文字识别产品,智能识别图片所包含的全部字段,集表格识别、旋转识别、生僻字识别等多功能为一体,提供高性价比的多场景文字识别体验。
- 阿里云 OCR 产品基于阿里巴巴达摩院强大的 AI 技术及海量数据,历经多年沉淀打磨,具有服务稳定、操作简易、实时性高、能力全面等几大优势。
- 本接口图片示例
本接口核心能力
分类 | 概述 |
---|---|
多功能集结 | 集表格识别、旋转识别、生僻字识别等多功能为一体。 |
抗干扰 | 支持多格式版面、复杂文档背景和光照环境的精准识别。 |
自动排异 | 对有印章、手印的文档,可实现印章擦除后识别。 |
高阶能力 | 支持覆盖文字编辑、低置信度过滤、图案检测。 |
如何使用本接口
步骤 | 概述 |
---|---|
1 | 开通 通用文字识别 服务。开通服务前后,您可以通过体验馆免费体验本功能识别效果。 |
2 | 购买全文识别高精版资源包。本 API 会赠送免费额度,可使用免费额度测试。 |
3 | 可以参照调试页面提供的代码示例完成 API 接入开发。接入完成后,调用 API 获取识别结果。如果使用子账号调用接口,需要阿里云账号(主账号)对 RAM 账号进行授权。创建 RAM 用户的具体操作,请参考:创建 RAM 用户。文字识别服务提供一种系统授权策略,即 AliyunOCRFullAccess。具体授权操作,请参见在用户页面为 RAM 用户授权。 |
重要提示
类型 | 概述 |
---|---|
图片格式 |
|
图片尺寸 |
|
图片大小 |
|
其他提示 |
|
流控信息
当前云产品API请求速率暂未透出。
请求参数
字段名称 | 字段详情 |
---|---|
Urlstring |
示例值:https://help-static-aliyun-doc.aliyuncs.com/file-manage-files/zh-CN/20241223/nognyw/%E5%85%A8%E6%96%87%E8%AF%86%E5%88%AB%E9%AB%98%E7%B2%BE%E7%89%88.png字符长度 <= 2048 |
bodystring<binary> |
示例值:图片二进制文件 |
OutputCharInfoboolean |
示例值:false |
NeedRotateboolean |
示例值:false |
OutputTableboolean |
示例值:false |
NeedSortPageboolean |
示例值:false |
OutputFigureboolean |
示例值:false |
NoStampboolean |
示例值:false |
Paragraphboolean |
示例值:false |
Rowboolean |
示例值:false |
返回参数
字段名称 | 字段详情 |
---|---|
RequestIdstring | 请求唯一 ID 示例值:43A29C77-405E-4CC0-BC55-EE694AD00655 |
Datastring | 返回数据 示例值:{ "content": "2017年河北区实验小学", "height": 3509, "orgHeight": 3509, "orgWidth": 2512, "prism_version": "1.0.9", "prism_wnum": 126, "prism_wordsInfo": [{ "angle": -89, "direction": 0, "height": 541, "pos": [{ "x": 982, "y": 223 }, { "x": 1522, "y": 223 }, { "x": 1522, "y": 266 }, { "x": 982, "y": 266 }], "prob": 99, "width": 43, "word": "2017年河北区实验小学", "x": 1230, "y": -26 }], "width": 2512 } |
Codestring | 错误码(如果识别成功,不会返回此字段) 示例值:noPermission |
Messagestring | 错误提示(如果识别成功,不会返回此字段) 示例值:You are not authorized to perform this operation. |
返回说明
返回参数说明
字段 | 类型 | 说明 |
---|---|---|
angle | int | 图片的角度(当 NeedRotate=true 时,返回此字段)。0 表示正向,90 表示图片朝右,180 朝下,270 朝左。 |
content | string | 识别出图片的文字块汇总。 |
figure | list | 图片中的图案信息(当 OutputFigure=true 时,返回此字段)。 |
prism_wordsInfo | list | 文字块信息。 |
prism_tablesInfo | list | 表格信息(当 OutputTable=true 时,返回此字段)。 |
prism_paragraphsInfo | list | 段落信息(当 Paragraph=true 时,返回此字段)。 |
prism_rowsInfo | list | 行信息(当 Row=true 时,返回此字段)。 |
prism_wnum | int | 识别的文字块的数量,prism_wordsInfo 数组的大小。 |
height | int | 算法矫正图片后的高度。 |
width | int | 算法矫正图片后的宽度。 |
orgHeight | int | 原图的高度。 |
orgWidth | int | 原图的宽度。 |
文字块信息(prism_wordsInfo 字段)
字段 | 类型 | 说明 |
---|---|---|
angle | int | 文字块的角度。 |
height | int | 文字块的高度(需考虑文字块的角度) |
width | int | 文字块的宽度(需考虑文字块的角度) |
pos | list | 文字块的外矩形四个点的坐标按顺时针排列(左上、右上、右下、左下)。当 NeedRotate=true 时,如果最外层的 angle 不为 0,需要按照 angle 矫正图片后,坐标才准确。 |
word | string | 文字块的文字内容。 |
tableId | int | 表格的 id(当 OutputTable=true 时,返回此字段)。 |
tableCellId | int | 表格中单元格的 id(当 OutputTable=true 时,返回此字段)。 |
charInfo | list | 单字信息。 |
单字信息(charInfo 字段)
字段 | 类型 | 说明 |
---|---|---|
word | string | 单字文字。 |
prob | int | 置信度。 |
x | int | 单字左上角横坐标。 |
y | int | 单字左上角纵坐标。 |
w | int | 单字宽度。 |
h | int | 单字高度。 |
表格信息(prism_tablesInfo 字段。当 OutputTable=true 时,返回此字段。)
字段 | 类型 | 说明 |
---|---|---|
tableId | int | 表格 id,和 prism_wordsInfo 信息中的 tableId 对应。 |
xCellSize | int | 表格中横坐标单元格的数量。 |
yCellSize | int | 表格中纵坐标单元格的数量。 |
cellInfos | list | 单元格信息。 |
单元格信息(cellInfos 字段)
字段 | 类型 | 说明 |
---|---|---|
tableCellId | int | 表格中单元格 id,和 prism_wordsInfo 信息中的 tableCellId 对应。 |
word | string | 单元格中的文字。 |
xsc | int | xStartCell 缩写,表示横轴方向该单元格起始在第几个单元格,第一个单元格值为 0。 |
xec | int | xEndCell 缩写,表示横轴方向该单元格结束在第几个单元格,第一个单元格值为 0,如果 xsc 和 xec 都为 0 说明该文字在横轴方向占据了一个单元格并且在第一个单元格内。 |
ysc | int | yStartCell 缩写,表示纵轴方向该单元格起始在第几个单元格,第一个单元格值为 0。 |
yec | int | yEndCell 缩写,表示纵轴方向该单元格结束在第几个单元格,第一个单元格值为 0。 |
pos | list | 单元格位置,按照单元格四个角的坐标顺时针排列,分别为左上 XY 坐标、右上 XY 坐标、右下 XY 坐标、左下 XY 坐标。 |
段落信息(prism_paragraphsInfo 字段。当 Paragraph=true 时,返回此字段。)
字段 | 类型 | 说明 |
---|---|---|
paragraphId | int | 段落 id,和 prism_wordsInfo 信息中的 paragraphId 对应。 |
word | string | 段落文字。 |
行信息(prism_rowsInfo 字段。当 Row=true 时,返回此字段。)
字段 | 类型 | 说明 |
---|---|---|
rowId | int | 行 id,和 prism_wordsInfo 信息中的 rowId 对应。 |
word | string | 行文字。 |
图案位置信息(figure 字段。当 OutputFigure=true 时,返回此字段。)
字段 | 类型 | 说明 |
---|---|---|
type | string | 图案类型。blicense_title 营业执照标题,national_emblem 中国国徽,barcode 条形码,qrcode 二维码,face 人脸,finger_print 指纹,signature 签名,round_stamp 圆形印章,oval_stamp 椭圆印章,rectangular_stamp 矩形印章,square_stamp 方形印章,rhombus_stamp 菱形印章 |
x | int | 图案左上角横坐标。 |
y | int | 图案左上角纵坐标。 |
w | int | 图案宽度。 |
h | int | 图案高度。 |
box | object | 图案坐标信息:中心横纵坐标,长宽,顺时针旋转角度。定义同 OpenCV 中 RotatedRect,请参见 OpenCV 文档。 |
points | list | 图案四个点坐标(左上、右上、右下、左下)。 |
返回示例
变更历史
变更时间 | 变更内容概要 | 操作 | |
---|---|---|---|
2022-11-15 | |||
2021-08-17 |