tencent cloud

文档反馈

通用文字识别

最后更新时间:2024-01-20 09:22:44

    功能描述

    通用文字识别功能(Optical Character Recognition,OCR)基于行业前沿的深度学习技术,将图片上的文字内容,智能识别为可编辑的文本,可应用于随手拍扫描、纸质文档电子化、电商广告审核等多种场景,大幅提升信息处理效率。
    本接口属于 GET 请求,为同步请求方式。

    费用说明

    成功调用接口会产生 通用文字识别费用COS 读请求费用
    如果图片属于 COS 上的低频存储类型,成功调用接口会产生 COS 低频数据取回费用
    不支持对 COS 上的归档存储类型和深度归档存储类型的图片进行处理,如果需要处理此类型图片,请先 恢复归档文件

    限制说明

    图片支持格式:PNG、JPG、JPEG、BMP 及 PDF 文件。
    图片大小:所下载文件经 Base64 编码后不超过7MB
    图片分辨率:建议大于600*800像素,否则影响识别效果。
    调用接口需携带签名,具体规则请参见 请求签名 文档。

    请求

    请求示例

    GET /<ObjectKey>?ci-process=OCR&type=general&language-type=zh&ispdf=true&pdf-pagenumber=1&isword=false&enable-word-polygon=false HTTP/1.1
    Host: <BucketName-APPID>.cos.<Region>.myqcloud.com
    Date: <GMT Date>
    Authorization: <Auth String>
    说明:
    Authorization: Auth String(详情请参见 请求签名 文档)。
    通过子账号使用时,需要授予相关的权限,详情请参见 授权粒度详情 文档。

    请求参数

    参数名称
    描述
    类型
    是否必选
    ObjectKey
    对象文件名,例如:folder/document.jpg。
    String
    ci-process
    数据万象处理能力,图片文字识别固定为 OCR。
    String
    type
    OCR 的识别类型,有效值为 general,accurate,efficient,fast,handwriting。general 表示通用印刷体识别;accurate 表示印刷体高精度版;efficient 表示印刷体精简版;fast 表示印刷体高速版;handwriting 表示手写体识别。默认值为 general。
    String
    language-type
    type 值为 general 时有效,表示识别语言类型。支持自动识别语言类型,同时支持自选语言种类,默认中英文混合(zh),各种语言均支持与英文混合的文字识别。可选值请参见 可识别的语言类型
    String
    ispdf
    type 值为 general、fast 时有效,表示是否开启 PDF 识别,有效值为 true 和 false,默认值为 false,开启后可同时支持图片和 PDF 的识别。
    Boolean
    pdf-pagenumber
    type 值为 general、fast 时有效,表示需要识别的 PDF 页面的对应页码,仅支持 PDF 单页识别,当上传文件为 PDF 且 ispdf 参数值为 true 时有效,默认值为1。
    Integer
    isword
    type 值为 general、accurate 时有效,表示识别后是否需要返回单字信息,有效值为 true 和 false,默认为 false。
    Boolean
    enable-word-polygon
    type 值为 handwriting 时有效,表示是否开启单字的四点定位坐标输出,有效值为 true 和 false,默认值为 false。
    Boolean

    可识别的语言类型

    可选值
    语言
    可选值
    语言
    zh
    中英混合
    rus
    俄语
    zh_rare
    支持英文、数字、中文生僻字、繁体字,特殊符号等
    ita
    意大利语
    auto
    自动
    hol
    荷兰语
    mix
    混合语种
    swe
    瑞典语
    jap
    日语
    fin
    芬兰语
    kor
    韩语
    dan
    丹麦语
    spa
    西班牙语
    nor
    挪威语
    fre
    法语
    hun
    匈牙利语
    ger
    德语
    tha
    泰语
    por
    葡萄牙语
    hi
    印地语
    vie
    越语
    ara
    阿拉伯语
    may
    马来语
    
    

    请求头

    此接口仅使用公共请求头部,详情请参见 公共请求头部 文档。

    请求体

    该请求的请求体为空。

    响应

    响应头

    此接口仅返回公共响应头部,详情请参见 公共响应头部 文档。

    响应体

    该响应体返回为 application/xml 数据,包含完整节点数据的内容展示如下:
    <Response>
    <TextDetections>
    <DetectedText></DetectedText>
    <Confidence></Confidence>
    <Polygon>
    <X></X>
    <Y></Y>
    </Polygon>
    <ItemPolygon>
    <X></X>
    <Y></Y>
    <Width></Width>
    <Height></Height>
    </ItemPolygon>
    <Words>
    <Confidence></Confidence>
    <Character></Character>
    <WordCoordPoint>
    <WordCoordinate>
    <X></X>
    <Y></Y>
    </WordCoordinate>
    </WordCoordPoint>
    </Words>
    </TextDetections>
    <Language></Language>
    <Angel></Angel>
    <PdfPageSize></PdfPageSize>
    <RequestId></RequestId>
    </Response>
    具体的数据内容如下:
    节点名称(关键字)
    父节点
    描述
    类型
    Response
    保存结果的容器。
    Container
    Response 的内容:
    节点名称(关键字)
    父节点
    描述
    类型
    TextDetections
    Response
    检测到的文本信息,包括文本行内容、置信度、文本行坐标以及文本行旋转纠正后的坐标。
    Container
    Language
    Response
    检测到的语言类型,目前支持的语言类型可参考入参 language-type 说明。
    String
    Angel
    Response
    图片旋转角度(角度制),文本的水平方向为0°;顺时针为正,逆时针为负。
    Float
    PdfPageSize
    Response
    图片为 PDF 时,返回 PDF 的总页数,默认为0。
    Integer
    RequestId
    Response
    唯一请求 ID,每次请求都会返回。定位问题时需要提供该次请求的 RequestId。
    String
    TextDetections 节点的内容:
    节点名称(关键字)
    父节点
    描述
    类型
    DetectedText
    TextDetections
    识别出的文本行内容。
    String
    Confidence
    TextDetections
    置信度 0 - 100。
    Integer
    Polygon
    TextDetections
    文本行坐标,以顶点坐标表示 注意:此字段可能返回 null,表示取不到有效值。
    Container
    ItemPolygon
    TextDetections
    文本行在旋转纠正之后的图像中的像素坐标,表示为(左上角 x, 左上角 y,宽 width,高 height)。
    Container
    Words
    TextDetections
    识别出来的单字信息包括单字(包括单字 Character 和单字置信度 confidence),支持识别的接口:general、accurate。
    Container
    WordPolygon
    TextDetections
    字的坐标数组,以四个顶点坐标表示。
    注意:此字段可能返回 null,表示取不到有效值。支持识别的类型:handwriting。
    Container
    Polygon 节点的内容:
    节点名称(关键字)
    父节点
    描述
    类型
    X
    Polygon
    横坐标。
    Integer
    Y
    Polygon
    纵坐标。
    Integer
    ItemPolygon 节点的内容:
    节点名称(关键字)
    父节点
    描述
    类型
    X
    ItemPolygon
    左上角 x。
    Integer
    Y
    ItemPolygon
    左上角 y。
    Integer
    Width
    ItemPolygon
    宽 width。
    Integer
    Height
    ItemPolygon
    高 height。
    Integer
    Words 节点的内容:
    节点名称(关键字)
    父节点
    描述
    类型
    Confidence
    Words
    置信度 0 - 100。
    Integer
    Character
    Words
    识别出来的单词信息。
    String
    WordCoordPoint
    Words
    单字在原图中的四点坐标,支持识别的接口:general、accurate。
    Container
    WordCoordPoint 节点的内容:
    节点名称(关键字)
    父节点
    描述
    类型
    WordCoordinate
    WordCoordPoint
    单字在原图中的坐标,以四个顶点坐标表示,以左上角为起点,顺时针返回。
    Container
    WordCoordinate 节点的内容:
    节点名称(关键字)
    父节点
    描述
    类型
    X
    WordCoordinate
    横坐标。
    Integer
    Y
    WordCoordinate
    纵坐标。
    Integer
    WordPolygon 节点的内容:
    节点名称(关键字)
    父节点
    描述
    类型
    LeftTop
    WordPolygon
    左上顶点坐标。
    Container
    RightTop
    WordPolygon
    右上顶点坐标。
    Container
    RightBottom
    WordPolygon
    右下顶点坐标。
    Container
    LeftBottom
    WordPolygon
    左下顶点坐标。
    Container
    LeftTop,RightTop,RightBottom,LeftBottom 节点的内容:
    节点名称(关键字)
    父节点
    描述
    类型
    X
    WordCoordinate
    横坐标。
    Integer
    Y
    WordCoordinate
    纵坐标。
    Integer

    错误码

    该请求操作无特殊错误信息,常见的错误信息请参见 错误码 文档。

    实际案例

    请求

    GET /<ObjectKey>?ci-process=OCR&type=general&language-type=zh&ispdf=true&isword=true HTTP/1.1
    Authorization: q-sign-algorithm=sha1&q-ak=AKIDZfbOAo7cllgPvF9cXFrJD0a1ICvR****&q-sign-time=1497530202;1497610202&q-key-time=1497530202;1497610202&q-header-list=&q-url-param-list=&q-signature=28e9a4986df11bed0255e97ff90500557e0e****
    Host: examplebucket-1250000000.cos.ap-beijing.myqcloud.com

    响应

    HTTP/1.1 200 OK
    Content-Type: application/xml
    Content-Length: 414641
    Date: Thu, 15 Jun 2017 12:37:29 GMT
    Server: tencent-image
    x-cos-request-id: NWFjMzQ0MDZfOTBmYTUwXzZkZV8z****
    
    <Response>
    <Angel>359.99</Angel>
    <Language>mix</Language>
    <PdfPageSize>0</PdfPageSize>
    <RequestId>NTk0MjdmODlfMjQ4OGY3XzYzYzhf****</RequestId>
    <TextDetections>
    <Confidence>99</Confidence>
    <DetectedText>你好</DetectedText>
    <ItemPolygon>
    <Height>64</Height>
    <Width>123</Width>
    <X>140</X>
    <Y>167</Y>
    </ItemPolygon>
    <Polygon>
    <X>140</X>
    <Y>167</Y>
    </Polygon>
    <Polygon>
    <X>263</X>
    <Y>167</Y>
    </Polygon>
    <Polygon>
    <X>263</X>
    <Y>231</Y>
    </Polygon>
    <Polygon>
    <X>140</X>
    <Y>231</Y>
    </Polygon>
    <Words>
    <Character></Character>
    <Confidence>99</Confidence>
    <WordCoordPoint>
    <WordCoordinate>
    <X>212</X>
    <Y>167</Y>
    </WordCoordinate>
    <WordCoordinate>
    <X>341</X>
    <Y>167</Y>
    </WordCoordinate>
    <WordCoordinate>
    <X>341</X>
    <Y>231</Y>
    </WordCoordinate>
    <WordCoordinate>
    <X>212</X>
    <Y>231</Y>
    </WordCoordinate>
    </WordCoordPoint>
    </Words>
    <Words>
    <Character></Character>
    <Confidence>99</Confidence>
    <WordCoordPoint>
    <WordCoordinate>
    <X>341</X>
    <Y>167</Y>
    </WordCoordinate>
    <WordCoordinate>
    <X>263</X>
    <Y>167</Y>
    </WordCoordinate>
    <WordCoordinate>
    <X>263</X>
    <Y>231</Y>
    </WordCoordinate>
    <WordCoordinate>
    <X>341</X>
    <Y>230</Y>
    </WordCoordinate>
    </WordCoordPoint>
    </Words>
    </TextDetections>
    <TextDetections>
    <Confidence>99</Confidence>
    <DetectedText>再见</DetectedText>
    <ItemPolygon>
    <Height>43</Height>
    <Width>245</Width>
    <X>526</X>
    <Y>1444</Y>
    </ItemPolygon>
    <Polygon>
    <X>526</X>
    <Y>1444</Y>
    </Polygon>
    <Polygon>
    <X>771</X>
    <Y>1444</Y>
    </Polygon>
    <Polygon>
    <X>771</X>
    <Y>1487</Y>
    </Polygon>
    <Polygon>
    <X>526</X>
    <Y>1487</Y>
    </Polygon>
    <Words>
    <Character></Character>
    <Confidence>99</Confidence>
    <WordCoordPoint>
    <WordCoordinate>
    <X>564</X>
    <Y>1444</Y>
    </WordCoordinate>
    <WordCoordinate>
    <X>608</X>
    <Y>1444</Y>
    </WordCoordinate>
    <WordCoordinate>
    <X>608</X>
    <Y>1487</Y>
    </WordCoordinate>
    <WordCoordinate>
    <X>564</X>
    <Y>1487</Y>
    </WordCoordinate>
    </WordCoordPoint>
    </Words>
    <Words>
    <Character></Character>
    <Confidence>99</Confidence>
    <WordCoordPoint>
    <WordCoordinate>
    <X>608</X>
    <Y>1444</Y>
    </WordCoordinate>
    <WordCoordinate>
    <X>641</X>
    <Y>1444</Y>
    </WordCoordinate>
    <WordCoordinate>
    <X>641</X>
    <Y>1487</Y>
    </WordCoordinate>
    <WordCoordinate>
    <X>608</X>
    <Y>1487</Y>
    </WordCoordinate>
    </WordCoordPoint>
    </Words>
    </TextDetections>
    </Response>