Paano mo maa-access ang nakuhang teksto mula sa isang larawan gamit ang Google Vision API?

by EITCA Academy / Wednesday, 27 2023 Disyembre / Inilathala sa Artipisyal na Talino, EITC/AI/GVAPI Google Vision API, Pag-unawa sa teksto sa visual data, Ang pagtuklas at pagkuha ng teksto mula sa sulat-kamay, Pagsusuri sa pagsusulit

Upang ma-access ang na-extract na text mula sa isang larawan gamit ang Google Vision API, maaari mong sundin ang isang serye ng mga hakbang na kinabibilangan ng paggamit sa mga kakayahan ng Optical Character Recognition (OCR) ng API. Ang teknolohiyang OCR sa Google Vision API ay nagbibigay-daan sa pagtuklas at pagkuha ng teksto mula sa mga larawan, kabilang ang sulat-kamay. Ang functionality na ito ay partikular na kapaki-pakinabang sa mga application na nangangailangan ng pagsusuri at pag-unawa sa textual na impormasyon na nasa visual na data.

Una, kailangan mong i-set up ang kinakailangang kapaligiran upang gumana sa Google Vision API. Kabilang dito ang paggawa ng proyekto sa Google Cloud Console, pagpapagana sa Vision API, at pagkuha ng kinakailangang mga kredensyal sa pagpapatotoo gaya ng API key o service account key.

Kapag na-set up na ang iyong environment, maaari mong gamitin ang paraan ng `asyncBatchAnnotateFiles` ng Vision API upang magsagawa ng OCR sa isang image file. Ang pamamaraang ito ay nagbibigay-daan sa iyo na ipasa ang isang listahan ng mga file ng imahe para sa pagproseso at matanggap ang mga resulta nang asynchronous. Bilang kahalili, maaari mong gamitin ang paraan ng `asyncBatchAnnotateImages` upang direktang iproseso ang isang listahan ng mga larawan.

Upang mag-extract ng text mula sa isang imahe, kailangan mong lumikha ng isang instance ng object na `AnnotateImageRequest` at tukuyin ang mga gustong feature. Sa kasong ito, itatakda mo ang feature na `TEXT_DETECTION` upang isaad na gusto mong mag-extract ng text mula sa larawan. Maaari ka ring tumukoy ng mga karagdagang parameter gaya ng pahiwatig ng wika upang mapabuti ang katumpakan ng OCR.

Susunod, kailangan mong i-encode ang image file sa isang base64-encoded string at lumikha ng isang instance ng object na `Image` gamit ang naka-encode na data ng imahe. Ang `Image` object na ito ay dapat idagdag sa `AnnotateImageRequest` object na ginawa kanina.

Pagkatapos i-set up ang kahilingan, maaari mo itong ipadala sa Vision API gamit ang `batchAnnotateImages` o `batchAnnotateFiles` na paraan, depende sa iyong napiling diskarte. Ipoproseso ng API ang larawan at magbabalik ng tugon na naglalaman ng na-extract na text.

Upang ma-access ang na-extract na text mula sa tugon, maaari kang umulit sa field ng `textAnnotations` ng object na `AnnotateImageResponse`. Ang field na ito ay naglalaman ng isang listahan ng mga bagay na `EntityAnnotation`, bawat isa ay kumakatawan sa isang nakitang elemento ng teksto sa larawan. Ang field na `description` ng bawat object na `EntityAnnotation` ay naglalaman ng na-extract na text.

Narito ang isang halimbawang code snippet sa Python na nagpapakita kung paano i-access ang na-extract na text mula sa isang larawan gamit ang Google Vision API:

python
from google.cloud import vision

def extract_text_from_image(image_path):
    client = vision.ImageAnnotatorClient()

    with open(image_path, 'rb') as image_file:
        content = image_file.read()

    image = vision.Image(content=content)

    request = vision.AnnotateImageRequest(
        image=image,
        features=[{'type': vision.Feature.Type.TEXT_DETECTION}]
    )

    response = client.batch_annotate_images(requests=[request])

    for annotation in response.responses[0].text_annotations:
        extracted_text = annotation.description
        print(extracted_text)

# Usage
extract_text_from_image('path_to_image.jpg')

Sa halimbawang ito, dinadala ng function na `extract_text_from_image` ang path sa isang image file bilang input at ginagamit ang library ng kliyente ng Google Cloud Vision upang magpadala ng kahilingan sa Vision API. Ang na-extract na text ay ipi-print out.

Upang ma-access ang na-extract na text mula sa isang imahe gamit ang Google Vision API, kailangan mong i-set up ang environment, lumikha ng object na `AnnotateImageRequest` na may mga gustong feature, i-encode ang image file, ipadala ang kahilingan sa API, at kunin ang na-extract na text. mula sa tugon. Ang mga kakayahan ng OCR ng Vision API ay nagbibigay-daan sa pagtuklas at pagkuha ng teksto mula sa mga larawan, kabilang ang sulat-kamay.

Iba pang kamakailang mga tanong at sagot tungkol sa Ang pagtuklas at pagkuha ng teksto mula sa sulat-kamay:

Higit pang mga tanong at sagot:

Patlang: Artipisyal na Talino
programa: EITC/AI/GVAPI Google Vision API (pumunta sa programa ng sertipikasyon)
Aralin: Pag-unawa sa teksto sa visual data (pumunta sa kaugnay na aralin)
Paksa: Ang pagtuklas at pagkuha ng teksto mula sa sulat-kamay (pumunta sa kaugnay na paksa)
Pagsusuri sa pagsusulit

Naka-tag sa ilalim ng: Artipisyal na Talino, Google Cloud Vision API, Pagproseso ng Imahe, OCR, Pagkilala ng Optical Character, Pagkuha ng Teksto

EITCA Academy

Paano mo maa-access ang nakuhang teksto mula sa isang larawan gamit ang Google Vision API?

Iba pang kamakailang mga tanong at sagot tungkol sa Ang pagtuklas at pagkuha ng teksto mula sa sulat-kamay:

Higit pang mga tanong at sagot:

Ang EITCA Academy ay bahagi ng European IT Certification framework

Pagiging karapat-dapat para sa suporta ng EITCA Academy 80% EITCI DSJC Subsidy

EITCA Academy

MAG-LOG SA IYONG ACCOUNT NG EITHER IYONG USERNAME O EMAIL ADDRESS

PILI ANG IYONG MGA DETALYE?

GUMAWA NG ACCOUNT

Paano mo maa-access ang nakuhang teksto mula sa isang larawan gamit ang Google Vision API?

Iba pang kamakailang mga tanong at sagot tungkol sa Ang pagtuklas at pagkuha ng teksto mula sa sulat-kamay:

Higit pang mga tanong at sagot:

Pagiging karapat-dapat para sa suporta ng EITCA Academy 80% EITCI DSJC Subsidy