Ak chcete získať prístup k extrahovanému textu z obrázka pomocou rozhrania Google Vision API, môžete postupovať podľa série krokov, ktoré zahŕňajú využitie možností optického rozpoznávania znakov (OCR) rozhrania API. Technológia OCR v Google Vision API umožňuje detekciu a extrakciu textu z obrázkov, vrátane rukopisu. Táto funkcia je užitočná najmä v aplikáciách, ktoré vyžadujú analýzu a pochopenie textových informácií prítomných vo vizuálnych údajoch.
Najprv musíte nastaviť potrebné prostredie na prácu s rozhraním Google Vision API. Zahŕňa to vytvorenie projektu v konzole Google Cloud Console, povolenie rozhrania Vision API a získanie požadovaných overovacích poverení, ako je kľúč API alebo kľúč účtu služby.
Po nastavení prostredia môžete použiť metódu `asyncBatchAnnotateFiles` rozhrania Vision API na vykonanie OCR na súbore obrázka. Táto metóda vám umožňuje odovzdať zoznam obrázkových súborov na spracovanie a získať výsledky asynchrónne. Prípadne môžete použiť metódu `asyncBatchAnnotateImages` na priame spracovanie zoznamu obrázkov.
Ak chcete extrahovať text z obrázka, musíte vytvoriť inštanciu objektu `AnnotateImageRequest` a špecifikovať požadované funkcie. V tomto prípade by ste nastavili funkciu „TEXT_DETECTION“ na označenie, že chcete extrahovať text z obrázka. Môžete tiež zadať ďalšie parametre, ako je jazyková nápoveda, aby ste zlepšili presnosť OCR.
Ďalej je potrebné zakódovať súbor obrázka do reťazca zakódovaného v base64 a vytvoriť inštanciu objektu „Image“ pomocou zakódovaných údajov obrázka. Tento objekt `Image` by sa mal pridať do objektu `AnnotateImageRequest` vytvoreného skôr.
Po nastavení požiadavky ju môžete odoslať do Vision API pomocou metódy `batchAnnotateImages` alebo `batchAnnotateFiles`, v závislosti od zvoleného prístupu. Rozhranie API spracuje obrázok a vráti odpoveď obsahujúcu extrahovaný text.
Ak chcete získať prístup k extrahovanému textu z odpovede, môžete iterovať cez pole `textAnnotations` objektu `AnnotateImageResponse`. Toto pole obsahuje zoznam objektov `EntityAnnotation`, z ktorých každý predstavuje detekovaný textový prvok v obrázku. Pole „description“ každého objektu „EntityAnnotation“ obsahuje extrahovaný text.
Tu je príklad útržku kódu v Pythone, ktorý ukazuje, ako získať prístup k extrahovanému textu z obrázka pomocou rozhrania Google Vision API:
python from google.cloud import vision def extract_text_from_image(image_path): client = vision.ImageAnnotatorClient() with open(image_path, 'rb') as image_file: content = image_file.read() image = vision.Image(content=content) request = vision.AnnotateImageRequest( image=image, features=[{'type': vision.Feature.Type.TEXT_DETECTION}] ) response = client.batch_annotate_images(requests=[request]) for annotation in response.responses[0].text_annotations: extracted_text = annotation.description print(extracted_text) # Usage extract_text_from_image('path_to_image.jpg')
V tomto príklade funkcia „extract_text_from_image“ prevezme cestu k súboru obrázka ako vstup a použije knižnicu klienta Google Cloud Vision na odoslanie požiadavky do rozhrania API Vision. Extrahovaný text sa potom vytlačí.
Ak chcete získať prístup k extrahovanému textu z obrázka pomocou rozhrania Google Vision API, musíte nastaviť prostredie, vytvoriť objekt „AnnotateImageRequest“ s požadovanými funkciami, zakódovať súbor obrázka, odoslať požiadavku do rozhrania API a získať extrahovaný text. z odozvy. Možnosti OCR rozhrania Vision API umožňujú detekciu a extrakciu textu z obrázkov, vrátane rukopisu.
Ďalšie nedávne otázky a odpovede týkajúce sa Zisťovanie a extrakcia textu z rukopisu:
- Aké obmedzenia môžu nastať pri extrahovaní textu zo zložitých dokumentov pomocou rozhrania Google Vision API?
- Aký význam majú úrovne spoľahlivosti pri interpretácii textu v rozhraní Google Vision API?
- Ako dokáže Google Vision API presne rozpoznať a extrahovať text z rukou písaných poznámok?
- Aké sú výzvy pri zisťovaní a extrahovaní textu z ručne písaných obrázkov?
- Dokáže Google Vision rozpoznať rukopis?