OCR (optisk tegngjenkjenning) har eksistert i flere tiår. Men i løpet av de siste årene har multimodale LLM-er fullstendig endret hva som er mulig. Her er hvorfor det er viktig.
OCR før multimodale LLM-er
Tradisjonelle OCR-verktøy som Tesseract, ABBYY og Google Vision API fungerer ved å gjenkjenne tegnmønstre. De skanner et bilde, identifiserer former som ser ut som bokstaver, og gir ut tekst. Denne tilnærmingen har blitt forfinet over flere tiår og fungerer bra for rene, velstrukturerte dokumenter.
Hvordan tradisjonell OCR fungerer
- •Bildeforbehandling (støyreduksjon, binarisering, skjevhetskorrigering)
- •Tekstdeteksjon for å finne områder som inneholder tegn
- •Tegnsegmentering for å isolere individuelle bokstaver
- •Mønstermatching mot kjente tegnformer
- •Etterbehandling med ordbøker for å rette feil
Begrensningene
- •Sliter med håndskrift, uvanlige fonter eller dårlig bildekvalitet
- •Ingen forståelse av dokumentstruktur eller kontekst
- •Kan ikke skille mellom en total og en delsum
- •Tabeller kommer ofte ut som rotete tekst
- •Krever omfattende forbehandling for hver dokumenttype
OCR etter multimodale LLM-er
Multimodale LLM-er som GPT-4 Vision og Claude ser ikke bare tegn - de forstår dokumenter. De vet at et tall nederst på en faktura sannsynligvis er totalen. De gjenkjenner at en krøllet kvittering fra en thailandsk restaurant inneholder linjeposter, selv om teksten er falmet eller delvis skjult.
Tradisjonell OCR vs LLM-drevet OCR
| Aspekt | Tradisjonell OCR | LLM-drevet OCR |
|---|---|---|
| Tegngjenkjenning | Mønstermatching | Kontekstuell forståelse |
| Dokumentstruktur | Ingen (rå tekstutdata) | Forstår tabeller, overskrifter, seksjoner |
| Håndskrift | Dårlig | God |
| Skadede dokumenter | Feiler ofte | Kan utlede manglende informasjon |
| Dataekstraksjon | Krever separat parsing | Innebygd feltidentifikasjon |
| Flerspråklig | Trenger språkpakker | Innebygd flerspråklig støtte |
| Behandlingskostnad | Veldig billig | Høyere per dokument |
| Oppsettskompleksitet | Betydelig | Minimal |
“Nøkkelforskjellen er ikke bare nøyaktighet - det er forståelse. LLM-er kan svare "Hva er totalen på denne kvitteringen?" uten at du må skrive regler for hvor totalen kan være.”
Hva annet kan OCR brukes til?
Utover finansielle dokumenter driver OCR utallige applikasjoner på tvers av bransjer. Teknologien som leser kvitteringene dine er den samme teknologien som transformerer hvordan vi samhandler med den fysiske verden.
Helsevesen
- →Digitalisering av pasientjournaler
- →Behandling av resepter
- →Automatisering av medisinske skjemaer
Jus
- →Kontraktanalyse
- →Behandling av bevisdokumenter
- →Digitalisering av rettsdokumenter
Logistikk
- →Skanning av fraktetiketter
- →Lagerbeholdning
- →Tolldokumentasjon
Tilgjengelighet
- →Skjermlesere for blinde
- →Sanntids skiltoveroversettelse
- →Tekst-til-tale fra bilder
Arkivering
- →Digitalisering av historiske dokumenter
- →Bibliotekkatalogsystemer
- →Museumssamlinger
Bil
- →Kjennemerkegjenkjenning
- →Lesing av veiskilt
- →Parkeringssystemer
Hvorfor dette er viktig
Her er hva som begeistrer meg med dokument-OCR: det automatiserer ting ingen vil gjøre. Slitet. Den sjelknusende dataregistreringen som får deg til å stille spørsmål ved livsvalg.
Gjenvinne tiden din
Den haugen med kvitteringer fra forretningsreisen din? Bunken med fakturaer som må inn i regnskapsprogramvaren din? Kontoutskriftene du avstemmer? Hver av dem representerer minutter med manuell tasting. Minutter som summerer seg til timer. Timer du kunne brukt på bokstavelig talt hva som helst annet.
Fang utgifter hvor som helst
Du er på en restaurant i Tokyo. Kvitteringen er på japansk. Du tar et bilde, og det er allerede i utgiftsregnearket ditt før du har drukket opp kaffen. Ikke mer dytting av krøllet papir i lommeboken, i håp om å huske å ta seg av det "senere."
Redusere feil
Mennesker gjør feil når de taster inn tall. Vi transponerer sifre. Vi overser desimaltegn. Vi blir trette. AI blir ikke trøtt klokken 23 på en fredag når du prøver å avslutte regnskapet.
Fokusere på det som betyr noe
Når du ikke bruker timer på dataregistrering, kan du faktisk analysere dataene dine. Oppdage trender. Ta beslutninger. Drive virksomheten din i stedet for å mate dokumenter inn i den.
De beste verktøyene er de som forsvinner. Du burde ikke måtte tenke på hvordan data kommer fra et papir inn i regnearket ditt. Du burde bare kunne ta et bilde og gå videre med dagen. Det er hva moderne OCR gjør mulig.
—Julius